弱智贴吧的数据,居然是最强中文语料库
北京看白癜风哪个医院专业 https://wapjbk.39.net/yiyuanfengcai/video_bjzkbdfyy/中国科学院、北大、中国科技大学、滑铁卢大学、01.ai等10家机构联合推出了,专用于中文的高质量指令调优数据集——COIG-CQIA。在大模型领域英语一直是训练数据最重要的语言,但由于中英文的结构和文化差异,直接将英文数据集翻译成中文并不理想。所以,为了填补高质量中文数据集的空白,研究人员开发出了COIG-CQIA数据集。COIG-CQIA几乎抓取了中文互联网的论坛、网站、百度贴吧、问答社区等高质量数据集。用COIG-CQIA对Yi-6B、Yi-34B进行指令调优,再用GPT4在BELLE-EVAL上评估在各种数据集上训练的大模型性能。有趣的一幕出现了,“弱智贴吧”的数据质量,居然大幅度超过知乎、豆瓣、是否等知名知识社区,还真是大智若愚啊~数据集 |
转载请注明地址:http://www.zaochanera.com/zcehl/19793.html
- 上一篇文章: 当心骗子拍了拍查询考研成绩的你这份
- 下一篇文章: 没有了