“弱智吧”封神,成为中国最好的Ai训练之一

“弱智吧”封神,成为中国最好的AI训练语料!

4月4日,“弱智酒吧”突然在中国人工智能领域刷屏。中国科学院使用主要社交平台的数据作为中国人工智能语料库数据进行培训。结果发现,“弱智酒吧”实际上是最好的中文语料库,在许多测试中获得了最高分!

目前,英语语料占LLM大型语言模型的大部分,大多数中文数据集在训练前从英语翻译。许多大型模型的中文效果比英语差。为了取笑人工智能,许多人经常用弱智的问题来挑战人工智能。为了更好地满足中国大型模型的需求,中国科学院和许多大学使用中国数据集来培训中国大型模型。

首先,该团队直接找到了某某、某瓣等社交网络平台,抓取并标记数据,并创建了一个新的中文指令微调数据集COIG-CQIA,用这些数据集训练零一万物开源大模型,用GPT4在BELE-Eval测试集上打分。

在340亿参数版的Yi-34B下,弱智吧的分数非常突出,可以说是一骑绝尘,在问答、分类、生成、总结、摘要、代码等方面都取得了极高的分数,而弱智吧也取得了72.6分的高分,最终均分76.9分遥遥领先!

弱智酒吧的出色成就也引起了很多讨论。与其他专业的技术问答社区相比,弱智酒吧的数据集实际上更加精致有效,提高了模型的逻辑推理能力。此外,“弱智”的方向非常多样化,文本质量非常高,从而提高了模型的性能。

而COIG-CQIA,它也成为目前相对高质量的中文指令微调数据集,从社交媒体、百科全书知识、考试题库等各种来源收集了大量高质量的中文指令。弱智酒吧的出色表现,以及高质量中文知识学习的潜力,也给我们带来了更深入的思考。

以下是“弱智吧”的传奇语段

严重的恐高症害的我终生无法低头捡到钱

为了保护这些未成年的*生妹学**,校长裸身冲向了扫黄的警察。

都想抓住青春的尾巴,可惜青春是只壁虎

太精明了,所以不够聪明

我最新的照片,其实是我最老的照片

我租下了世界,直到我将死的那天。

科学家研究了陨石的成分 发现那是我们儿时的梦想

黑夜侵犯了白天的隐私,就有了梦

我们都以为是雨滴落向地面,其实是我们坠入天空

山是地质年代极其缓慢的浪

工人*工罢**之后,就成为了人

我也想和月亮一样把不满写在脸上

于暴雨中行走,伞是倒挂天空的船

有的人看不到未来,其实是看到了未来

我失去光明的同时,也征服了太阳

吃什么补什么,所以吃苦成为不了人上人,只有吃人才行

我语重心长的在试卷上与下,老师你不要老向别人问自己想想

小红在舞台上演唱《种太阳》时,被后羿一箭射死

新闻真不能信,去年说全球最高龄老人是119岁,今年却说是120岁

要不给你妈来两刀?医生向患者家属提出了进行手术的建议

每个上网课的孩子都是耶稣,因为他们讨厌钉钉

老王逛完知乎之后说:“人均吕布,马均赤兔

所谓人间蒸发,所以人是液体。同理,灵魂升华,所以灵魂是固体

有异食癖的小明非常喜欢吃食堂饭菜

历史学需知:即使看着很像,但书上写的不是未来

连黑奴制度都容不下,美国也好意思自称文化大熔炉?

为了防止病人再次割腕自杀,杨医生为病人做了截肢手术。

既然猫的叫声是喵,羊的叫声是咩,那么狐狸的叫声是不是呱?

公元前202年高祖刘邦建立汉朝,为汉朝灭亡埋下祸根

张医生妙手回春,解决了夏天过于炎热的问题

去驾校学车,学了一个月还是学不像

“弱智吧”封神,成为中国最好的Ai训练之一

“弱智吧”封神,成为中国最好的Ai训练之一