#挑战30天在头条写日记#
研发 chatGPT 的团队有一个基本假设,就是:“规律蕴含在语料中”。
这里说的“规律”,可以是语法规则、也可以是逻辑规则,这样描述是站在人类视角,更准确的说,机器学到的“规律”是“数据在统计上的相关性”——谈不上因果、也大概无法被形式化。
打个比方,你没有道路图,但是你有大量行车轨迹图,那只看行车轨迹图也能对道路有所了解。当然在语言世界里,要复杂得多。
研发团队的第二个假设是:“任务蕴含在语料中”。
以往大部分机器学习就像上课一样,要学什么、怎么算学得好都是事前定好的。课得一门一门的上,任务得一个一个训练,这叫“有监督学习”。与此相反,不事前预设任务,让机器自己在训练中形成完成(非特定)任务的能力,就是“无监督学习”。在训练chatGPT 时,人们并不设定具体的训练目标,单单就是希望机器能做有效的压缩。
研发团队认为,只要机器能做有效的压缩,就等同于它在一定程度上“发现了规律”。大白话就是“能用尽量少的话讲清楚尽量多的事,就是本领”。当模型能做有效压缩之后,人们会设计一些专门的问答任务,来引导模型更好符合人们的期望,就是模型优化阶段。
研发团队的第三个假设是:只要“规模足够大,本领就能练出来”。
在“无监督学习”阶段,当语料足够多了、模型足够大了,蕴含在数据之间的相关性,会显得越来越有意义,以至于说机器的行为可以某种程度拟合人的行为。这就是“大型语言模型”的由来。
到什么程度才算“足够大”?模型效果的提升,在一开始是缓慢的,经过几年的努力,越过某个节点后,比如数百亿个网络节点,模型效果突然变好,再经过适当的优化,效果就好得惊人。人们用“大力出奇迹”来形容这个现象。
这中间需要技术信念来支持,可能好几年效果都不足够好,而计算成本越来越高,获得成功需要耐心也需要运气。
综上可知,对于chatGPT,语料和规律是混在一起的:它既存储了知识,也发现了某些规律,知识就是规律,规律就是知识。再次强调,这里的“规律”不是常人理解的那样一条一条形式化好的规律,而是某种统计上的相关性,对应着某种“压缩-解压缩”方式,这就是所说的chatGPT 的“泛化能力”。
从长远来看,chatGPT 的这两种能力——“存储”知识的能力和“泛化”知识的能力,在未来一定会越来越分离。毕竟,没有人期望真的有一个无所不知的超级智能,那意味着知识的垄断和信息的不安全。
特别是,当知识出现污染,虚假信息或有害信息一旦进入了网络,却不能很快的清楚,那有害信息的传播会随着 chatGPT 工具迅速造成影响。从神经网络中消除某些信息,可比从搜索引擎中删去某些信息要有挑战。
所以“存储”和“泛化”的分离,将是大势所趋。
有些办公软件,对大模型技术的使用,就是整理会议记录:对会议内容“语音转文字”后,形成结构化的内容,这就是单独在用模型的“泛化”能力。
可以预见,未来很多创业公司做法,就是用通用大模型打底,在自有数据上训练自己的小模型,让模型能力在特定领域和人类能力“对齐”。这就是所谓的“人人都有自己的 chatGPT”。在未来,“自有的可信数据”将会是这些公司的核心资产,也可能是一些高能力个人的核心资产。

总结一下,对于chatGPT的“泛化”能力,可以说:
“网络”提供了泛化的潜力;
“数据”指导了泛化的方向;
“规则”约束了泛化的边界;
“网络”就是指“神经网络”及其训练方式,还有支撑网络运算的算力。这是泛化能力的基础。
“数据”在广义上指所有语料,狭义上指为了提升模型效果而专门制备的数据。数据质量是决定模型效果的关键。
“规则”指为了让模型符合人们预期而做的设定,包括在“AI对齐”的工作中。
改进chatGPT就是改进这三个方面。
