#2月财经新势力#
最近,ChatGPT持续爆火,2月13日又有一个大事情发生,原美团联合创始人王慧文,出资5000万美元(约3.4亿人民币)招募人才,要打造中国OpenAI。
红杉资本曾大胆预测:ChatGPT这类生成式AI工具,让机器开始大规模涉足知识类和创造性工作,这涉及数十亿人的工作, 未来预计能够产生数万亿美元的经济价值。
大家不要忘记,此时此刻,距离ChatGPT问世才仅仅过去 2个半月时间 , 那么, ChatGPT是如何成为超级爆品的?ChatGPT爆火,又会带来哪些机会?
本文从以下 4个方面 ,为您分享:
- ChatGPT开启AI即服务新赛道
- 为什么ChatGPT及背后OpenAI公司会成功?
- ChatGPT背后的核心技术是什么?
- ChatGPT会给我们带来哪些机会?

01 ChatGPT 开启AI即服务新赛道
2023年初,在通信产业大会暨第十七届通信技术年会上,《通信产业报》全媒体发布的2023通信产业十大技术趋势中,AIGC被产业界15位专家联合提名发布。刚刚过去一个月有余,AIGC的重要落地应用ChatGPT就火遍全球,引起了业界广泛关注。那么,ChatGPT是什么?带来什么影响?中国版ChatGPT如何发展?
葛颀先生长期深耕通信产业一线,拥有超过26年的信息科技产业管理经验。就ChatGPT相关话题,《通信产业报》全媒体邀请葛颀,解构ChatGPT本质。
始于1969年的ARPANet,启动了全球的数字化进程。在过去的50多年里,我们亲身见证了 三次数字化转型浪潮。
第一波是以个人电脑PC和网线为代表, 鼠标是最重要的交互方式,专业人士生产的数字内容PGC是流量的核心。
第二波驱动力来自2007年乔布斯发明的苹果智能手机和4G网络, 今天全球已有35多亿用户通过多点触摸的方式连上了移动互联网。广大普通用户生产的海量数字内容UGC让很多人每天的屏幕时间超过6个小时。
2021年5月OpenAI 发布的GPT-3,不仅可以答题、翻译、写文章,还带有数学计算的能力,掀起了第三波数字化转型的浪潮。中赫集团副总裁、工体元宇宙GTVerse创始人CEO首席架构师葛颀认为, 当大带宽、低时延、高可靠的5G网络和语音、视觉、动作三位一体的AI紧紧融合在一起后,以“数实融合”为主要特征的新一代互联网正在爆发出无法想象的巨大数字红利,AIGC的千倍生产力潜能为我们带来了沉浸式的全新数字体验。
搜索引擎就是谷歌,智能手机就是苹果,AIGC就是ChatGPT。数字时代,谁创造了极致的用户体验,就会占据用户的心智空间、成为某一品类产品或是服务的代名词,由此获得头部市场的绝对份额,成为马太效应的第一玩家。
葛颀表示,进入2023年,GPT-3终于完成了从“能用”到“好用”的蜕变,以ChatGPT小版本的形式王者归来,呈现出大模型、全技能和自适配的新特点, AI as a Service--AI即服务终于成为AIGC最有可能变现的商业模式。
让人惊喜的是老英雄的心态最开放。微软在主动携手META将全栈的Teams、office等内容型产品与Meta Quest头显等硬件产品深度整合之后,又在第一时间将其核心业务平台搜索引擎bing和浏览器Edge中内嵌了ChatGPT服务,在提升个人消费者的数字生产力方面显示了巨大的灵活性和无限的可能性。
那么,ChatGPT开启的AI即服务新赛道,需要重点关注哪些问题?葛颀建议,应遵循三个原则。
第一,成本为王。 ChatGPT 毋庸置疑是高科技的珠穆朗玛峰,消耗着海量的研发投入和运营成本。需要注意的是,面向用户的高收费将会阻碍AI走入百行千业的时间窗口期。期待ChatGPT能尽快推出个人消费者免费、企业用户收费,体验版免费、专业版收费,或是轻量使用免费、超量使用收费等新商业模式,早日迈过日活20亿用户的门槛。
第二,体验为先。 从运营方式上看,在目前2C问答服务的基础上,ChatGPT丰富的AIGC能力还可以被尽可能地封装为标准化的API,以在线调用的方式赋能给多形态智能终端和在线客服、云端机器人等产业数字化场景,实现面向个人用户、企业用户和政府用户需求的有质量保证的服务交付。
第三,数据为道。 真正的大数据、开源的AIGC生态和高质量的数据源是ChatGPT能够成功的基石所在。我们需要高度关注移动互联网的碎片式寡头垄断带给AaaS的潜在挑战,可以通过更高效和更包容的法律手段,更大力度的公有数据开放和更透明的数据交易,保持数字生态的竞争力和活力,让更多、更好、更便宜的数据来训练和提升AIGC模型。

02 ChatGPT为什么能成功?
ChatGPT是非常成功的一次从技术研发到工程化、再到点燃大众热情的经典案例。
一、技术创新
Open AI持续的研究中,不断探索引入新的技术路线。这次引入的强化学习方法,很好地提升了模型的效果。在研究中,Open AI在模型训练中,引入了人类专家。专家一方面帮助ChatGPT撰写更符合人类习惯的回答,另一方面,也对生成的结果进行排名,通过这样的奖励机制,实现模型的微调优化。
二、组织文化
Open AI自成立之初,就致力于打造通用AI的能力,并坚定的持续投入,这是ChatGPT成功的一大关键因素。在这样的愿景下,吸引了一大批高水平的人才,在没有任何商业KPI的情况下心无旁骛地开展研发工作,最终取得了重大的突破。
三、反馈机制
通过用户的使用,Open AI可以获得用户对于模型优劣和使用体验的反馈,从而形成了模型使用到体验反馈的闭环,从而进一步优化模型。此外,Open AI还组织专门的反馈竞赛,鼓励用户针对回答中的风险危害、新颖的回答建议等方面给予反馈,参赛者有机会赢取500 美元的 API 积分,并可兑换相应奖品。
四、项目策划
一个影响力出圈的技术,与其项目策划密不可分。ChatGPT的问答和多轮对话形式,很好地激发了大众的热情和创造力,大家基于各自感兴趣的话题自由发挥,或幽默搞笑、或严肃认真,在朋友圈和媒体上屡屡刷屏。包括之前GPT3的推出,他写新闻、作诗、翻译、编代码等能力,也是在社会上产生了热议和讨论。这种很好地与公众互动的项目设计策略,也很值得我们学习。包括之前AlphaGo的围棋大战、Deepmind破解蛋白质折叠结构难题,都是很好的议题任务设置。
03 颠覆式创新 是OpenAI公司成功原因
ChatGPT火遍全网,引发了众多讨论,比如,人工智能可以多大程度地理解人、超过人、代替人。
与此同时,一个更原始的问题又被重新提起:为什么像ChatGPT这样的颠覆式创新,没有在有人、有钱、有资源的头部企业中诞生,比如谷歌、百度等,而是出于创业公司——推出ChatGPT的人工智能公司OpenAI 2015年才创办?颠覆式创新需要哪些重要条件?阻碍大企业出现颠覆式创新的因素是什么?
今天在《梁宁·产品思维30讲》的课里,我们一起回溯过去半个多世纪以来计算机的发展历程,你会发现,历史曾多次以相似的方式上演,而这些关于过往的总结,也许可以帮助我们, 更好地理解当下的技术变迁与企业兴衰。
马克思说:人的本质在其现实性上是一切社会关系的总和。你不是一个孤立的个体,你是你一切社会关系的总和。
企业是其赖以生存的价值网的某一节点。不管人还是企业都生活在一个网里。
一、价值网与颠覆式创新
什么叫价值网?《创新者的窘境》里有这样一段话:
真正决定企业未来发展方向的是市场价值网,而非管理者;真正主导企业发展进程的是机构以外的力量,而非机构内部的管理者。管理者只是扮演一个象征性的角色。
企业真正的管理者,就是识别自己赖以生存的价值网。 这个管理者应该建立一个组织,与这个价值网进行资源对接。
- 一个好的组织结构,它的每一个组织部门,都是为了和某一个社会价值网的分支进行对接而设计的。
- 一个失败的企业的组织结构,是管理者按照自己需求设置的。
谈颠覆式创新,为什么要先谈价值网?
因为很多没落的企业,在自己的价值网上依然是优秀的,只是它依附的价值网过时了;搭载在新的价值网上的企业,实现了自己的颠覆式创新。
就好像你是你社会关系的总和,你的社会关系哺育塑造了你,同时他们也锁定、限制和束缚了你。
一个企业成就于自己不同部门和它依附的价值网之间,资源与资金的输入输出。但它赖以存在的价值网,也会锁死这家企业。
马化腾说:“也许你什么错都没有,只是老了。”
很多没落的企业,也是什么错都没有,只是它的价值网过时了。
二、计算机行业的价值网更迭
我先讲一个古老的故事,其实是一连串古老的故事。
1940年代,世界第一台计算机ENIAC(电子数字积分计算机)被研制出来,这一伟大产品被认为是专为科研工作而设计的,因此公司对企业级商业市场毫无兴趣。
1950年左右,公司研制出UNIVAC(通用自动计算机)。同时,公司做了一次市场调研,结论是到2000年电脑的销售量将达到1000台。
为什么会出现这样的市场预判?因为它是基于自己的价值网做的预判,而UNIVAC(通用自动计算机)的公司的价值网就是为顶级科研服务,从这个角度而言,他并没有错。
IBM的计算机和其他早期的美国计算机一样,也是专门为科研设计的。但是不同的是,IBM积极拥抱了企业对计算机的强烈需求。
它其实用的就是UNIVAC(通用自动计算机)的技术,但是为会计工作做了优化,所以IBM公司叫国际商业机器公司,靠着服务会计起家。
10年以后,UNIVAC(通用自动计算机)仍然拥有当时最先进的计算机。但是,IBM却几乎拥有了整个计算机市场。
因为大家选择了不同的价值网,你可以认为IBM颠覆式创新,颠覆了UNIVAC(通用自动计算机)的市场。UNIVAC(通用自动计算机)的价值网在科研,而IBM公司的价值网在商业企业。
80年代,有句话说,“任何公司向IBM业已占据的领先地位直接发起挑战都无望获得成功。”
然而PC出现了,苹果电脑诞生了,联想诞生了。
后来的故事,就是我自己亲身经历的故事了,中国出了联想。1997年联想电脑在中国市场打败IBM、惠普、康柏位列中国市场占有率第一的时候,乔布斯刚返回苹果不久。
2004年,联想收购了IBM的PC业务,成为了全球PC的老大。
IBM曾经是神一般的存在, 而PC行业皇冠上的明珠ThinkPad,被联想摘下了。
苹果手机现在是手机行业皇冠上的明珠,如果有一天,小米把iPhone买了,一举成为全球手机行业老大,那成就和2004年联想收购了IBM的PC业务是类似的。
2004年,联想的杨元庆做到这件事的时候,只有40岁,雷军是40岁才刚刚创办了小米。所以杨元庆在40岁就已经取得了一个较高的成就。但是之后的十几年,他一直被牢牢地锁死在PC的这张价值网里,错过了移动互联网。
大家都说雷军是劳模,极其勤奋,如果说我还见过一个勤奋程度不逊于雷军的人,就是杨元庆。
杨元庆以一个中国本土企业,去整合高贵傲慢的IBM全球资源,两年的时间,持续两个星期飞3个洲,睡觉都在飞机上,下了飞机就开会,还练好了英语,用英语直接管理IBM分布在全球的经理人。
可见价值网的力量多么强大,即使像杨元庆这样超级优秀的人都难以挣脱。
三、价值网的三大要素
混沌大学的李善友教授是专门讲颠覆式创新的,他对价值网的解释是: 价值网里,至少有三个角色:一是客户,二是对手,三是投资人。
就是这三个核心力量,加上其他千丝万缕的牵制,牢牢地捆住一个大企业。
1.价值网里的第一个要素,是客户。
为什么IBM没有推出小型计算机?
因为它的客户是大型机构的核算和数据处理部门,不需要小型计算机。他们因为服务客户而错过了另外一个大的增长。
IBM没有进入小型机,因为背后的价值网是顾客决定的。企业第一目的是生存,生存必须获取资源,而资源是顾客提供的。
客户是我们最重要的资产,但也可能是我们最主要的创新盲区。
所以资源分配流程其实不是管理者定义的,而是来自价值网中的客户需求与对手挤压。并不是有技术、有人才就什么都能做。
2.价值网里的第二个要素,是对手。
在江湖里做企业,很多时候对手对你的刺激是直接刺激。
生物学说共同进化,两个人与其说是相互竞争,不妨说是跟竞争对手构成一个网,我恨你,你恨我,互相作为参照物,谁也离不开谁,眼里全是竞争对手。
比如360公司2011年上市,2012年全力以赴做搜索,在这之前是周鸿祎与李彦宏十一年的缠斗,这在周鸿祎出的自传中有提到。
但事实上,其实我们应该警醒。 我们会被思维遮蔽,真正缠住你视野的,有时候不是客户,而是你的对手。
所以,放下贪婪、愤怒,这也许真的要靠智慧。
3.价值网里的第三个要素:是投资人。
我想所有的创业者尤其是上市公司,对此深有体会。这也是为什么窝窝团要上市的时候,美团说谁先上市谁就输了。
因为资本所要求的增长是个魔咒。
联想2014年财务报告很漂亮,但是之后股价就大跌,为什么?因为没有达到分析师预测的增长。
股市是一个很丑陋的游戏,增长是一个魔咒,所有企业都丧失在里边,只有10%的企业能够维持良好的增长势头,而只有2%的企业长期超过市场绩效。
在资本的增长压力下,大公司很难进入小市场。李彦宏说过,对于百度来讲,低于1%收入比例的市场是不看的。
埃隆·马斯克做特斯拉的时候,电动车的销售额占据大型汽车厂商销量的不到1%。所以,大型汽车厂商会因增长魔咒的控制而眼睁睁地放任了特斯拉的崛起。
而小市场一旦启动指数级的爆发增长,大公司就再也追不上了。
四、组织心智
很多极其优秀的公司为什么失败了?
管理的书一定会告诉你是管理出问题了。
但是写《创新者的窘境》的克里斯坦森的说法是,良好的管理恰恰是他们未能保持行业领先地位的最重要的原因。
所以, 所谓管理得好的公司,往往是与现有价值网的紧密对接。 响应现有客户需求,紧盯对手,满足投资人。所有的弦都绷得高效、流畅,没有冗余和浪费,管理得无比完美。
整个公司的管理设计,都是为了高效服务现有价值网。 公司的资源配置如此,公司组织流程的设计也是类似,公司财务评估的方式更是如此。
然后就这样长期循环下去。资源要这样安排,组织流程必须这样才合理,财务评估要按照这种价值判断,以上因素加在一起,这是什么?
这就形成了“组织心智”。
联想是我的第一份工作,我19岁就在联想上班,我对这家公司有强烈的情感。当年它要做手机的时候,我就知道没戏,因为我了解这家公司的“组织心智”。
一系列在这个组织里无比合理的决定,让这家曾经伟大的企业,无法从现有的PC价值网中逃出来。
一个组织的心智模式定下来就真的很难以改变,像我们的基因一样看不见,但决定组织的整体思考方式。
这也是为什么新经济给了我们这些没背景,只会琢磨用户体验的人机会。我们的机会就是看到新崛起、新展开的价值网。
因为如果是一个新的增量市场,意味着这是一个新的价值网。传统老企业,它的组织心智不一样,所以它没有办法和你一样去做出反应,因此我们创业者充满机会。
iPhone开启了移动互联网,iPhone是第一台智能手机吗?当然不是。诺基亚早就开始了开发智能手机,并且智能手机的性能开发得很好。
但是诺基亚对手机的定义是通信产品,iPhone对手机的定义是互联网手机,是移动互联网的终端。看上去是一样的产品,但代表了完全不同的两张价值网。
联想从PC到移动互联网叫做遇到了非连续;诺基亚曾经是手机霸主,遇到了苹果也叫遇到了非连续。
什么是非连续?就是整个社会在发展,整体社会能力升级,新的需求被释放催生新的价值网。
传统企业在它传统的价值网里依然可以生存,例如联想依然是PC价值网的霸主,但它在新的价值网里是边缘企业。
新崛起的价值网,才是新大陆。
什么是颠覆式创新?
颠覆式创新最重要的标准就是,是否开启了一个新的价值网?你是不是到了“新大陆”?
也许它刚一开始很小,不到传统企业的1%。
1990年新浪来跟联想谈合作,我们会感到奇怪,当时它显然不如《计算机世界》《计算机报》,但是它是新的价值网。
特斯拉刚启动,不到传统汽车厂商的1%。iPhone一代刚发布,包括微软的鲍尔默在内的整个硅谷,都对它冷嘲热讽。
但是,它一旦开始,就不可逆。
很多产品方法,都是教你怎么从零到一做一个产品,安身立命赚点钱,继续服务、迭代。
颠覆式创新是屠龙术,是产生新帝国的机会。 概率非常之小,但我希望看到这篇文章的你,有机会做这样的事。
04 技术创新
ChatGPT背后的核心技术是什么?
今年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。
据报道,ChatGPT在开放试用的短短几天,就吸引了超过 100 万互联网注册用户。并且社交网络流传出各种询问或*戏调**ChatGPT的有趣对话。甚至有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体,能够在实时互动的过程中获得问题的合理答案。
ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。
通过学习大量现成文本和对话集合(例如Wiki),ChatGPT能够像人类那样即时对话,流畅的回答各种问题。(当然回答速度比人还是慢一些)无论是英文还是其他语言(例如中文、韩语等),从回答历史问题,到写故事,甚至是撰写商业计划书和行业分析,“几乎”无所不能。甚至有程序员贴出了ChatGPT进行程序修改的对话。
ChatGPT也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光。
一、ChatGPT的传承与特点
1. OpenAI家族
我们首先了解下OpenAI是哪路大神。
OpenAI总部位于旧金山,由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立,目标是开发造福全人类的AI技术。而马斯克则在2018年时因公司发展方向分歧而离开。
此前,OpenAI 因推出 GPT系列自然语言处理模型而闻名。从2018年起,OpenAI就开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各类内容。
每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3, 参数量达到了1750亿。

GPT家族主要模型对比
2. ChatGPT的主要特点
ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型,是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练,或用于收集大量对话数据。

OpenAI使用RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。
此外,ChatGPT 还具有以下特征:
1) 可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。
2) ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。
3) ChatGPT 可以承认自身的无知,承认对专业技术的不了解。
4) 支持连续多轮对话。
与大家在生活中用到的各类智能音箱和“人工智障“不同,ChatGPT在对话过程中会记忆先前使用者的对话讯息,即上下文理解,以回答某些假设性的问题。ChatGPT可实现连续对话,极大的提升了对话交互模式下的用户体验。
对于准确翻译来说(尤其是中文与人名音译),ChatGPT离完美还有一段距离,不过在文字流畅度以及辨别特定人名来说,与其他网络翻译工具相近。
由于 ChatGPT是一个大型语言模型,目前还并不具备网络搜索功能,因此它只能基于2021年所拥有的数据集进行回答。例如它不知道2022年世界杯的情况,也不会像苹果的Siri那样回答今天天气如何、或帮你搜索信息。如果ChatGPT能上网自己寻找学习语料和搜索知识,估计又会有更大的突破。
即便学习的知识有限,ChatGPT 还是能回答脑洞大开的人类的许多奇葩问题。为了避免ChatGPT染上恶习, ChatGPT 通过算法屏蔽,减少有害和欺骗性的训练输入。,查询通过适度 API 进行过滤,并驳回潜在的种族主义或性别歧视提示。
二、ChatGPT/GPT的原理
1.NLP
NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解,以及对上下文短语的误解。
对于人类或AI,通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。

NLP技术的应用领域
本质上,作为ChatGPT基础的GPT-3或GPT-3.5 是一个超大的统计语言模型或顺序文本预测模型。
2.GPT v.s.BERT
与BERT模型类似,ChatGPT或GPT-3.5都是根据输入语句,根据语言/语料概率来自动生成回答的每一个字(词语)。从数学或从机器学习的角度来看,语言模型是对词语序列的概率相关性分布的建模,即利用已经说过的语句(语句可以视为数学中的向量)作为输入条件,预测下一个时刻不同语句甚至语言集合出现的概率分布。
ChatGPT 使用来自人类反馈的强化学习进行训练, 这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中,人类训练者扮演着用户和人工智能助手的角色,并通过近端策略优化算法进行微调。
由于ChatGPT更强的性能和海量参数,它包含了更多的主题的数据,能够处理更多小众主题。ChatGPT现在可以进一步处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。

BERT与GPT的技术架构(图中En为输入的每个字,Tn为输出回答的每个字)
三、ChatGPT的技术架构
1. GPT家族的演进
说到ChatGPT,就不得不提到GPT家族。
ChatGPT之前有几个知名的兄弟,包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大,ChatGPT与GPT-3更为相近。

ChatGPT与GPT 1-3的技术对比
GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT-1只有12个Transformer层, 而到了GPT-3,则增加到96层。
2.人类反馈强化学习
InstructGPT/GPT3.5(ChatGPT的前身) 与GPT-3的主要区别在于,新加入了被称为RLHF (Reinforcement Learning from Human Feedback,人类反馈强化学习)。 这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。
在InstructGPT中,以下是“goodness of sentences”的评价标准。
- 真实性:是虚假信息还是误导性信息?
- 无害性:它是否对人或环境造成身体或精神上的伤害?
- 有用性:它是否解决了用户的任务?
3.TAMER框架
这里不得不提到TAMER (Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理) 这个框架。 该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练), 从而快速达到训练任务目标。
引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。
而TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。 TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程 (MDP) 奖励进行强化学习 (RL) 的过程。

TAMER架构在强化学习中的应用
具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中,Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。
在此基础上, ChatGPT 可以比 GPT-3 更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。
4. ChatGPT的训练
ChatGPT的训练过程分为以下三个阶段:
第一阶段:训练监督策略模型
GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型(获得SFT模型, Supervised Fine-Tuning)。
此时的SFT模型在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。

ChatGPT模型的训练过程
第二阶段:训练奖励模型(Reward Mode,RM)
这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。 在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。
接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。
第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。
PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习, 这个转化过程被称之为Importance Sampling。 这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。
如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。
05 ChatGPT爆火 会带来哪些机会
ChatGPT爆火,带来哪些机会? AIGC技术红利释放,多角度挖掘深度受益机会。
那么,哪些行业以及企业大概率会是这轮技术红利的深度受益者?
首先,直接涉及ChatGPT和AIGC的产业化。 而从中短期视角来看,主流机构也普遍给出了几个较为明确的方向:
其一,文本生成。 ChatGPT作为文本模态的AIGC,其应用具有直接的现实意义,特别是在归纳性文字类工作中展现出极为优异的表现。所以,未来向包括会议总结、文件翻译、例行报告等办公场景迅速延展获看好。
目前,主打文字生成的初创企业如Jasper,主要针对社交媒体、广告、文章、邮件等不同类型的内容生成。除此之外,海外巨头也纷纷跟进合作,在传媒、写作、办公等领域开始落地应用。据悉,BuzzFeed已宣布与OpenAI合作写稿。
其二,代码生成, 即将自然语言翻译成代码,从而极大地提升编程效率。以谷歌旗下的Github推出的Copilot为例,每年可为其节省开发成本或达百亿美元。
目前,OpenAI、微软、谷歌、亚马逊、华为等都在该领域有所布局。
其三,图像生成, 是除文本模态之外的另一个热门布局领域。目前,海外以OpenAI的Dall·E 2、Midjourney、Stable Diffusion代表,国内主要产品包括百度的文心一格、美图的美图秀秀、万兴科技的万兴AI绘画、毛线球科技的6pen、映刻科技的清墨社区等等。
当然,除了文本和图像之外, 音频、视频及跨模态生成等都属于AIGC的范畴,跨模态发展被视为AIGC未来的主流趋势之一。
但若以技术的成熟度、配套的数据和商业路径而论,文本、图像生成类目前已走在前列,Midjourney、ChatGPT相继出圈,更是直接为跟随者打了个样。
与此同时,由于参与者越多,ChatGPT等依托的模型进化的速度也会越快。相比而言,AIGC在视频和动画领域的发展相对落后,目前被认为仍存在连贯性和逻辑性的问题。
其四,智能客服, 被视为ChatGPT良好的落地场景,有望在to C的场景中率先落地的应用,相比目前的智能客服,ChatGPT支撑的客服将在灵活性与人性化服务方面有显著的进步。近两年来,国内一级市场中也涌现出大量智能客服公司。
根据佛若斯特沙利文发布的《2021年中国智能客服市场报告》显示,2020年中国智能客服行业投融资事件有23件,投资总金额为34.4亿元,同比增长123%;2021年上半年,该领域投融资事件有13件,投资金额达23.4亿元,其中一半是C轮至D轮,可见各细分赛道企业渐趋成熟。
目前,ChatGPT更多是海外的狂欢,国内尚未出现一款类似的爆款应用,但基于产业升级和自主可控的大背景之下,寻找中国自己的ChatGPT-like投资机会无疑是合理且令人期待的。当然, 除了上述所提及的AIGC企业之外,目前主要还有以下几类值得关注:
一是以阿里巴巴、华为、腾讯及百度为代表的基础云厂商, 具备做出通用ChatGPT的能力,既受益于AIGC快速发展所带来的算力需求增长,也有着足够的数据和算力,来继续推动大模型的优化及落地。
二是以科大讯飞为代表的AI算法领先企业。 科大讯飞为机构普遍看好,并被视为计算机板块中最有可能做出通用ChatGPT的公司之一。因为国情不同,其在国内可作为关键基础设施的通用型ChatGPT,在除了互联网巨头之外也有广阔的发展空间。
三是拥有天然的场景应用及配套数据优势的互联网平台。 例如,国内最大的在线问答社区---知乎。在该内容社区中,问题被视作起点,由此引发的讨论和答案,是知乎内容的核心,这与ChatGPT这类基于对话模式,以问答类任务为主的效率工具可以说是天然契合,尤其是知乎长期以来所形成的良好知识分享环境和社区氛围。
另外,高价值内容数据的集合是做好ChatGPT这种大模型的核心之一,ChatGPT的优异表现也是建立在庞大数据量的训练基础上,并通过引入“手动标注数据+强化学习”(RLHF,从人的反馈进行强化学习)来不断调整预训练语言模型,大幅提升ChatGPT对人类意图的理解,从而提升回答信息的准确性。
凭借多年对于高质量内容的深耕细作,知乎在数据方面的优势亦可想而知。根据其2022年第三季度财报数据显示,知乎社区内的内容量已累计超5.79亿条,问答量累计超4.82亿条。此外,包括海量的用户点赞互动等投票数据,这既是对内容质量的一种筛选,同时也对于AIGC大模型的开发也是一种天然优势。
这也为其迈入智能化新阶段奠定了基础。除了将极大地提升内容生产和问答的效率之外,高频互动模式下对于用户粘性的增强和产品的进化,想必都是令人关注和可以期待的。
此外,ChatGPT带来惊喜和风光的同时,也制造出了一些焦虑和麻烦。例如,在教育出版行业,目前已有数千种科学期刊明令禁止或限制投稿人使用ChatGPT撰写编辑论文。
目前业内对此一致的谨慎态度,主要在于对AI数据的可靠性和实验成果的质量的担忧。这反倒也让我们进一步看到了像知乎这类本身有着庞大内容数据库平台的优势。 无论是算法的迭代还是AI发展,内容数据库本身的价值,仍然是一个平台进化的重要基础。
回归产业发展趋势来看,AIGC被认为是继PGC、UGC之后的一种新型的内容供应范式,不论是“打辅助”,还是最终“独当一面”,本质上都是一场效率革命。归根结底,都在于技术平替人力。也就是说,人力成本占比较高的行业/企业降本增效的潜力理论上也会比较大。
目前来看,除了典型的劳动力密集型行业之外,重技术研发的软件、制作/版权成本占比较高的内容制作等领域理应有更大的可优化空间。前者例如游戏行业,后者包括影视、传媒等典型内容行业的制作,其中以爱奇艺为代表的长视频平台内容成本占比高达七成左右,而以腾讯音乐为代表的音乐流媒体平台服务成本也占到了约六成(其中主要为内容成本)。
由于当前AI在图像、音乐生成领域相对较为成熟,而在视频类(直播/剧集/电影/综艺)的技术发展相对缓慢,所以图像、音乐类内容产业链有望率先受益于生成式AI技术的发展和应用。
不论是ChatGPT现有的丰富使用场景,还是AIGC广泛的应用场景,其想象空间显然远不止于此。同样, 其背后的大模型算法的应用边界,想必也远不止于此。
内容来源:
第1部分内容来源公众号:通信产业网。第2部分内容来源公众号:腾讯研究院,作者:王强,王强:腾讯研究院资深专家、前沿科技研究中心主任。第3部分内容来源:得到课程《梁宁·产品思维30讲》,作者:梁宁。梁宁:著名产品人,得到课程《产品思维30讲》、《增长思维30讲》主理人。转载自公众号:逻辑思维。
第4部分内容来源公众号:架构师技术联盟,作者:陈巍,陈巍:博士,作者本人曾担任华为系自然语言处理( NLP )企业的首席科学家。存算一体/GPU架构和AI专家,高级职称。中关村云计算产业联盟,中国光学工程学会专家,国际计算机学会(ACM)会员,中国计算机学会(CCF)专业会员。曾任AI企业首席科学家、存储芯片大厂3D NAND设计负责人,主要成就包括国内首个大算力可重构存算处理器产品架构(已在互联网大厂完成原型内测),首个医疗领域专用AI处理器(已落地应用),首个RISC-V/x86/ARM平台兼容的AI加速编译器(与阿里平头哥/芯来合作,已应用),国内首个3D NAND芯片架构与设计团队建立(与三星对标),国内首个嵌入式闪存编译器(与台积电对标,已平台级应用)。第5部分内容来源公众号:格隆汇APP,作者:贝尔席,数据支持:勾股大数据(www.gogudata.com)
以上内容版权均属于原作者,如有侵权,请联系删除。