数智转型和数字转型 (数智技术时代的组织变革)

引言

本文精选大模型圆桌会议议题以及大模型领域专家硬核观点,围绕大模型应用落地与企业创新展开讨论。

精彩议题:

Q1:您是怎么与大模型结缘的?

Q2:大模型在不同应用领域的思考,包括大模型的优势和局限性,以及如何克服这些局限性?

Q3:当下国内大模型创业的方向都有哪些?总体呈现什么特点?哪些最契合大模型当前的技术能力?

Q4:大模型将对各行人才提出哪些新要求?

硬核观点:

1. 大模型在没有标准答案的场景下,表现会超出预期;但是在有标准答案的场景下,专业性能是一个很重要的约束条件,幻觉问题会给用户造成很大困扰;

2. 在ToB行业,更多通过大模型能力提升客户效率和用户体验;

3. 针对大模型的幻觉问题,一个解决方案是给物理世界中客观存在的事物进行编码,赋予一个精确的、独特的ID;

4. 时效性差、幻觉问题和专业性不足,是大模型在实际应用中的局限,搭建实时的专业资料库是问题的解决方向之一;

5. 随着大模型能力提升、应用深入,未来企业形式可能会变成超级个体。从个人角度,需要拥抱变化,让大模型工具融入到日常工作流程中,提升个人生产力和工作效率;

6. 未来,大模型和专家模型不是完全替代关系,而可能是互补关系;

7. 2-3年后一个软件研发团队核心只有三个人,一位产品经理、一位架构师和一位测试主管。

DataFun社区|出品

数据智能专家访谈 第23期|来源

01.

Q1:各位专家是如何与大模型结缘的?

张永锋:

2021年:刚开始接触大模型,主要是谷歌的T5模型,距离ChatGPT出来还有一年多,当时认为大模型有生成潜力,所以希望把大模型和推荐系统结合起来做一些工作。大模型有能力做Multi-task Learning(多任务学习),可以把很多不同的任务都统一形成自然语言的输入-输出形式,然后用一个模型去完成多种任务,例如T5可以把QA问答、翻译等其他NLP(自然语言处理)任务,融合成自然语言的输入-输出形式。

因此我们尝试了一些推荐系统的典型任务,包括打分预测、生成解释、序列化推荐等,用这种自然语言的方式进行描述输入,希望推荐系统可以直接为用户生成需要推荐的内容,而不是像过去一样先对Candidate Item(候选项)打分,再基于分数做Ranking(排序)后推进。 这项工作2022年夏天的时候已发表。

2022年12月:秋季的时候ChatGPT出来,12月初第一次使用ChatGPT,与之前的对话系统相比非常流畅,第一直观感觉是为什么可以记住长文本的对话历史。

2023年2-3月份:突然意识到ChatGPT是一个革命性的变化,一方面它可以完成很多对话任务,打破了之前对于对话系统的局限认知;另一方面它可以与物理世界产生联系,甚至可以调动很多其他模型来完成复杂任务,所以大家觉得大模型会是一个通向AGI的入口。

徐安华:

最早接触大模型,还是在2018年,BERT出现的时候。当时希望解决自然语言模型在领域内落地的样本少问题,所以比较关注Few-shot learning(小样本学习)。希望模型在领域落地时能够尽量少地使用标注数据,尽量多地利用外部公开数据中所包含的知识。后来我们逐步从NLP过渡到文档结构理解等多模态的模型交付,逐步关注了微软的LayoutLM。事实上,在ChatGPT爆火之前我认为绝大多数的公司依然是以本身行业应用为出发点,不断优化算法的业务指标,并通过模型压缩、模型量化等方式不断降低模型的推理成本。

2020年底,我们开始关注Prompt Learning,这是一种有可能在Bert+领域微调之后再次改变NLP整体落地过程的新范式。但限于模型规模,以及落地效果不及预期,这种非常有希望的新模式依然还是更多保留在了学术探索上。

2022年底ChatGPT爆火,大模型以并不优雅但足够烧钱的方式让所有人见证了一个新的范式的到来 (Prompt Learning似乎都不是很必要,直接用In Context Learning就可以了) 。当时我们的第一感觉是我们可以做以下的一些事儿:

1)借助大模型标注数据:这件事儿甚至一下子让每天苦于整理数据的算法工程师变得跟普通开发工程师一样可以留出更多的时间多写一些算法代码。

2) 构建自有知识库,提升知识查询效率:企业内大量的信息存在于数据库或者文档中,基于倒排索引、知识图谱、领域内向量模型的方式免不了大量的基础工作。有了ChatGPT我们可以迅速对这些内容进行信息的组织以及完全针对问题给出答案。

3)仿照NLP大模型的这种潜力,构建其他方向的大模型:这是一件显而易见的事儿,ChatGPT之后更大的机会还在这种新的模型构建方向所带来的机会。

事实后来也证明,这些事儿陆续在发生,所有人都还需要一些时间去适应这种变化。

李渔:

我们的 ToB 服务一直聚焦国内金融机构,以基金公司和券商机构为主,这些机构希望建设投研数据中心,通过AI等手段帮助提升信息不对称的竞争优势,从而获取超额收益。我们一直使用NLP技术手段帮助机构提升投资研究和最终投资决策的整体效率,即进行信息挖掘和信号提取。

从2019年开始做这方面投入,2020年开源发布了国内第一个金融领域场景下的中文预训练模型FinBERT,据不完全统计,很多国内的大型金融机构都在用这个模型。

2019年开始关注GPT-2,针对理解类任务,BERT相对于生成式模型的成本、效率和能力优势更明显。ChatGPT出现后,从模型本身尺寸和数据量上都带来了规模效应的突变,改变了NLP的整套范式,AGI的大门已初步打开。ChatGPT相对于GPT3已经有非常大的提升,尤其是复杂逻辑推理方面,在接下来2-3年还会出现更大的变化,相对于人类来说有几个比较大的独特优势:

1) 可继承:在没有任何损失的前提下,将知识迁移给下一个模型;

2) 可复制,支持远距离传输:即使在月球上,也可以通过激光方式直接传输训练好的模型,这样在月球上也同样具有一个高度智能智力的模型;

3) 不会疲惫:只要一直给机器供电,就可以不停止地工作,未来的机器智能能力难以想象。

我们本身不会做底层大模型的预训练,而是基于底层模型调优,做场景化落地。另外,还会做一些系统,例如:

1) 面向投资研究的会议摘要系统:能够快速把两三个小时的专家会议形成面向于个股或整个行业的近期要点,实现每天晚上将当天全市场的资料分析一遍形成总结性资料,帮助研究员和投资经理提升效率;

2) 面向金融场景的机器问答系统:目的是在2-3个月之内,初步达到初级分析师的能力。

02.

Q2:大模型在不同应用领域的思考,包括大模型的优势和局限性,以及如何克服这些局限性?

张永锋:

生成式AI提供给用户的内容是生成出来的。在没有标准答案、开放性的领域,如图像生成艺术、作画、诗歌生成、文学创作等领域,生成式AI是一个好事情。但是在其他领域, 以推荐系统为例,生成式AI存在幻想(Hallucination)问题,生成一些看上去正确、实际不存在或不合理的内容, 例如推荐不存在的餐厅、电影和假新闻,新闻可能会涉及对当事人的评价,甚至造成名誉损害、经济损失等负面影响,这是大模型在推荐系统领域遇到的关键性问题。

我们的 解决方案是给物理世界中客观存在的事物进行编码,赋予一个精确的、独特的ID ,从而大模型可以完全精确地定位事物、甚至操控它,这在与安全相关的领域更加重要。例如智能汽车调度领域,可以用大模型去控制汽车何时停止、何时运行、如何最大化利用路网效率等,此时就需要赋予每辆车一个绝对精确的ID。对事物构建ID的方法有很多,最简单的是赋予一个随机ID,复杂一些的是根据商品层次分类构建ID,构建过程中最重要的问题是ID编码能够融合事物原本的语义信息,使得ID可以和自然语言在一起学习,那些原本相似的事物,ID也是相似的,把ID融入到Prompt中,对大模型做Fine-tuning甚至是Pre-training,使得模型可以识别并通过ID定位推荐的具体事物。

徐安华:

分贝通是一家SaaS企业,想要提供企业级的支付宝体验,便于CFO清晰看到企业的财务经营状态,从而进行有效管控。

企业作为一个主体,有大量的财务活动,产生复杂的费用。分贝通希望帮助企业更有效地管理这些费用。分贝通在一定程度上是一个聚合应用,它把美团、滴滴、携程等供应商聚合到一个平台上,让企业的员工在分贝通这个平台上进行企业级消费。在这个过程中,一旦遇到问题,分贝通的客服需要跟包括企业员工、企业管理者、供应商进行复杂的沟通。这些沟通往往因为涉及多方而需要多轮次沟通,也需要涉及多人接手持续沟通。我们可以使用大模型对这些历史沟通情况进行总结,从而提升整体的沟通效率,进而提升整体的客户服务体验。

另一方面,销售拜访客户会有多种类型的商机跟进数据,如语音、聊天记录等。以 往通过传统NLP来分析这些数据,会涉及非常多分析阶段。并且在模型中识别产品、公司等信息的成本很高。现在用ChatGPT能够让更多人一起参与进行这项工作。

此外,客户通过分贝通APP做一些预定事项,如出差住宿等,可以加上细致的管控规则,优化客户服务。 再以企业内报销为例,以往需要反复填写各种单据,在不同流程间转换,十分繁琐;通过大模型分析上下文的能力,用户通过大模型应用一次性信息输入,就可以快速提取一件事情的所有要素,从而提升企业运营效率

关于自己搭建简单的知识库,大家可以参考OpenAI自己的Cookbook。先把自己的知识去做Embedding,再把Query做Embedding,接着做两者的相似度匹配,把问题-文章的组合都输入到ChatGPT中,让ChatGPT给出答案的同时给出知识库的文章。但依旧会存在幻觉问题,如何解决该问题目前还是个开放性问题,可以尝试Prompt Tuning。

李渔:

在金融资管场景下,大模型给场景落地带来了两个新思路:

1) 金融市场信息分析:该领域任务庞杂,大约有50多种,包括政策分析、财报关键词提取等。之前是基于BERT等模型,针对每个子任务准备训练数据,做Fine-tuning,再上线,上线时还可能需要做知识蒸馏,每个任务的开发周期大约2-3周。而GPT-4的通用学习能力、上下文能力及推理能力很强,准备10条左右样例做倾向性分析,分析结果与专业分析师相比,一致性达80%,且开发周期短;

2) 投资工具:英国一家咨询公司使用ChatGPT做投资组合,实盘两个月收益率近5%,实现了2%的超额收益,说明ChatGPT对于资本市场有一定的认知推理能力,如果再结合其他工具,有希望做出比较好的投资工具;

ChatGPT在实际应用中的局限:

1) 时效性较低:模型预训练和指令微调都需要时间,很难使用最新的数据,包括GPT-4也号称是截止到某个时间点的数据;

2) 幻觉问题:在投资场景下,杜撰新闻或事件,影响投资判断,非常致命;

3) 专业性不足。

从产品化角度解决上述三个问题,一方面需要具备实时更新专业的资料库,基于资料库大模型进行分析,可以较好地解决时效性和专业性问题;另一方面,模型给出答案时,需要给出对应的参考资料,参考资料来源于原始资料库,可以进一步确认答案的合理性。难点在于如何打造一个比较专业、深度、时效性强、且面向特定领域的资料库,并且在大模型中进行资料的收集和消化整理。

03 .

Q3:当下国内大模型创业的方向都有哪些?总体呈现什么特点?哪些最契合大模型当前的技术能力?

李渔:

1. 国内大模型创业方向主要有三个:

1) 大模型基座: 前两周的信息是国内大约20家大模型创业公司,其中70-80%都是在做大模型的基座,基座对于资金投入、人才和团队要求非常高,所以不建议都去做基座。Bloomberg的大模型大概是600多亿参数,粗略估算成本一次跑完需要4000多万投入,不包括中间失败、数据和人工成本。

2) 垂直领域产品化 :对于创业团队,核心还是做出有差异化的产品,引入大模型来提升产品的智能化程度和竞争力,如金融资管场景、医学、法律、自动化测试等;

3) 底层数据中心/计算芯片: GPU的算力可能会成为战略资源。

2. 关于P-tuning: 训练效率更高、更省显存,泛化性较差,但是如果针对特定的任务,加一个P-tuing比较合适。

张永锋:

1. 大模型基座: 个人认为只需要2-3个,大模型基座的成本非常高,包括单词训练成本、后期增量训练的边际成本、维护成本等。更多的是如何把大模型的智能蒸馏 (Distill) 到下游的具体场景,针对特定场景去做适配;

2. 大模型与专家模型的关系:

1) 大模型是一类比较通用的模型,可以做很多事情,但是未必在每件事情上都非常专、非常好;而专家模型只做好一件事情,例如Midjourney的图像生成模型、Google的搜索模型等;

2) 设计逻辑不一样:大模型的学习过程是收集尽可能多的语料,更多在语料收集环节融入专家知识;而专家模型是让专家参与大模型的设计和训练过程,把自己的专业知识融入到模型中;

3) 未来,大模型和专家模型不是完全替代关系,而可能是互补关系。把大模型当做一个可以处理用户请求的入口,它的作用在于调动各种外部资源,如搜索推荐、图像生成、音乐生成、资料查询等,综合所有知识后给出答案和决策,更像是人类处理问题的过程;

4) 大模型可能比苹果手机或互联网的发明更重要,因为它会成为人类解决问题的入口。类比于在搜索引擎出现前,人类遇到问题习惯于问周围人或者去图书馆找文件;搜索引擎出现后,有问题第一反应是去网上搜索一下,改变了人类的思维方式。未来,遇到问题可能第一反应是去问ChatGPT或者其他大模型,大模型知道自己的局限后会调动其他领域的专家模型,以更好地完成请求。

3. 未来,大模型和专家模型会形成一个很好的生态,大模型负责作为入口,不是解决所有请求,而是调用专家模型去完成部分请求。 从创业角度可以考虑的两个入口:

1) 抓住大模型+专家模型的入口,吸引更多用户使用;

2) 做专业领域的创业者,把专家模型做好、做精,融入到大模型的入口里。

OpenAI开发了Plugin(插件)功能,由各种各样创业者创建插件,逐步融入到入口里。

徐安华:

从三个阶段理解:

1. 中模型:聚焦服务企业或者聚焦解决一类专家问题时,不一定需要大模型,对于很多公司来说,中模型短期可行,是在成本和提效方面的折中。

2. 中模型+应用:中模型上不断积累更多知识,在模型上假设小的P-tuning模型,使得在企业内部能力变强,成本相对较低;

3. 软硬件的协同设计:个人认为面向通用AGI的硬件机会很大,突破传统的跑线程、CPU核形式的软件硬件,进行架构的革新,延伸到服务器、手机端的趋势。

04.

Q4:大模型将对各行人才提出哪些新要求?

徐安华:

对于大模型的开发者,需要对论文中未公开的部分有深度思考,以及有大模型论文以外的积累;对于普通的应用者,需要紧追技术,拥抱新论文,持续追踪大模型发展。

李渔:

1. 随着大模型能力提升、应用深入,企业形式会发生变化,未来可能会变成超级个体,团队规模显著缩小, 2-3年后一个软件研发团队核心只有三个人,一位产品经理、一位架构师和一位测试主管

2. 拥抱大模型工具,把工具融入到自己日常工作流中,提升个人的生产力和工作效率,有了GPT-4相当于有一个24小时待命的助手,各个行业都懂一些,可以帮助你解决日常工作问题。两个案例分享:

1) 以前看GitHub上的十万行左右源码需要三天左右,现在把源码给GPT-4,让它先讲一遍,一天内可以看完源码;此外,对于GPT-4来说,语言都一样,可以让它解释其他语言的代码;

2) 前段时间有个大数据工具特别卡,就把后台日志导出给GPT-4,描述情况后让它分析。GPT-4说有三方面原因,网络、数据库锁了以及底层存储不够,然后给了每一种情况的排查命令行。我们拿着命令行做对应排查,并把排查日志给到GPT-4,GPT-4再提供相应的建议,解决了问题。这个案例中GPT-4相当于运维工程师的助手角色,帮助提升工作效率。

张永锋:

对于学生:要学会使用大模型,积极思考,提升问问题的能力。对应到技术上就是学习如何写好Prompt,更好的描述问题需求,从而得到想要的答案;

对于老师:一方面,需要检测学生的作业或文章是否由ChatGPT生成;另一方面课程改革要求较高,在允许学生使用ChatGPT的前提下,更好地评价学生是否真正学到知识。如何将教育和AI发展有序融合起来,如何在拥抱AI中找到一个好的平衡,整个教育行业都在摸索当中。

- End -

访谈人: 李渔 熵简科技联合创始人

访谈人: 徐安华 分贝通平台与大数据部算法总监

访谈人: 张永锋 罗格斯大学计算机系助理教授、博导

整理:Yuki

编辑: 刘晓坤 DataFun

▌专家介绍

李渔

公司:熵简科技

职位:联合创始人

个人介绍: 熵简科技联合创始人,博士毕业于清华大学电子工程系,以第一作者身份发表学术论文10余篇,申请专利6项,致力于将先进的自然语言处理及深度学习技术真正落地于金融资管领域,让科技赋能产业。目前负责熵简科技NLP技术中台的建设,包括层次化的分层架构、大数据泛采体系、持续部署的后台支持以及前沿算法的领域内落地等,为熵简科技的各大业务线提供底层技术支持和可落地的解决方案。

徐安华

公司:分贝通

职位:平台与大数据算法总监

个人介绍:分贝通平台与大数据部算法总监。2004~2011年,北京大学本硕;2011~2014年曾任职英特尔、爱奇艺,Intel显卡虚拟化早期开源作者;2015年~2022年,曾任明略科技技术合伙人技术中心NLP高级架构师、高级技术总监;现在为分贝通公司NLP算法负责人。

张永锋

公司:罗格斯大学计算机系

职位:助理教授、博导

个人介绍:罗格斯大学计算机系助理教授、博导,互联网智能与经济实验室主任,研究兴趣包括机器学习、机器推理、信息检索、推荐系统、自然语言处理、人工智能的可解释性与公平性、人工智能伦理等,研究成果发表于SIGIR, WWW, RecSys, ACL, NAACL, CIKM, WSDM, AAAI, IJCAI, TOIS等领域内主要会议或期刊。担任期刊ACM Transactions on Information Systems、ACM Transactions on Recommender Systems和Frontiers in Big Data副主编。曾获得AIRS最佳论文奖、ACM TOIS杰出编辑奖、美国自然科学基金杰出青年奖(NSF CAREER Award)。