张旭:LLM产品第一性原理

作者简介:张旭,前飞书02号产品经理,现任美团大象办公产品负责人。本文转自知乎专栏:《张旭的产品观察》 https://www.zhihu.com/column/hardy

本文主要观点:

  • LLM是针对海量文字的压缩技术,通过极限压缩掌握了语言中的规律,在一定程度上实现了基于文字、图片的预测和推理。
  • LLM并不是AGI,但LLM确实给世界带来很多震撼的改变,一定会有非常有价值的应用诞生,在方向选择上一定要避免把LLM当成早期形态的AGI。
  • 探讨了为什么有很多人对认为LLM等价于AGI的种种原因,提醒从业者要保持理性谨慎乐观。
  • 从第一性原理出发,总结了LLM目前可行的6种落地范式。

大语言模型的发展速度太快了,每周几乎都有新的应用涌现出来,以至于似乎没人能总结一套给产品经理的LLM应用设计方*论法**,主要是来不及总结经验就过时了。我也是在今年5、6月份才在美团大象这个办公协同场景尝试LLM的应用落地,过程中掉了很多坑,自己也从一开始的信心满满,到越来越怀疑和悲观。最近沉下心来,深读了AGI的发展史,对每个陌生的技术名词都去深挖,甚至还去翻阅了大量认知心理学的观点,直到自己完全看不懂为止。当搞清楚符号派、行为派、连接派以及LLM背后的原理及本质后,我似乎摸到了做LLM产品的一些规律,妄图称之为“LLM产品第一性原理”,取这个名字说实话是标题*党**,本心还是希望引起产品圈子的讨论,在此抛砖引玉,希望各路大神多多提意见,如果有理解错误或者观点谬误,还请不吝指出。

产品视角理解的LLM,本质是什么?

LLM和绝大多数图灵机程序一样,都是一种信息压缩技术。LLM是针对海量文字的压缩,它有两个特别的好处:

  • 第一是可以非常自然地和人直接源生的进行IO。
  • 第二是由于数据量、算力加持,对语言的压缩获得了语言最本质的规律,甚至LLM找到了比人类总结的还要好的规律描述方式,所以LLM涌现出来对文字类似推理的能力。而语言就是三维世界的一维投影,所以在一定程度上实现了对现实世界问题的推理。

张旭:LLM产品第一性原理

(图转自知乎@张俊林)

LLM是一种低级别的AGI?

我认为LLM并不是AGI,LLM只是对语言的推理和生成能力。而真正的AGI最亟需解决的是:① 理解真实世界,并进行推理和预测。②将复杂任务分解成更简单层次任务的规划能力。我认为LLM是目前显然不具备对真实世界预测和任务规划能力,而且我非常悲观的认为以LLM的实现原理来看,是无法通过算力和数据的规模靠更长时间发展出这两项能力,我的理由如下:

  • 压缩、解压缩的最基本要求是:前后信息量一致。这就导致所有的压缩算法,都不产生新的信息量,而对真实世界的推理所形成的是对未知的预测,有效的预测一定会产生信息量。例如:LLM应该可以通过观察树上掉苹果推理出来万有引力。但LLM一定无法预测出汽车、飞机、电梯。
  • LLM是对语言,而人类大部分知识都是非语言的。视觉是感知世界最直接的方式,但LLM的方式将文字替换为图片,训练成本已经大到难以接受,视频的信息量将远超图片,最终会大到无法压缩的程度。
  • LLM是一种自回归预测,它天生的算法决定是通过构建来获得答案,每一步生成总是有概率偏离正确答案,生成的越长,错误概率会累积到完全偏离事实。LLM的演进绕不开RLHF来优化,但目前来看RLHF没办法做到完美。(此观点引述自Yann LeCun在今年8月麻省理工学院的分享)

Agents+LLM 是否能实现AGI?我也持悲观态度,首先Agents不能解决LLM本身的缺陷问题,不能让LLM本身变得更强。其次Agents是在强行将AGI的所有要素用现有AI技术嫁接在一起。且不说连接派、符号派、行为派的算法之间无法融合(只能串联)的问题。最为核心的决策、自学习反思、构建等能力还需要用代码算法人工实现,无法靠堆芯片来实现快速提升的,这是Agents上限太低的最大原因。

张旭:LLM产品第一性原理

Ignore the hype cycle, build boring business

虽然LLM本身不是AGI,但仍然是非常令人兴奋的突破,单独看多模态推理和生成能力,对于产品经理而言都是一个非常大商业机会变量。而我在这里强调LLM和AGI的差别,主要的目的是纠正一些希望从事AI产品的从业者把LLM想象成AGI的早期版本来做业务解决方案的思维误区,包括我自己在内,几个月前也对于LLM有很多不切实际的幻想,踩了不少坑。为什么市场总是把LLM“约等于”AGI,甚至把二者画等号。我猜测有以下原因:

  • 认知偏差导致。ChatGPT提供了一个交互上的创新,这是OpenAI在商业上伟大的成功,完美地规避了LLM的缺点(逐字生成),同时强大的语言能力和知识领域远超同时期NLP产品,相当具有迷惑性,你可以试想自己初次认识一个人,他见多识广,同时在语言的造诣极高给人专业、高情商的感觉时,就容易预测这个人智商也非常高
  • 市场的炒作导致。由于LLM天然容易给人造成高智商的迷惑性,资本市场和从业者也顺水推舟的通过舆论做实了这一情绪。一方面不乏行业领袖鼓吹AGI的强大和对人类的威胁,另一方面媒体创造了AIGC这样的臆造词,让大家误以为LLM就是AGI。适当炒作其实对一个发展中的技术是利好的,这样有更多的人和资金能投入进来让它持续跑的更快。而真正的从业者要理性和辩证的看待炒作,真正把精力聚焦到如何挖掘LLM创造价值上面。
  • 社会接受度导致。社会、企业还是更接受能力相对均匀综合的智能体,哪怕是低水平的AGI,而很难接受一个只有语言推理和生成能力的智能体。举个例子,一份工作,我实际需要大学生来做,如果你给我提供便宜、合法的高中生、甚至小学生,我也能让他们发挥一定的价值。但如果给我提供一个语言天才但不能解决真实世界问题的神童,企业恐怕很难在以人为主的组织内,专门为这样的“异能人士”提供一份新的岗位。

LLM价值的产品第一性原理是什么?

这是我想讲的重点。需要提醒的是我下面的观点是基于上述论断成立的情况下。但即便我的判断过于悲观,LLM将来会发展成真正的AGI,下面讲的规律在当下仍可成立。高低不亏。

一类:压缩和生成

1、更好、更优雅的形式本身存在价值的场景 我个人发明了一个大白话——LLM就是一个“形式主义大师”,虽然在职场中形式主义经常是个偏负面的词,但形式本身也存在价值。

  • 在销售和广告场景,同样的信息,有更好的表达形式,相比粗糙的干货,前者更容易获得受众的信任和认可。而销售场景并非只有商品交易的场景下才有,在制作个人简历,写产品方案,写晋升文档,本质都是对自己,或自己的想法的一次销售过程。
  • 恰当的形式往往可以帮助人更好的整理思维,例如SWOT、3W5H等都是一些思考模版的形式,借助这些形式可以更好的让人类结构化的思考,促使人去填补真正有价值的信息量。

“形式价值”可能在未来的toB领域前景不太好,主要原因:

  1. 职场中都在“反形式主义”,飞书甚至都没有开发PPT这个功能,而是将脑图作为替代工具。形式主义所带来的感受友好性,在越来越务实的职场工作氛围下,会越来越淡化。
  2. 随着各种信息压缩技术的发展,透过形式剥离出内容最本质的观点,将会是每个职场人的信息工具中最标配的功能,所以努力将形式变得更友好,在未来的职场内沟通协作中将没有任何意义,因为人最后阅读到的,都是形式最简化的高密度信息量。

张旭:LLM产品第一性原理

参照模版:Gamma,Chatppt,Notion AI

2、降低特定形式生成的门槛 有人说Midjourney在杀死艺术家,我不以为然,Midjourney其实是让很多原本就是艺术家,但不擅长通过绘画来表达自己的人类,有了亲自创作自己的图片艺术品的机会

当信息的模态转化的成本极低、效率极高的情况下,思想和具象的表达之间将没有障碍。不仅仅降低艺术的表达门槛,还有语言,教育,科学等领域信息的传播和互通成本也将降为0。

学科和知识横跨的成本的降低,有望对科技和产品创新推向一个更快的加速度。过往科技创新的发生往往源自于两个学科之间的有效组合,这就要求需要有一波人同时对两个学科非常了解。而LLM之下,能够轻易拉通所有学科进行科技创新,将给带来难以想象的新机会。

另外,LLM生成能力还可以反向使用,可以用于多模态数据的搜索,例如现在LLM已经可以通过一张人在教堂内部的照片,认知到这是什么教堂,甚至可以描述出被拍摄者可能处于教堂的什么位置。

张旭:LLM产品第一性原理

参照模版:Midjourney,ChatPaper,Med-PaLM,GPT-4V

3、提供情绪价值 我们读佛学、看心理咨询师、向牧师忏悔,为什么能让人获得平静,这个过程不会有新的信息产生,但人们获得到是对事物看法的转变,不再变得拧巴,不再计较得失,所以人变得轻松。所以我猜测获得情绪价值的过程,就是将思绪进行治理,重排,折叠的过程。这是LLM能搞得定的。

比较早期流行起来的应用中就不乏提供情绪价值的代表——cosplay产品,其中还有一些已经成功的商业化,甚至被认为是下一个Uber现象级应用。

张旭:LLM产品第一性原理

参照模版:character.ai ,妙鸭

4、常识获得的成本更低 LLM是一个非常出色的常识搜索引擎,虽然LLM无法基于常识创造新的知识和预测,但拥有常识也是大部分人类不敢奢望的。这里的难点是如何让交互方式变得更自然,人们缺乏常识的一个最大根因是人们并不认为自己缺乏常识。设想下,如果那些被当成电话诈骗目标的老年人,他们如果有心去搜索,哪怕是稍微有那么点怀疑,诈骗就不可能发生。这个领域我设想应该设计成安全气囊、防火墙之类的保险机制会更合理一些。

张旭:LLM产品第一性原理

参照模版:Chatgpt

二类:推理并生成

5、利用压缩能力,帮助人类更好的总结世界的规律 LLM通过信息压缩,获得智能,压缩即智能,这个观点还挺刷新我的认知的。既然压缩能获得接近人类总结的规律水平,那么可能有两个方向有机会:

  • 帮助人类去提升总结规律的效率。例如尝试新的化学元素,尝试新的药品等等。
  • 可以帮助人类去总结人类无法理解的更高维度的规律,例如辅助弦理论(十一维空间)的研究。

参照模版:暂无

6、作为更高级智能体的"推理copilot" 虽然我认为LLM自己无法演化出AGI,但具备对语言、图像的推理预测也是一个不错的skill。

LLM agents 我认为不可行,主要原因是,目前agents把LLM当成最高级智能体,去调度其他更低级的智能skill。一个agents中最高智能体(LLM)的上限太低,就注定了了agents的上限不会高。

所以在当前LLM只能作为人类的逻辑copilot。未来真正意义的AGI出现后,LLM也可以成为AGI在文字、图片模态方面的推理copilot。

张旭:LLM产品第一性原理

参照模版:copilot,code interpreter

砖已抛,请各路大神批评指正。以上。

本文参考了:

  • 凡心:从第一性原理看大模型Agent技术
  • 元宇宙三十人论坛:图灵奖杨立昆:生成式AI有点过时了
  • ‎《半拿铁 | 商业沉浮录》- Apple 播客
  • AI Agent发展简史,从哲学思想启蒙到人工智能实体落地
  • Sam Altman:这是我见过的对ChatGPT原理的最佳解释
  • mackler:LLM的智能只是压缩吗?