(报告出品方/作者:中信建投,孙晓磊,崔世峰)
1.公司分析:全球领先的社交生态,核心业务触底回升
1.1、公司概况:社交媒体巨头
Meta 为全球社交媒体公司巨头,以广告收入为核心,并着力开拓元宇宙。Facebook 于 2004 年 2 月 4 日由 美国人马克·扎克伯格创建,是美国的一个社交网络服务网站,也是世界排名领先的照片分享站。公司建立各 种工具,使用户能够连接,分享,探索,并相互通讯。2021 年 10 月 28 日,该公司将公司名由 Facebook Inc.变 更为 Meta Platforms,Inc.,标志着公司全面进入元宇宙领域。
发展历程方面,Meta 成立近 20 年,由单一社交媒体互联网公司 Facebook 转型为目前多元化的互联网公 司,其发展历程大致分为三个阶段。 第一阶段(2004 年-2011 年):2004 年 2 月,“the Facebook.com”上线,起初,网站以各大学作为根据 地,之后,在 Facebook 中也可以建立起高中和公司的社会化网络。到 2010 年,世界品牌 500 强中 Facebook 超 越微软位居第一,Facebook月活用户突破5亿。 第二阶段(2012年-2020年):这一阶段,Facebook开始搭建社交媒体矩阵,并先后于2012年收购Instagram,于2014年收购WhatsApp及Oculus VR,公司借助 Instagram 由图片向视频转型,借助 WhatsApp 完 善即时通讯功能并借助Oculus展开VR领域布局。同时,这段时间 Facebook 也迎来了强劲增长,2017年其用 户数量达到20亿人次,成为了全球范围内最大的社交媒体平台之一。
第三阶段(2021 年至今):Facebook 于 2021 年 11 月正式更名为 Meta,调整其公司架构,并全力转型元 宇宙领域的布局与发展。此外,疫情红利期后用户增长进入新常态,短视频成为下一发力重心。22 年全年 Meta 全生态用户增速降至 2.8%,增长放缓。受短视频 TikTok 冲击,Meta 加强 Reels 的宣传和建设以争夺短视 频市场。2022 年第一季度,Reels 已占据 Instagram 用户使用时间的 20%, 2022 年第二季度,用户使用 Reels 时长环比增幅超 30%,此外公司开始探索 Reels 的商业化,并在 2023 年开始加速商业化进程。

Meta 拥有全球用户规模最大的社交媒体矩阵。通过熟人社交、图文分享及即时通讯多领域发展,Meta 打 造了自己的社交媒体产品矩阵,并已可以满足大多数国家用户的社交需求。在近 20 年的成长过程中,以 Facebook 平台为核心,通过自设、收购等方式,围绕社交领域逐渐延伸自己的能力圈。截止 2022 年底, Facebook 主 App 为全球月活最高、访问量最多的社交媒体平台之一,Instagram、Messenger、WhatsApp 的用户 数也处于领先水平。截止 2023 年 4 月,Facebook 的 MAU 达到 22 亿,同比增长 1.4%,Instagram、Messenger、 WhatsApp 的 MAU 分别达到 14、12、19 亿,分别增长 5.8%、-7.6%及 2.8%。从广告收入的角度对比各家社交媒体平台,Meta 位居全球第二,仅次于谷歌。2022 年全年 Meta 广告收入 为 1136 亿美元,远超字节、腾讯、等社交媒体平台。
对于未来的用户增长空间,Facebook 需要发挥整个生态的力量。Facebook 主平台用户增长几近“稳态”, 从地域维度看,Facebook 在欧美地区增长基本已经停滞,而在亚太区增长也仅为个位数。2020 年疫情带来线 上渗透率增加的红利在近两年基本吃尽,未来用户增长更多靠互联网渗透率自然提升带来。
管理团队方面,公司一直由马克·扎克伯格担任首席执行官,其余各部门负责人均一直处于变动中。 Mark Zuckerberg 在 Andrew McCollum 和 Eduardo Saverin 的支持下,于 2004 年 2 月创办了“The Facebook”, 2018 年,新聘法律总顾问 Theodore W. Ullyot;新聘副总裁 Theodore W. Ullyot;新聘公司秘书 Theodore W. Ullyot,之后,公司各职位人员均处在不断变化中,目前公司的高管团队由 CEO 马克扎克伯格及首席财务、运 营、技术、会计、法务、产品、战略官八人组成。
组织架构方面,Meta 组织架构经过两次调整。2004 年 2 月 4 日,Facebook 创立于哈佛大学校园,主要创 始人马克扎克伯格。2018 年 5 月 Meta 迎来成立以来最大组织架构变动,公司宣布将成立 3 个新部门,一个 “应用家庭”部门(包括 Facebook、Instagram、WhatsApp 和 Messenger),一个新平台部门(包括区块链技术团队、增强和虚拟现实、企业技术和人工智能),以及一个“中心产品服务团队”(包括广告、数据分析和 安全等共享资源)。2021 年 12 月,Meta Platforms 将其 AI 团队合并入负责开发 AR/VR 产品的 Reality Labs 部 门。

1.2、财务分析:走出阴霾,收入触底回升
收入结构上,广告收入是公司主要营收来源,绝大多数收入来自应用家族出售的广告位,占比始终超过 97%。Meta 收入包括应用家族带来的广告业务和其他收入,以及虚拟现实业务的收入。2022 年全年由于宏观 环境的走弱,公司实现营业收入 1166 亿美元,同比下滑 1%,为近五年以来首次出现下降趋势。而随着 23Q1 需求的恢复,公司收入重回增长曲线,2023Q1 公司实现营收 286.5 亿美元,同比增长 3%。
22 年以来净利润下滑,主要系元宇宙投入,今年开始公司重点将回归广告业务,减少 VR 投入。FY17- FY22,Meta 毛利率基本保持稳定。得益于 2020 疫情以来在线娱乐生活的需求增长,公司 2020-2021 年净利润 增长超过 30%。但 2022 年净利润 232 亿美元,同比减少 41%,主要在于元宇宙业务的巨额投入导致的亏损。 2023Q1 净利润 57 亿美元,同比减少 24%,降幅有所收窄,盈利提升源于营销削减,裁员效果将在后续几个季 度逐步体现。一季度 Meta 整体经营利润率回到 25%,环比提升了 5pct。其中 VR 亏损加大,但广告为主的 App 服务,经营利润率环比提升了 5.6pct。
费用率方面,2022 年各项费用均有大幅增长,但一季度及后续将出现明显优化。一季度 Meta 裁员上万人, 但由于当期还有遣散费补偿,裁员效果还未能很好体现。因此一季度的盈利提升,除了成本上相比四季度少了 服务器重组费用外,还主要来源于营销费用的大幅减少。剔除一次性费用之后的真实经营利润率实际上已经恢 复到 29%,但与历史水平相比,还有优化空间。二季度仍然会有裁员补偿费的影响,今年 3 月 Meta 又启动了 第三轮的万人裁员计划,预计还将产生近 5 亿美元的遣散费,将在今年后面三个季度陆续确认。
公司对费用端进行持续优化,并下调了 2023 年费用支出指引,从 890~950 亿美元收窄至 860~920 亿美元。 Meta 近几个月采取了多种削减成本的行动,力求提升盈利能力。2023 年资本支出指引保持不变,仍为 300~330 亿美元。Meta 将资本开支聚焦到构建支持广告、Feed 和短视频服务 Reels 的 AI 能力、以及增加生成 式 AI 项目能力的投资。我们认为,中短期内,费用端的优化或显著改善公司的净利率水平。

2.核心广告:Facebook和Instagram流量回暖,Reels加速变现
以广告为核心的社交龙头。同为社交生态龙头,Meta 与腾讯又有不同,腾讯在商业化方面多点开花,腾 讯主要通过游戏和视频增值业务、广告、金融科技与企业服务三大业务进行货币化,22Q4 广告业务占比仅为 17%,短短几年就跃升中国泛娱乐乃至消费互联网行业的绝对龙头,而 Meta 对自己流量价值挖掘,几乎只做 好了广告这一种商业模式,从收入结构上看,广告收入占比始终在 97.5%以上。
广告的命脉是宏观经济。2022 年的广告市场意料之中的随着全球经济放缓而跌进尘埃,过去一年内,包 括 Meta 在内的北美互联网巨头日子都相当难过,广告主的预期也一再保守。而对于宏观经济,当前可能的最 大预期变化,在于经济从“强衰退”演绎为“弱增长”带来的差异,这将显著影响广告主在今年的营销投放节 奏,也包含一定的边际改善。广告主对经济预期最谨慎的时期基本上发生在去年下半年,尤其是 Q3(很多机 构快速调整了营销预算),四季度虽然也整体偏谨慎,但相比三季度,预期没有进一步的恶化。
我们认为三四季度短期过于谨慎的投放节奏并非今年全年常态,上半年可能会有惯性保守,但当经济软着 陆预期越来越强,广告主的营销活动也会逐步恢复,恢复节奏有望加快。再加上去年的低基数,预计今年下半 年的广告市场会有显著回暖的迹象。
从 22Q4 的情况看,Meta 广告业务重回正增长,Q2 业绩指引好于预期。一季度虽然公司面临较大的宏观 压力,但依靠零售广告、AI 广告技术、短视频等转型的持续拉动,公司在经历长达一年的收入逆风后重回正 增长,并针对二季度给出相对较为积极的收入指引。一季度 Meta 广告收入 286.5 亿美元,同比增长 4%,超市 场预期,VR 业务在这个季度同比下滑了 51%,虽然有上年同期高基数的影响,但本身的用户需求转淡也是更 深层次的拖累因素。公司 23Q2 的业绩预期为 295~320 亿美元(yoy+2%-10%),其中高汇率的负面影响约 1%, 公司指引显著优于市场预期的 295 亿。

从单用户广告价值看,Meta 在主要地区的变现率相对较高。纵观欧美地区的变现水平,除了欧洲地区还 存在一定的提升空间外,北美地区在广告变现上相比其他同行平台(Snapchat、YouTube、TikTok),其实已经 算达到一个极致优越的水平,亚太地区则比较克制。站在当前时点,我们认为随着管理层经营重心从 VR 回归广告的转变,未来在不发生深度衰退的宏观背景 下,Meta 已经走完自身的下坡周期,重回增长通道。回暖的预期主要基于三驾马车:1)流量回暖;2)reels 带动粘性提升并将继续扩大变现;3)TikTok 竞争减弱,Meta 底层社交护城河依然难以撼动。
2.1、流量回暖,粘性上升
前文已经提到,Facebook 主平台用户增长几近“稳态”,从地域维度看,Facebook 在欧美地区增长基本已 经停滞,而在亚太区增长也仅为个位数增速,2020 年疫情带来线上渗透率增加的红利在近两年基本吃尽。。 23Q1 公司 DAU 达到 20.4 亿,同比增长 3.9%,主要来自于亚太区用户贡献,同比增长 5.6%,环比增长 2.2%; MAU 达到 29.9 亿,同比增长 1.9%,用户粘性(DAU/MAU)在短视频 Reels 的加持下继续新高。Facebook 主 站也在增加,并且环比上季度有明显的加快。自从 Reels 在 FB 上也优先透出后,Facebook 从原本几乎停止增 长到恢复净增。展望未来,Reels 的加速渗透有望进一步推动 Meta 生态向更多场景渗透,同时短视频的形态也 将进一步增强用户粘性。
2.2、进军短视频,依托Facebook和Instagram流量推进Reels
Meta 旗下 Instagram 与 Facebook 先后上线短视频功能 Reels,基于自身成熟用户生态和强大流量发展迅 速。2022 年第二季度,Reels 已占据 Instagram 用户使用时间的 20%, 2022 年第二季度,用户使用 Reels 时长 环比增幅超 30%,超过 45%的 Instagram 用户每天都与 Reels 互动。此外公司开始探索 Reels 的商业化,并在 2023 年开始加速商业化进程。Reels 于 21 年初逐步投入广告以来,广告 收入稳步提升,从 21Q4 占比 1%至 22Q2 占比 3.9%。其次对于 Facebook,根据 Tinuiti,在 22Q2,Facebook 广告收入主要来源于 Feed,占比高达 72.1%,而 Reels 的广告收入 初露头角,于 22Q2 占比达 0.9% (包括 Reels Overlay)。Reels 作为 22 年的重要事项之首,Meta 高管认为 Reels 的变现能力大有可观,截至 22Q2,Reels 的变现能力已超过了同期的 Stories,累计创收超过 10 亿美元。

Meta 多次试水短视频领域,直至推出 Reels。2018 年 11 月,Meta 开始试水短视频领域,上线短视频应用 “Lasso”,上线后表现不佳,于 2020 年 7 月正式关闭。但是 Meta 没有停下发展短视频业务的脚步,2019 年 6 月 Instagram 上线短视频功能“Reels”,用户可以访问来自朋友和页面的短视频,2020 年 8 月“Reels”全面登 陆全球 50 余个市场。2021 年 9 月,Facebook 也推出了 Reels 功能,并在 2022 年 2 月向全球 150 多个国家的用 户开放。在 Reels 推出之前,Facebook 和 Instagram 平台的 MAU 分别在 20 亿和 10 亿以上,且超过 60%的用户 年龄在 34 岁以下,已经积攒起完备的年轻用户池,而将短视频模块植入具有较大用户基础的 Instagram,大幅增强了 Reels 的竞争力。
虽然 Reels 上线时间尚短,但规模已经形成,是海外短视频重要玩家之一,在商业化 方面目前也已吸引了部分商家和品牌入驻,广告商业化模式已初具雏形。2022 年 2 月,Meta 肯定了 Instagram 中短视频功能 Reels 的发展情况,称这是 Instagram 增长最快的内容格式,用户观看 Reels 总时长占比超过 20%, 未来 Reels 将是 Meta 重要的战略发展方向之一。
Reels 始终以追赶对标 Tiktok 的策略为主,从表观看,Reels 的产品设计与 Tiktok 基本一致,但二者由于产 品定位不同在算法和分发逻辑、用户结构、创作者生态方面均存在核心差异,这种差异不会因为对内容品类的 简单模仿而改变。 从产品定位看,Reels 仅是 Facebook 生态的补充模块,Tiktok 作为独立短视频产品更能满足行为上瘾式 消遣需求。Reels 属于 Instagram 的其中一个模块,入口并不明显,不具备独立的主页面、创作入口,操作略显 繁琐,而 Tiktok 相对直观,进入 APP 即为短视频内容。
单从用户进入短视频功能后的使用观感看,Tiktok 与 Reels 差异并不显著,但从创作者视角看,Tiktok 具有明显优势,主要表现在:创作素材(音乐、特效及滤镜)、 UI 设计等。首先,Tiktok 因版权购买,在音乐资源库方面拥有独特优势。Musical.ly 前期通过股权出让和短时 长音乐采买的概念获得了一年一签的音乐版权资格,为 Tiktok 的版权资源奠定基础;而脸书系受制于版权政策, 音乐库资源较少;就特效、滤镜库来说,Tiktok 可以从多种效果、模板和滤镜中选择滤镜功能,而 Reels 侧重 于更美观的修饰滤镜。音效方面 Tiktok 有多种有趣音效和画外音工具,而 Reels 不能给声音添加有趣效果;UI 设计方面,Tiktok 的剪辑入口为一级入口,而 Reels 的剪辑入口不在主页面,降低创作者的使用便捷性。

Facebook 系应用具有强社交属性,其社交地位难以被 TikTok 取代。根据 22 年 10 月 GWI 在 16-64 岁人 群的调查,47%的互联网用户使用社交媒体的主要原 因为和朋友和家人保持联络,排名第一;其次,35.4%的 用户使用社交媒体的原因为打发时间。本质上来说,和熟人社交仍是大多数人使用社交媒体的头等动因。 在 这点上,尽管目前 TikTok 发展十分强悍,但是其依然无法取代 Meta 在熟人社交和通讯的地位。根据功能定位, 用户使用 Facebook 的主要功能为给家人或朋友发消息,而 TikTok 的这项活动的占比是最低的。因此尽管 TikTok 对 Meta 造成了一定的冲击,但用户使用 Facebook 系应用进行社交的刚性需求不会改变,Meta 的社交 龙头地位仍难以撼动。
Tiktok 用户相比 Reels 更加年轻化,用户画像上与 Snapchat 更为接近。由于功能定位和用户画像不同, 受 TikTok 影响最大的可能是 Snapchat 而非 Facebook 和 Instagram。根据 emarketer,Instagram 用户主要分布在 25-34 岁之间,其次是 18-24 岁,而大多数 Tiktok 用户年龄分布在 15-24 岁之间。
Reels 算法逻辑整体与 Tiktok 类似,从侧重上看 Tiktok 的算法更重内容,Reels 更重社交,但 Tiktok 精 细化程度高于 Reels。Reels Explore 实行两阶段排名系统。首先是候选生成阶段,在为“探索”页面策划内容 时,算法首先寻找人们之前与之交互过的“种子”帐户,分析出一个人可能感兴趣的账户。接下来是排名阶段,Instagram 通过分析人们在媒体上已经采取的个人“动作”(如“喜欢”、“不喜欢”)来预测其何种动作能够表 示其对内容的特定态度,并借此衡量一段内容与给定用户的相关程度。
Tiktok 的 For You 推荐系统使用流量池 算法机制:推荐算法遵循螺旋上升机制进行流量分发,不断使优质内容最大化曝光,社交属性相对较弱。此外, Tiktok 相较于 Reels Explore 的权重体系更加精细化。除了与 Reels 相似的用户交互行为,*放播**时间、视频详细 信息、设备所设置等多方因素都会被 For You 算法考虑在内。

Tiktok 的算法打造了相对更低的创作门槛和更有利于新创作者的分发机制,形成更优质的 UGC 创作生态。 基于以上对 Tiktok 和 Reels 算法的分析,我们发现:Reels 更加倾向于传达熟人和关注对象、其次是头部账号 的短视频,吸引原有用户的能力更强,新账号创作的作品的分发权重较低,也不会被广泛传播给潜在的陌生受 众,这导致在 Reels 发展新账号的冷启动周期更长,抑制了新用户的创作热情。而 Tiktok 的算法更着重于内容, 能够出现爆款传播,对创作者的正反馈更强。从数据上看,Tiktok 用户对于红人原生内容的互动率超过了 Instagram Reels,而对于已经具有品牌和强大影响力的账户在 Reels 上的影响力更大。
Instagram Reels 多方面对标 Tiktok,鼓励用户创作热门话题的衍生内容,拓宽短视频录制时长范围,简 化入口界面设计。早先 Reels 出于对原创者的版权保护,并不鼓励这类型二创,一定程度上阻碍了传播路径,无 法形成爆款,为改善这一问题 Reels 推出 Remix for Photos 功能,允许用户重新混合他人视频,逐步向 Tiktok看齐。Reels 进一步延长短视频的录制时长对标 Tiktok,此外还宣布 15 分钟以内的新视频帖子将自动转化到 Reels 上,这不仅意味着 Instagram 放宽了短视频上传的门槛,还打通了 Instagram 视频和 Reels 的分界。最近 Instagram 启动了对全屏的测试,该测试将常规帖子、Stories 和 Reels 合并到一起,复刻了 Tiktok 的版面设计。
3.XR:逐步减亏,新品多点开花
3.1、系列产品:收购Oculus,全球最大的硬件设备商
目前 Meta 已发售六款 VR 相关产品。2014 年 3 月,Facebook 宣布以 20 亿美元的价格收购了 Oculus。 2016 年,Oculus 发布了 Oculus Rift 第一个消费者版本 Oculus Rift“CV1”,Oculus Touch 控制器、全空间动作 感应、头部追踪、高分辨率屏幕和 PC 连线的功能使 Rift 大获成功。2017 年 10 月,Oculus 与我国电子产品制 造商小米合作,推出了 Oculus Go,这是 Oculus 推出的第一部 VR 一体机。
2019 年 2 月,Oculus 推出了 Oculus Quest,继 Oculus Go 之后发布第二台 VR 一体机。 2019 年 3 月,Facebook 与中国电子制造商联想合作推出了 Oculus Rift S,这是最初 Rift PC 头戴设备的升级版。2020 年,经过前两款 VR 一体机之后,Oculus 推出了屏幕 分辨率、刷新率、存储和处理能力更好的 Quest 2。之后,在众多企业纷纷入场 VR 头显赛道的同时,Meta 在 2022 年 10 月 12 日凌晨的 VR 年度大会 Connect 上,推出全新 VR 设备 Quest Pro,较 Quest 2 实现了硬件及性 能的多重升级。

Meta 元宇宙的用户数逐步增长,Oculus Quest 2 销量已过千万,但近期由于涨价销量不及预期。现阶段 Meta 以断崖式领先占据全球 VR 市场份额第一,数据显示 2022 年 Meta 全球市占率飙升至八成。具体到产品, Quest2 贡献了 80%以上的出货量。上市六个月之后,Oculus Quest2 的销量超过此前发布的 Oculus 系列产品销 量的总和,并且于 2021 年 11 月其销量突破 1000 万,这被认为是行业开始复苏,迎来拐点的一个标志。截至 2022 年上半年,IDC 估计 Quest 2 的全球累计销量已达到 1480 万台。2022 年 7 月底,Meta 表示,128GB 与 256GB 版本 Quest2 都将涨价 100 美元,8 月 1 日开始实施。
Quest2 的涨价对销量产生了严重影响,Quest2 本身 已面临产品老旧的问题,明年 Quest3 有望面世,在涨价的冲击下,全年 Meta 产品销量预计将为 750 万台,较 年初市场预期腰斩。截至 2023 年 2 月,Quest 系列产品出货量已达 2000 万台。在 2022 年市场疲软之后,IDC 下调了对 2023 年 AR 和 VR 出货量的预测。根据 IDC 发布的《全球 AR 和 VR 头盔季度追踪》报告,2023 年全球 AR、VR 头盔的出货量预计将达到 1010 万台。尽管 IDC 下调了预测值, 但其预测总出货量在 2023 年仍将有 14%的增长,并在 2023 至 2027 年间加速增长,未来五年的复合年增长率 预计为 32.6%。
根据财报,负责 VR/AR 元宇宙业务的 Reality Labs 投入持续升高。该部门在 2022 年第四季度的营收为 7.27 亿美元,同比下降 17.1%,亏损额达 42.79 亿美元。不过,与 2022 年第三季度同比下降约 50%相比,2022 年第四季度的降幅要小得多。2022 年第三季度的收入是 Meta 开始公布 Reality Labs 财务数据以来最低的,而 2022 年第四季度的收入是有史以来第二高的。7.27 亿美元营收的成本却达到了惊人的 50 亿美元,是 Meta 开始 公布 Reality Labs 财务数据以来最高的。首席财务官解释说,这主要是“与员工相关的成本和重组费用”—— 指的 Meta 在全公司进行的超过 1.1 万人的裁员中所涉及的遣散费。

3.2、新品:VR、AR、智能穿戴设备多点开花
未来五年,Meta 计划推出三款 VR 头显、四款 AR 眼镜及一款智能手表。按现有的产品路线图,Meta 将 在 2023 年推出代号为 Stinson 的消费级 VR 头显 Quest 3,2024 年推出代号为 Ventura 的低价版消费级 VR 头 显,2025 年推出代号为 La Jolla 的工作 VR 头显。依照旧例,Meta 应该会在今年 Meta Connect 大会上推出新 的消费级 VR 头显 Quest 3。据透露,Quest 3 采用 Pancake 技术,搭载透视摄像头,其头显前端现实区域相较 Quest 2 薄两倍,功能至少增加一倍,价格则会略高于“400 美元”。
代号为 La Jolla 的头显或许将成为 Meta 工 作头显系列的“继任者”,该产品将于 2025 年推出,据介绍,该头显将拥有更高的分辨率,并且能够实现真 正地工作、编写文本等,其设计中将引入从 Quest Pro 中获取的头显设计、分离式架构等等。代号 Ventura 的VR 头显定位则是以最具吸引力的价格为 VR 消费市场提供最大的冲击力,或许该头显将会成为下一个“Quest 2”。
目前,Meta 正在打造三条 AR 眼镜产品线,推进四款 AR 眼镜的研发。此前,Meta 曾在 2021 年 9 月推出 第一款智能眼镜 Ray-Ban Stories,可以拍摄,并且眼镜框两侧的扬声器可通过蓝牙*放播**声音。今年秋天,Meta 将推出第二代配备摄像头的智能眼镜。2024 年,Meta 将在员工中内测代号为 Orion 的 AR 眼镜。2025 年, Meta 将推出第三代智能眼镜,该设备将拥有显示屏,并且将配备一个肌电手环。
2027 年,Meta 将正式发布代 号为 Orion 的 AR 眼镜,并且还将迭代此前的产品。第三代智能眼镜将成为 Meta 的重要产品之一。该设备将会 配有一个“取景器”的显示屏,可以查看收到的信息、扫描二维码以及实时翻译,配套的肌电手环使用户可以 通过手部动作来控制眼镜。而代号为 Orion 的 AR 眼睛目前 Meta 已经研发了 8 年之久,将采用更先进的技术, 定价也更高,该设备希望能够将高清的全息图投射到现实世界中。 Meta 还在开发一款拥有神经接口的智能手表。该手表将搭配第三代智能眼镜使用,可以让用户通过虚拟 键盘打字的速度和使用手机键盘的速度不相上下。

目前市场中 Meta 遥遥领先,苹果即将发布的 MR 有望实现冲击。目前苹果 MR 的配置较高,索尼原厂的 单眼 4K Micro-OLED 显示器、120°FOV(视场角)的 3P Pancake 光学模组,八个面部和眼部摄像头,正面追 踪摄像头+dtof 的激光雷达,以及外置供电设备。通过外置供电可以减轻设备重量,Pancake 方案则减小了设 备体积,更加轻巧,目前的缺点是成本比较高,产品定价在 3000 美金左右。 由于产品体验问题,苹果 MR 可能无缘 WWDC23。具体原因有:全球经济低迷,消费电子行业下行;苹 果不想为了量产而在硬件规格上有所妥协;目前头显的应用程序准备不足;3000 美元的售价过高影响销量。 除此之外,由于量产时间延后,苹果 MR 头显出货量仅为 20-30 万部,可能少于此前的预计出货量 100 万部。
4.生成式AI:发布SAM、LLaMA等大模型,前景可期
4.1、SAM模型:CV界的GPT模型
4.1.1、SAM模型能做什么?
2023 年 4 月 5 日,Meta 宣布推出 Segment Anything Model(SAM),能够根据文本指令等方式实现图像分 割,并且万物皆可识别和一键抠图。同时,Meta 也发布了通用的图像大模型 Segment Anything Model(SAM) 与对应的数据集 Segment Anything 1-Billion mask dataset(SA-1B)。SAM 是一个可以接受文本提示、基于海量 数据训练而获得泛化能力、可以对任意图片进行分割的模型,而 SA-1B 则是目前最大的分割数据集。这一通 用的分割模型的核心思想是在用户输入的指令下分割一切。 Meta 通过三个相互关联的关键部分来构建分割的基础模型。这三个关键部分分别是,可提示的分割任务, 支持数据注释并通过提示工程将零样本传输到一系列任务的分割模型(SAM),以及一个用于收集 SA-1B 的数 据引擎。
这一基础模型的第一个关键部分,可提示的分割任务(Promptable segmentation task),指在给定任何提 示(Prompt)的情况下返回有效的分割掩码。Meta AI 团队的灵感来自于 NLP,希望可以将 NLP 领域的 Prompt 范式延展到计算机视觉(CV)领域。其中,图像分割的提示可以是一组前景/背景点、粗略框或掩码自 由格式的文本,或者指示分割图像的任何信息;掩码的有效则指,即使提示不明确、并且可能涉及多个对象, 输出也应该是其中至少一个对象的合理掩码。
提示形式的多样化是 SAM 的一大亮点。除了简单的识别图片中的物品之外,SAM 还支持用户使用各种交 互性的方式来分割出想要的物体。用户可以通过将鼠标悬浮在该物体之上,就能自动定位出物体的轮廓。用户 也可以直接输入文字查询,AI 就可以帮助找到并标记出这个图片中用户想找的这个文字对象。对于视频中的 物体,SAM 也能准确识别并且还能快速标记出物品的种类、名字、大小,并自动用 ID 给这些物品进行记录和 分类。

这一基础模型的第二个关键部分,SAM 模型(Segment Anything Model),包括三个组件:图像编码器、 灵活的提示编码器和快速的掩码解码器。因为可提示的分割任务和现实世界使用的目标对模型架构施加了约束, 该模型必须支持灵活的提示,需要分摊实时计算掩码以允许交互式使用,并且必须具有歧义识别能力。Meta 通过简单的设计满足所有三个约束:一个强大的图像编码器计算一个图像嵌入,一个提示编码器嵌入提示,这 两个信息源被组合在一个轻量级掩码解码器中,预测分割掩码。
相同的图像嵌入可以在不同的提示下重复使用 (及其成本分摊)。给定一个图像嵌入、提示编码器和掩码解码器在约 50 毫秒的网络浏览器中根据提示预测掩 码。Meta 专注于点、框和掩码提示,并且还使用自由格式的文本提示呈现初始结果。 为了使 SAM 具有歧义意识,Meta 将其设计为预测单个提示的多个掩码,即,使用一个输出,如果给定一 个具有歧义的提示,模型将平均多个有效掩码。实验发现 3 个掩码输出足以解决大多数常见情况(嵌套掩码通 常最多三个深度:整体、部分和子部分)。在训练期间,仅反向传播掩码的最小损失。为了对掩模进行排名, 该模型预测每个掩模的置信度分数。
这一基础模型的第三个关键部分,则是用于生成包含了一组 1100 万张得到许可的新图片和 11 亿掩码的 SA-1B 数据集的数据引擎(Segment Anything Data Engine)。由于互联网上的分割掩码并不丰富,Meta AI 团 队构建了一个数据引擎来收集数据集 SA-1B。数据引擎分为三个阶段:(1)模型辅助手动注释阶段;(2)混合 自动预测掩码和模型辅助注释的半自动阶段;(3)全自动阶段,在该阶段中,我们的模型在没有注释器输入的 情况下自动生成掩码。 这三个关键部分组成的这一基础模型,能够对具有不同数量掩码的图片实现较为准确的自动分割。

4.1.2、SAM模型有何创新性?
在 SAM 之前,有两类方法可以解决不同类型的分割问题,但都没有提供通用的全自动细分方法。第一种 是交互式分割,允许分割任何类别的对象,但需要一个人通过迭代完善掩码来指导方法。第二种是自动分割, 允许对提前定义的特定对象类别(例如猫或椅子)进行分割,但需要大量手动注释的对象来训练,以及计算资源和技术专长来训练分割模型。 SAM 是这两类方法的概括与升级。它是一个单一模型,可以轻松执行交互式分割和自动分割。模型的提 示界面允许以灵活的方式使用它,只需为模型设计正确的提示,即可完成广泛的分割任 务。此外,SAM 在超过 1 亿个掩码的多样化,高质量数据集上进行训练,这使 其能够泛化到新型对象和图像,而不是在训练期间观察到的。这种泛化能力意味着,总的来说,从业者将不再 需要收集自己的细分数据并为其用例微调模型。
概括而言,与其他的计算机视觉模型相比,SAM 在以下几个方面体现出其创新性。(1)拥有目前最大的 分割数据集:SAM 的训练数据集包括 1100 万张图像和 11 亿个掩码的海量数据集。(2)具有较强的零样本性 能:SAM 在分割任务中能对从未训练过的图片进行精准分割,初步验证了多模态技术路径及其泛化能力。(3) 提示形式多样性:开创性地结合 Prompt 模式,标志着自然语言处理的 Prompt 模式开始被应用在了计算机视觉 领域。
4.1.3、SAM模型目前的局限性在哪里?
进行一个更高层次的任务,即根据自由形式的文本分割对象后,确实证明了 SAM 具备一定的处理文本提 示的能力。SAM 可以根据简单的文本提示(如“车轮”)以及短语对对象进行分割。当 SAM 无法仅从文本提 示中选择正确的对象时,需要借助额外的点提示,通常就能修复预测。SAM 模型依旧存在进步空间。
此外,SAM 模型与当前尖端的伪装物体分割模型依旧有很大的差距。背景匹配伪装,是一个或者多个生 物为了防止被发现,尝试将其颜色与周围环境“无缝地”匹配的行为。SAM 伪装目标分割任务是检测出那些 与自然栖息地中有着相似模式的物体。通过实验得到,在自然场景中, SAM 模型辨别、分割隐蔽动物具有一 定难度。 不仅如此,在工业场景中 SAM 亦无法做到“分割一切”。由于工业场景中通常是短焦距下拍摄的近景图像, 所以 SAM 模型更倾向于去分割整个物体或者是物体的主体部分。同时,SAM 模型难以区分缺陷区域和纹理背 景之间的差异性,针对于工业场景中缺陷区域检出能力较差。

4.2、LLaMA:AI大型语言模型
4.2.1、LLaMA:开源语言大模型
2023 年 2 月 24 日,Meta 的 FAIR 团队宣布推出 LLaMA 模型,旨在帮助研究人员和工程师探索人工智能 应用和相关功能,能够应用于生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任 务方面。 LLaMA 训练数据集是不同来源的组合,涵盖众多的领域。从参数规模来看,大语言模型 LLaMA 包括四 种尺寸:7B、13B、33B 和 65B,FAIR 团队用 1.4 万亿个 tokens 训练了 LLaMA 33B 和 LLaMA 65B,参数规模 最小的模型 LLaMA 7B 也用了 1 万亿个 tokens 进行了训练。与其他大型语言模型一样,LLaMA 的工作原理是 将一系列单词作为输入并预测下一个单词以递归生成文本。
为了训练模型,FAIR 团队从使用最多的 20 种语言 中选择了文本,重点是那些使用拉丁字母和西里尔字母的语言。与 GPT、Gopher、Chinchilla 及 PaLM 等同类 成果比较,其他几种模型都用到了广泛的公共数据,但也引入了某些非公开可用或未记录在案的文本数据。而 LLaMA 则仅使用公开可用的数据集进行训练,所以虽然自身尚未开源,但该模型与开源原则完全兼容。性能较好:在大多数基准测试中,参数仅为十分之一的 LLaMA-13B 的性能优于 OpenAI 推出的 GPT3 (175B),也即支持 ChatGPT 的 GPT3.5 的前身。LLaMA-65B 也可与业内领先的 Chinchilla-70B 和 PaLM-540B 竞争。
LLaMA 使用 Transformer 作为 decoder,在结构上它与 GPT 非常类似。LLaMA 的 SA 与原始 Attention 存在一定区别,同时其 FFN 进行了改进。该模型使用的 Transformer 也在以下两方面作了优化:第一,预规范 化。为了提高训练的稳定性,将每个 Transformer 子层的输入归一化,而不是输出归一化。使用由 Zhang 和 Sennrich(2019)引入的 RMSNorm 归一化函数。第二,引入 RMS Norm(Root Mean Square Layer Normalization), 这是一般 LayerNorm 的一种变体,可以在梯度下降时令损失更加平滑。与 layerNorm 相比,RMS Norm 的主要 区别在于去掉了减去均值的部分,只保留方差部分。
4.2.2、LLaMA具有参数规模小、训练数据多、完全开源的特点
LLaMA 参数规模小,对算力要求低。在大模型上,人们似乎都会假设更多的参数会带来更好的性能。但 是 Hoffmann et al.(2022)的工作表明,在给定的计算预算下,最好的性能不是由最大的模型实现的,而是由在 更多的数据上训练的小模型实现的。和谷歌、微软不同,在大型语言模型上,Meta 选择了算力和资源要求更 少的小模型。LLaMA 模型在大量未标记的数据上进行训练,因而非常适合对各种任务进行微调。Meta 推出的 LLaMA 参数规模有 70 亿(7B)、130 亿(13B)、330 亿(33B)和 650 亿(65B)四种。

相比 ChatGPT 的底 层模型 OpenAI GPT-3 有 1750 亿(175B)个参数,LLaMA 模型的参数量很小。Meta 首席 AI 科学家杨立昆 (Yann LeCun)表示,在一些基准测试中,LLaMA 130 亿参数规模的模型性能优于 OpenAI 推出的 GPT3,且 能跑在单个 GPU 上;650 亿参数的 LLaMA 模型能够和 DeepMind700 亿参数的 Chinchilla 模型、谷歌 5400 亿参 数的 PaLM 模型竞争。
LLaMA 训练数据多,效果显著。与 Chinchilla、PaLM 或 GPT-3 不同的是,Meta 只用了公开的数据集。 这将有助于模型开源和复现,也证明了无需“定制”数据集也能实现 SOTA(State of the arts),即在某一领域 表现最好的模型。LLaMA 的训练数据集来源广泛其中包括开放数据平台 Common Crawl、英文文档数据集 C4、 代码平台 GitHub、维基百科、论文预印本平台 ArXiv 等 。项目成员称,这是为了使其工作与开源兼容和可复 现。这种方法的优势在于,在更多的 token 上训练的较小的模型,更容易重新训练并针对特定的产品使用情况 进行调整。在大多数基准上,性能稳步提高,并与模型的训练困惑度呈正相关。
尽管参数规模小,但通过大量的训练数据,LLaMA 实现了良好的性能。第一,LLaMA 安装难度低,只 需使用 pip 安装即可,同时由于 LLaMA 依赖于其它一些库,安装过程中还应安装相应的库;第二,LLaMA 的 文档质量高,包括了详细的 API 文档、示例代码和教程,对初学者非常友好;第三,LLaMA 功能丰富度高, 它提供了多种元学习算法,此外还提供了多种元特征提取方法和元模型选择方法;第四,LLaMA 稳定性较高, 测试过程中没有出现崩溃或错误的情况,但由于其代码开源,可能存在未知的风险;第五,LLaMA 性能强, 测试中它运行速度快且准确率较高,但由于元学习算法的特殊性质,性能表现可能会受到数据集的影响。
Meta 希望可以共享 LLaMA 代码以更好解决目前限制 LLM 问题的方法。Meta 表示,像 LLaMA 规模的 模型可以使那些无法访问大规模基础设施的人能够研究这些模型,在大型语言模型当道之时,像 LLaMA 这样 的较小基础模型更有价值,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新用例。 像 ChatGPT 和 Bard 一样,LLaMA 也没有摆脱如混乱、偏见和产生有害内容等的问题,Meta 希望共享 LLaMA 的代码,供研究人员测试解决这些问题的新方法。

4.2.3、多项AI能力与现有模型的对比
LLaMA 在常识推理、闭卷答题和阅读理解方面表现突出。在多项基准测试中,最多只有 650 亿(65B) 参数的 LLaMA 在单 GPU 上运行的性能优于有 1750 亿(175B)参数的 GPT-3,比如常识推理,闭卷问答(一 些基础问题的解决),阅读理解等。同样 LLaMA-65B 几乎在常识推理、闭卷答题和阅读理解方面的所有基准 上都优于 Chinchilla-70B 和 PaLM-540B。
LLaMA 的数学推理能力与代码生成能力分别优于 Minerva 和 LaMDA。研究者将 LLaMA 与 PaLM 和 Minerva (Lewkowycz et al., 2022) 进行了对比,尽管 LLaMA-65B 没有在数学数据上进行过微调,但它在 GSM8k 上的表现依然要优于 Minerva-62B。在代码生成方面,对于类似的参数数量,LLaMA 的表现优于 LaMDA 和 PaLM。在 HumanEval 和 MBPP 上,13B 以上参数的 LLaMA 超过了 LaMDA 137B。LLaMA 65B 也 优于 PaLM 62B,即使它的训练时间更长。
LLaMA 的多任务语言理解能力较弱。在大规模多任务语言理解 5-shot 的情况下,如下表 9 所示, LLaMA-65B 在大多数领域都落后于 Chinchilla-70B 和 PaLM-540B 平均几个百分点。一个潜在的解释是, LLaMA 预训练数据中相关的数据有限,即 ArXiv、Gutenberg 和 Books3,总和只有 177GB,而其他模型是在 高达 2TB 的书籍上训练的。为此,Meta 尝试使用了论文《Scaling Instruction-Finetuned Language Models》中介 绍的“指令微调”方法。由此产生的模型 LLaMA-I ,在 MMLU 上要优于 Flan-PaLM-cont,还拥有了一些有趣 的指令能力。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】「链接」