NLP大模型以及相关应用的发展,使得算力需求呈现爆发式增长,但除了大型互联网企业、AI 龙头企业具有较多的GPU算力芯片储备外,中小企业在发展 AI 模型、应用过程中,往往遭遇算力瓶颈,总结来说为““买不起,建不了,算不好””。 ——引自浪潮信息董事长彭震《加速智算系统创新,切实解决大模型算力“买不起、建不了、算不好”难题》
买不起: 大模型,特别是千亿参数级别具备涌现能力和泛化能力的大模型是通用人工智能的核心。但大模型对海量算力资源的消耗,急剧抬高了准入门槛。以ChatGPT的总算力消耗 3640PF-days计算,这对于自建、自研大模型,往往需要少则几亿,多则数十亿的IT基础设施投资,这就导致大模型不仅是一个技术密集型产业,同时也是资金密集型产业,资本的力量在大模型产业发展中扮演越来越重要的角色,高昂的资金门槛使得具备技术能力的初创公司和团队面临“买不起”的难题,难以开展创新。
建不了: 通用大模型开发是一项极其复杂的系统工程,如同F1赛车的调校一样。F1赛车的性能非常高,但如何调校好这部赛车,让它在比赛中不仅能跑出最快圈速,而且能确保完赛,对整个车队的能力要求是非常高的。
算不好: 大模型在训练过程中,由于开发链条冗长,还面临“算不好”的挑战。从PB级数据的爬取、清洗、过滤,到大规模预训练的算法设计、性能优化和失效管理;从指令微调数据集的设计到人类反馈强化学习训练的优化……大模型训练不仅依赖高质量数据,同时也要解决算法收敛、断点续训、参数优化、模型微调等问题,数据质量、代码调优、执行效率等关乎训练质量的因素至关重要。这些问题解决不好,很难产生一个可商用的、高质量的大模型产品。
在此背景下, 智能算力租赁业务迎来发展良机。
一、算力租赁的定义:算力租赁就是对算力资源进行出租,是一种通过云计算服务提供商租用计算资源的模式;在小规模算力、算时的场景下,客户可以根据自己的需求租赁服务器或虚拟机实现大规模的计算任务,而无需拥有自己的计算资源;算力租赁是一种灵活、高效、成本低的计算服务。举一个比较直观的例子,以175B模型参数,300B tokens训练集大小作为参照样本:
自建成本: 以DGX A100(5petaFLOPS),45%的训练有效性;训练30天作为中型企业的训练标准,需要55台A100,每台15万美元,共825万美元(近6000万人民币),此外还有机房建设、运维、减值等费用。
租赁成本: 4.5X24X30X8X55=142.56万美元近1000万人民币,没有其他费用,且中小型企业一次训练+更新后一般就可以不用再训练了,只有推理需求,而且明后年降本直接50%以上(有降价趋势)。对于租赁运营商而言,有测算单台A100服务器生命周期内IRR为35%(需要进一步验证)
二、算力租赁服务的业务模式:
1、具备 AI 训练需求和 AI 应用场景的公司以自建 AI 算力中心为主,以头部互联网公司、AI 算力用户为代表,且所建设的 AI 算力以满足自身业务需求为先,其次再为提供给外部客户使用。此类模式一方面可提升公司算力基础设施的利用效率,另一方面也可基于软、硬件实力构建生态圈,赋能合作伙伴。(阿里、百度、字节、移动、联通、电信等)
2、主业涉及算力中心产业链条的公司以共建 AI 算力中心为主,以运营商、独立 IaaS 云服务商、传统 IDC 服务厂商为代表,合作对象主要为政府(或政府授权的公司主体)。此类模式受益于政策红利以及政府支持,区域属性较强。(曙光、浪潮、首都在线、中贝通讯等)
3、跨界布局第二生长曲线的公司业务模式相对更加灵活,各类业务模式均有涉及,在共建模式下合作方也 更加多元。(鸿博股份、恒信东方、电子城、协鑫能科等)
三、算力租赁服务的商业价值:
成本效益:企业可以通过算力租赁服务避免昂贵的硬件设备投资和维护成本,根据需求灵活地使用云计算资源,从而降低运营成本。
灵活性和扩展性:算力租赁服务可以根据企业需求提供灵活的计算和存储资源,随着业务增长,可以轻松地扩展或缩减云资源使用量。
提高效率:通过算力租赁服务,企业可以更快速地部署新的应用和服务,提高业务的运行效率和灵活性。
降低风险:企业不需要为设备的更新、维护和安全性担心,这些责任由云服务提供商承担,降低了企业的风险。
全球化和跨地域部署:通过算力租赁服务,企业可以在全球范围内部署应用和服务,实现全球化业务发展,满足跨地域业务需求。
数据安全和备份:云服务提供商通常提供高级的数据安全和备份机制,帮助企业保护敏感数据和业务连续性。
节能和环保:通过共享云计算资源,可以减少企业的能源消耗和碳排放,有助于实现企业的可持续发展目标。
总的来说,算力租赁服务的商业价值在于提供了成本效益、灵活性、效率提升、全球化部署、数据安全和环保等方面的优势,帮助企业更好地应对日益复杂和多变的商业环境。