近期,法 国市场监管机构日前宣布,已向美国谷歌公司开出一张2.5亿欧元(约合人民币19.7亿元)的罚单,原因是谷歌未经同意使用法国出版商和新闻机构的内容训练旗下的聊天机器人“巴德”(其升级版名为“双子座”),违反了欧盟知识产权的相关法规。谷歌就此成为了第一家因为训练数据而被罚款的人工智能(AI)公司。谷歌遭到处罚,可能会导致今后出现越来越多类似的诉讼。
在AI技术更新迭代非常迅速的前提下,AI公司在获取训练大模型的数据时,如何界定获取 语料 的合法性?专家认为: “ AI发展核心在于数据,所以AI公司非常渴求高质量数据。在收集和使用数据的过程中,这些公司会加大数据收集力度,但会有意无意地侵犯其他主体的数据权益。另一方面,数据权益保护目前仍存在模糊地带,包括制度供给、实践案例等。”
从法律的角度看,上海交通大学媒体与传播学院教授陈堂发认为,法国监管机构对于谷歌的处罚具有法律依据,这对其他的AI公司应该具有警示功能,处罚行为表明AI研发及产品使用如果涉及大规模使用他人作品的训练,无疑存在法律风险。
如果把广义的AI产业链分为上中下游,那么中游就是大模型,百度、阿里、腾讯等互联网巨头+智谱、月之暗面、阶跃星辰这些新秀; 上游卖铲子卖资源的主要是算力+语料 ;下游就是各类应用,办公、金融、法律等。
当前国内AI大模型突出长文本能力,那语料更关键,近期Kimi能够如此大火,也得益于其超越ChatGPT的文本能力 ,根据月之暗面官方微信公众号消息,支持200万字上下文的Kimi即日启动“内测”。根据机器之心数据显示,尚未上线的GPT-4.5 Turbo上下文窗口指定为256000个token,能同时能够处理约200000个单词,KIMI此次升级后长文本能力为GPT的10倍!文本能力可以说是完胜最新版GPT!
AI语料,尤其是经过精心筛选和标注的数据,对于训练高效的自然语言处理(NLP)模型至关重要。它们使得AI能够更好地理解和生成人类语言,从而在各种应用中实现更准确的交互和决策。随着AI技术的不断进步,对于高质量、多样化的语料库的需求也在不断增长。
以下A股AI语料概念股梳理(建议收藏):
中文在线: 拥有的高质量正版数据总量超过60TB,含文字/音频/视频多种类型,覆盖小说、科晋、社会等多个中文在线品类,累积数字内容资源超550万种,网络原创驻站作者450余万名,同时与600余家版权机构合作,签约知名作家、畅销书作者2,000余位,目前已跟多家模型公司签署协议,数据资料正在交付中旗下4种期刊国际同学科期刊排名第一。(文本语料)
中国科传: 公司是目前国内拥有科技图书和期刊内容资源最多的出版单位之一。(文本语料)
中国出版: 全国图书零售市占率、版权贸易及输出规模等位居全国第一。(文本语料)
掌阅科技: 在文学和阅读领域的版权储备业内领先内容储备近300TB 已与国内外300多家知名内容厂商紧密合作,拥有各类优质版权30万余册正在将A1大模型和阅读主App进行深度融合,致力于打造国内首款真正的智能阅读APP。(文本语料)
中广天择: 旗下“淘剧淘”版权交易平台共计入驻电视台播出机构500余家,电视剧版权公司200余家,汇集400余部近两万集优质电视剧;目前已出售了部分视频版权给从事大模型业务的客户。(视频语料)
华策影视: 国内影视剧制作龙头,电视剧年产能规模稳居全行业第一,已拥有国内最大影视素材运营平台,手握5万小时版权数量(超60%永久原创版权)。(视频语料)
视觉中国: 全球领先的视觉内谷数字版权供应商,拥有超4亿张图片资源、3000万亲视频素材和35力自音乐,签判创作者超过50万。(图片语料)

我会在 公众号:智者价值投机 每日的早 中 晚 分享最新题材和热点挖掘,相应时间段的最新消息更新和最新的机会策略都会第一时间分享。
不作为证券推荐或投资建议,旨在提供更多信息,如有版权问题请联系作者删除。