全球百事通！逐浪AIGC?｜大模型“开源”成势许可费厘定和数据壁垒成发展关键

2023-06-14 06:52:11 来源 : 21世纪经济报道

南方财经全媒体记者江月上海报道自从ChatGPT走红以来，不少企业和机构竞相开发大语言模型。然而，这种分散资源、能耗巨大的开发模式正为业内反思，“开源”成为一种替代性出路。

开源大模型正在发展中，它能提供“巨人的肩膀”，也能促进技术破壁和跨界交流。5月末，“猎鹰（falcon）”模型进行开源，迅速在全球开发者中掀起使用旋风。

6月12日，中国国产开源大模型也又添一子。智源研究院发布了“悟道3.0”，进入全面开源新阶段，反映开源形式对大模型的推动力量受到更多重视。

【资料图】

然而，“开源”也有其弊端。南方财经全媒体记者在采访中了解到，“猎鹰”模型的开源带来了商业权益的争议，“开源”是否也可通过许可证方式进行利润分割？此外，“开源”的技术范畴应包括哪些？业内期盼的重点开源资源是什么？受访者表示，“开源”是业内迫切的需求，但发展阶段仍然比较初期。

开源下的商业争议

自从5月25日宣布对研究和商用领域进行开源以来，“猎鹰 40B”大语言模型便成为了软件届最热门的大模型之一。不过直到6月上旬，围绕这种创新开源形式的商业化许可证仍正在引发业内激烈的争议。

以往多数已开源的大模型仅对研究目的开源，而猎鹰 40B的商用开源具有“打破壁垒”的意义。此外，通过包含推理、一小组科学问题、常识推理、真实性等在内的系列测试后，猎鹰 40B和DeepMind、Google和Anthropic的最先进大语言模型表现相当。

因此，猎鹰 40B在开源社区Hugging Face的开源模型排行榜上迅速登顶成为人气第一名，直至6月13日，这个排名也不曾动摇。

“猎鹰 40B”开发者是阿联酋阿布扎比技术创新研究所（Technology Innovation Institute，简称TII）。该所介绍，该模型参数（parameter）量为400亿，可见它一反此前大模型追求大参数的趋势，走了一条不寻常的道路。

TII称，“猎鹰 40B”特别关注数据质量，数据管道扩展到数万个CPU内核进行快速处理，通过过滤和重复数据删除，从而提取高质量内容。

这个模型在今年3月首次亮相，但在5月25日进行了开源，这意味着TII提供了对模型权重的访问。“在当前的人工智能生态系统中，开发人员发现提供模型权重访问的LLM更具吸引力，因为与没有模型权重相比，它们提供了增强的微调功能。”TII在官网上写道。

为何采取开源方式？TII称，开源技术允许全球开发人员分享他们的专业知识，从而促进软件增长和增强，促进协作并推动创新；它还促进了透明度，使用户能够检查和验证代码的安全性和可靠性。

不过，在这个开源举动之后，“猎鹰”陷入一场争议。按照最初的商用协议，TII规定对猎鹰 40B“收入超过100万美元的任何商业应用要收取10%的授权费”。

开源软件通常使用的是Apache 2.0软件许可证。AI数据及模型解决方案供应商工程师林涌告诉南方财经全媒体记者：“Apache 2.0是一种广泛使用的开源协议，它允许使用者进行使用、复制、修改、分发甚至商用，唯需要包含原著的license（著作权）信息。”由于这种共享属性，一般来说，业内称原著作者为“贡献者”。

林涌指出，TII当时宣称自己使用Apache 2.0，但又修改了其中关键的部分，令业界哗然。因此，甚至有业内声音认为，修改后的猎鹰 40B不再具有真正的开源性质。

出于对业内反对声音的回应，TII已经在5月31日宣布，“猎鹰 40B”免除所有商业和研究用途的版税（royalty），以应对全球对包容性人工智能的需求。

不过，也有业内评价指出，由知名游戏开发商Epic开发的开源游戏引擎“Unreal Engine(虚幻引擎)”也采取了类似的许可证方法。虚幻引擎的许可证分为标准化和定制化两种，在标准化许可证下，小型项目、业余爱好者、学习者可以访问虚幻引擎的所有特性和材料；在企业项目和定制化项目下，收取每年每席1500美元或者协商后的其他价格。通过这种方法，基于虚幻引擎进行的游戏开发商给Epic缴纳了大量使用费。

虚幻引擎的做法，给基础大模型开发商平衡成本提供了一条思路，但显然在大模型界，这种思路的具体实行还没有达成共识。

“开源”关键点为何？

在AIGC的浪潮中，“开源”的使用群体正在变得越来越强大。激发业界使用“开源”，也需要业内共创良好的互助环境，并争取宝贵的开源资源。

“开源需求应该说迫在眉睫。”某通讯公司开源战略总监陈实（化名）告诉南方财经全媒体记者，“面对抢跑的海外巨头，其他人不能只做跟随者，也要团结起来做创新者。”

随着GPT-4未能公布训练集内容，行业龙头OpenAI被冠上一个讽刺的外号“ClosedAI”。而大模型的开源之路，似乎变得有点堵塞。

近期，智源研究院副院长兼总工程师林咏华也指出了开源大模型的必要性。“在基础大模型上重复‘造轮子’，是很昂贵的，不仅是算力和数据本身很昂贵，而且还耗费了大量的电力能源。”她指出。进一步地，每个基础大模型还要不断进行版本迭代，意味着上述成本和投入要持续增加。

不过现实情况是，已开源、能商用的基础大模型通常没有那么好用。对此问题，陈实表示：“可以走两条路，开源的走to B（面向企业），闭源的走to C（面向个体）。”他解释称，to C的意思是“定制化”，根据使用者公司的特定需要、内部数据集进行模型开发训练，从而最终产品能产生“生产力”；to B的意思是“普及化”，给业界用于学习和代码参考，或者用于开发一些简单应用，例如“让每个企业都用上对话机器人”。

为何开源会在质量上产生参差、如何才能提升开源质量呢？目前，业界将问题关键指向了“数据开源”。

算力、算法、数据被称为AI的“三驾马车”，前期生成式AI爆发中，业内对于算力、算法关注度较高，但相对忽视了数据的重要性。“猎鹰”模型此次反而提醒了数据质量在模型质量中的关键作用。

基于一万亿个tokens和400亿个参数训练出来的猎鹰 40B，不仅在性能媲美其他高性能大语言模型，而且使用的训练算力只相当于GPT-3的75%、Chinchilla的40%、谷歌PaLM-62B的80%。

“其实模型只是数据的一个投影，数据质量的高低具有决定性的因素。”陈实指出。

然而，为何高质量数据难以获得？陈实告诉南方财经全媒体记者，这主要因为数据天然的隐私性。

“真正高质量的数据，存在于公司里、在一线机构里，但它们普遍都受到数据墙的保护。”陈实解释。例如，医院数据是生物制药企业最为渴求的一线资源，但这显然牵涉病人隐私，也有后续使用上的不少隐患。

眼下，大模型开源已经在底座、训练方法和工具链上相继实现，未来一大核心将在“数据开源”。

“一大问题是，龙头人工智能开发公司是否愿意参与到数据开源中。”陈实表示怀疑，由于龙头公司往往能占据行业绝大多数的利润，它们通常很难与同行达成合作、分享成果。

建立第三方机构作为数据中介，可能是“数据开源”的一种解决思路。“数据中介可以一定程度消除信任问题，也能增加数据的流通性。”陈实表示。

（应受访者要求，林涌、陈实为化名）

关键词：