OpenAI 的那些“糟心事”｜AI内参

作者｜赵赛坡

头图｜视觉中国

本期“计算”部分关注英伟达或成为 ARM 基石投资者、欧盟如何应对中国的金属出口禁令、IBM 的自研芯片等。

大模型“市场”层面，越来越多押注加密货币的资本开始流入生成式 AI 领域；留意红杉资本、a16z 的 AI 投资布局，也是观察 AI 市场发展的重要风向标。

本期还将关注：

OpenAI 的“糟心事”：版权诉讼、FTC 调查与 GPT-4 技术细节被泄密；
Meta 计划发布商业版大模型，全球大模型竞争进入一个新阶段；
中国《生成式人工智能服务管理暂行办法》的重要细节；

接下来，欢迎和我一起复盘近期围绕数据与智能的产业关键事件。

大模型·计算

在中国即将限制镓和锗的出口之际，其他主要经济体不得不评估各自地区相关矿产的储量和产能情况。以欧盟为例，此前欧盟从中国进口 71% 的镓和 45% 的锗，要想快速找到替代工厂，几乎是不可能的事情。

FT 的消息进一步指出，其他地区的供应链情况也不乐观，比如隶属于 Nyrstar 公司的一家美国田纳西州锌冶炼厂，尽管可以实现 1.5 亿美元的锗和镓的回收加工产能，能够满足美国 80% 的市场需求，但整个建设周期需要至少两年，这对整个半导体供应链无疑都是巨大的冲击。

根据 Fastmarkets 提供的数据，镓的价格近期已经上涨了 28%。

而在半导体终端领域，多家美国芯片公司还在积极游说白宫，希望白宫放松相关限制，路透社援引消息人士的话称，包括英特尔、高通在内的多家美国芯片公司 CEO 下周将密集访问华盛顿，与白宫、国会等机构讨论对华芯片政策。

上图展示了一些美国公司在华业务之于该公司的巨大价值，中国市场的重要性不言而喻。也是在上周，富士康退出一项与印度巨头 Vedanta 公司建立芯片工厂的计划，该项目于 2022 年启动，两家公司投资总额达到 195 亿美元。

但这不意味着富士康放弃在印度建立芯片工厂，印度当地媒体的报道称，富士康正在寻求和包括台积电在内的几家公司合作，继续发展在印度的芯片制造业务。富士康的印度芯片工厂或许不会制造高端芯片，但仍然极具价值。一方面，芯片的需求非常多样化，并不是只有iPhone 或 PC 的高端芯片才有价值，市场还需要更多中端或低端的芯片，以满足诸如汽车、工业控制或物联网设备的计算需求。

另一方面，很长一段时间里，芯片工厂的分布非常不均匀，台积电的高端芯片只会放在台湾地区生产，英特尔的转型计划，也契合了各国——欧盟、以色列、日本——对于建造本地工厂的需求。

再来看英伟达。多位消息人士表示，即将在美国上市的 ARM 公司，正在和英伟达谈判，后者有望成为 ARM 的基石投资者，参与 IPO 认购。不过目前谈判还有一些不确定性，比如英伟达对于 ARM 的估值大概在 350 亿美元到 400 亿美元之间，远低于 ARM 的 800 亿美元估值，因此，在 9 月 ARM 原定的 IPO 之前，双方还需要进一步的讨价还价。

就目前来看，ARM 的确需要英伟达的站台。在当下 AI 持续流行的市场氛围里，“英伟达就是 AI”的共识会极大提升 ARM 的估值，这对于急需通过 ARM 上市从而获得更多现金支持的软银以及孙正义而言，更是如此。

在巨大的 AI 计算需求刺激下，英伟达如今已经站稳 1 万亿美元的市值，但“自研 AI 芯片”依然会是众多大公司的选择之一，比如 IBM 就在其云服务 Watsonx 里部署了自研的 AI 芯片，IBM 给出的理由也非常简单：自研芯片能够降低业务成本。

尽管目前 IBM 还未透露诸如有多少客户使用或芯片的算力参数等详细信息，不过有两件事情非常确定：

越是大公司，越不会只在一家公司里采购算力，供应商的多元化是大趋势；
没有哪家公司会使用自研的 AI 芯片完全替代英伟达的芯片，这既不是科学的选择，经济上也不合理；

大模型·市场

“Follow the Money”是观察市场发展情况的重要方法，AI 市场同样也遵循这个规律。根据研究公司 PitchBook 最新的数据，2023 年，全球资本已经开始从加密货币领域大幅流向 AI 市场。

导致这一现象的原因也容易理解，过去半年来，多家美国加密货币交易所或公司深陷困境，引发监管机构调查，大量资本开始逃离，这个时间段也和快速兴起的 AI 潮流相吻合，由此也让这些“钱”有了“新家”。

不过，如果仔细去看上图，2023 年前两个季度里，全球 AI 和机器学习的投融资总额依然低于或基本相当于 2022 年同期的数字，甚至环比还呈下降态势，这似乎和每天一众 AI 创业公司迅速获得融资的消息相矛盾。

上述两个方面的数据都没有问题，一方面，以 OpenAI 为代表的新一代 AI 创业公司的确正在成为资本的宠儿，这些明星创业公司获得大笔融资的消息多少让外界产生了一些“幸存者偏差”。

另一方面，当下 AI 投融资的热度，更多还是围绕所谓“生成式 AI”，这是一个非常小或者说聚焦的市场，这与前几年围绕 AI 上下游产业链——芯片、软件、硬件、算法——的投资完全不同，因此，大量资本——可能是之前泛 AI 的资本，也可能是来自加密货币市场的资本——集中在“生成式 AI”领域进行投资，但总量并不没有太大变化。

在另一个“Follow the Money”的维度上，顶级 VC 们在做什么，也极具参考性：

红杉资本发布一份新语言模型技术栈分析，详细探讨公司如何将人工智能应用落地；
a16z 在其官网上线“AI Canon”，创始人之一的 Marc Andreessen 更是发出“为什么 AI 将拯救世界”的呼吁；

沿着这个角度去看，我们也就不难理解，诸如 Wing Venture Capital 这样在 Snowflake 早期投资里赚得盆满钵满的 VC 也会加入 AI 投资热潮，这家总部位于加州的 VC 近期成立一支 6 亿美元的 AI 投资基金。

近期几笔值得关注的资本交易还包括：

英伟达向生物技术上市公司 Recursion 投资 5000 万美元，“生成式 AI+药物研发”成为这项投资的关键词，另外英伟达还悄悄收购了一家专注于边缘设备机器学习的创业公司 OmniML，收购金额不详；

面向零售门店提供机械臂技术的日本机器人创业公司 Telexistence 日前获得软银、鸿海（富士康母公司）等机构的 1.7 亿美元投资，这也成为软银近期金额最大的机器人现实投资；

云服务公司 DigitalOcean 日前以 1.11 亿美元收购云和 AI 创业公司 Paperspace；

eBay 完成对 AI 技术公司 Certilogo 的收购，后者是一家提供基于人工智能的服装和时尚商品数字身份识别和认证服务的公司，交易金额未公开；

大模型·巨头

马斯克的新 AI 公司 xAI 正式亮相，这家公司最早在 4 月份被披露。随后有媒体报道称，就在马斯克一边要求 OpenAI 停止研发新模型的同时，这家马斯克的公司还在市场上大量采购英伟达 A100 等高端 GPU。

根据其官网透露的信息，xAI 的目标是“理解宇宙的本质”，该公司的团队目前由 12 名男性组成。鉴于目前的公开信息，外界很难看出 xAI 与 OpenAI 或其他 AI 公司的不同——无论是研究法方向、方法还是商业落地。

不过对于 xAI 而言，拥有 Twitter 庞大而高质量的数据将是其最大的竞争优势，该公司也明确表示会和 Twitter 紧密合作。与 Twitter 以及马斯克不断上演口水战的扎克伯格，也在悄然推进 Meta 新一代大模型的工作，根据多家媒体的报道，Meta 新一代 LLaMA 模型将在开源版本的基础上提供商业版本。

此举意味着 Meta 正式踏入到微软（OpenAI）、Google 等公司的大模型商业化赛道，FT 援引 Meta 公司负责 AI 基础研究的 Yann LeCun 的话，“未来几个月，也许是未来几周，人工智能的竞争格局将会完全改变，将会出现与那些非开源平台实际相媲美的开源平台”。

Meta 的战略一定程度也会影响到 OpenAI 的发展，后者近期面临一系列法律诉讼和调查：

著名喜剧演员 Sarah Silverman 起诉 Meta 和 OpenAI，指控他们未经允许使用其内容来训练人工智能语言模型；

美国 FTC 启动一项对 OpenAI 的调查，根据 FTC 发给 OpenAI 的文件来看，FTC 主要关注 OpenAI 的大模型是否违法了消费者保护法；

近期 OpenAI 另一个“糟心事”是其最新模型 GPT-4 的诸多技术细节被挖出，这份爆料的关键点在于，GPT-4 并没有采用多么独家或先进的技术，而是一个“大力出奇迹”的结果，比如：

GPT-4 的参数数量约为 1.8 万亿，与此相比，OpenAI 曾公布 GPT-3 的参数约为 1750 亿；
基于英伟达 A00 进行训练，整个训练过程耗费 6300 万美元；

或许是 GPT-4 没有太多秘密，OpenAI 一直对该模型的技术细节三缄其口，结合这份爆料来看，其他公司完全有机会，通过金钱堆积算力和模型参数，并利用一定的工程能力，“复制”新的 GPT-4。

毕马威上周与微软达成合作，在为期五年的合作中，毕马威将向 AI、云领域投资 20 亿美元，从而把 AI 技术全面整合到诸如审计、咨询等公司业务中。毕马威与微软的合作，其实也在抱住 OpenAI 的大腿，毕竟相比于 OpenAI 孱弱的服务能力，微软拥有丰富的企业大客户服务经验，而且微软也能够第一时间获取到 OpenAI 的大模型。

毕马威也是近期重金投资 AI 的咨询公司之一，此前埃森哲宣布未来三年投资 30 亿美元用于 AI 和数据领域，并扩充团队规模；而普华永道、安永、贝恩、德勤、麦肯锡也在进行类似的布局。

大模型·政策

最后聊聊中国网信办等七部门上周正式公布的《生成式人工智能服务管理暂行办法》，全文在这里，相比于 4 月份公布的征求意见稿，重点关注以下几个变化：

第二条强调“利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务”才适用于该管理办法，这意味着如果不向公众提供相应服务（比如研究或内部使用），就不在此管理范围；

第七条谈到“训练数据”，此前的草案要求保证数据“真实性、准确性、客观性、多样性”，现在则相对降低标准，强调要“采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性”；

第四条中关于输出的表述，不再要求生成的内容“应当真实准确”，新地表述为“采取有效措施，提升生成式人工智能服务的透明度，提高生成内容的准确性和可靠性”；

总体上看，“暂行办法”力图在鼓励创新与安全可控之间做出平衡，这为接下来中国生成式 AI 的发展提供了规则指引，而既然是“暂行办法”，那么未来也有一定的调整和修订可能性。

评论

最新评论