作者|赵赛坡
头图|视觉中国
本期围绕三个角度,关注大模型领域的关键事件与产业动态:
· 大模型与产业链:云计算和芯片公司如何应对大模型的挑战;
· 大模型与市场:OpenAI的新方向、马斯克加入战局以及开源大模型的发展;
· 大模型的争议:金融领域应用大模型的不确定性、各国应对大模型政策及OpenAI神秘的“红队”等;
大模型·产业
大模型正在深刻影响到科技产业链。先看云计算,AWS上周公布了其一系列大模型的产品布局,包括:
· 云上大模型调用平台Bedrock,该平台集成了诸如以色列公司AI21实验室、OpenAI直接竞争对手Anthroic以及Stability AI等公司的模型;
· 推出AWS自研的大模型Titan基础模型服务,目前可以通过Bedrock获取;
· 发布CodeWhisperer,这是一个类似于Github Copilot的编程助手,现阶段免费;
近几个月,在微软、Google相继发布对话机器人并争相通过大模型相关功能改造产品的背景下,AWS也一直在“默默”努力,几个值得注意的事件:
· 2022年11月,AWS成为明星创业公司Stability AI的首选云计算合作伙伴;
· 2023年3月,AWS与Hugging Face合作,将后者的文本模型引入到云平台;
· 2023年4月,AWS成立一个面向生成式AI创业公司的加速营,提供诸如计算资源、创业辅导等一系列创业服务;
此番通过Bedrock等产品,AWS初步构建起了云计算公司应对大模型机遇和挑战的框架。
截至目前,主要云计算公司们对于大模型的产品布局和发展策略包括两大类:
· 以微软、阿里云、百度为代表,通过自己(或投资公司)的单一大模型改造现有产品,并集成到各自云服务里,为行业客户提供相应产品;
· 以AWS为代表,没有过多强调自己的大模型能力,而是希望构建起一个基础服务的平台,变成“大模型领域的中立服务商”;
无论是哪一类布局或策略,通过大模型——包括但不限于文本、图像——完成原有应用或服务的改造,会成为接下来大模型落地的重要看点,推荐一份来自咨询公司Accenture的分析报告,展示企业如何从“消费大模型”到“定制大模型”的转变,这其中有巨大的产业增长机遇。
其次,大模型催生巨大的计算需求,这对深陷行业周期的芯片公司而言是巨大利好,也难怪有媒体直言,阿里百度一定程度都是英伟达的“打工人”——毕竟,高性能的AI芯片独此一家。巨大的算力需求,也让AI芯片再一次供不应求,这不仅影响到大量创业公司,也让一些云计算公司的AI服务变得极其紧张。
由此也不难理解Google与微软之前释放的消息:
· Google通过论文展示新一代TPU的进展,作为第四代自研芯片产品,Google将4000颗TPU串联组成了一台超级计算机,其性能与能耗相较于英伟达A100芯片驱动的超级计算机都有大幅提升。
· 微软介绍了自家超级计算机如何驱动ChatGPT大模型训练,这和Google此番强调PaLM模型在4000颗TPU驱动的超级计算机上训练50天的说辞几乎一致。
以及,数据中心网络芯片巨头博通也在本周发布一款AI芯片,这款名为“Jericho3-AI”的新芯片,可将多达32000个GPU连接在一起,从而构成强大的算力基础设施,由此,博通为那些不愿意使用英伟达Mellanox方案的公司提供了新的选择。
最新的消息是,微软自2019年就在秘密推进一款代号为“Athena”的AI芯片研发,目前有300人参与这项工作,该芯片面向大模型训练的场景,独家的消息源称,目前还不确定未来这款芯片是否通过Azure云服务向其他客户提供。
通过面向特定场景推出自研AI芯片,一方面能够降低大模型的训练、推理成本,未来也会帮助巨头们开启“大模型的API价格战”,从而获取更大市场份额;另一方面,自研芯片也会减少对英伟达高性能芯片的依赖,更好应对新一轮“缺芯”周期。
大模型·市场
新玩家。伊隆·马斯克的新AI公司“X.AI”已经成立,根据文件,马斯克是该公司唯一在册的董事,马斯克家族办公室主任Jared Birchall是该公司的秘书。
FT援引消息人士的话称,马斯克一直从包括Alphabet在内的众多公司挖人,并暗中购买了大量来自英伟达的GPU,用于接下来的大模型训练。
与此同时,马斯克还通过福克斯电视台宣称,自己要打造一个“TruthGPT”,这是一类“试图理解宇宙与真相的人工智能”。
新方向,OpenAI创始人Sam Altman公开表示,依靠堆积模型参数提升模型能力的时代基本结束,未来需要更好的策略或方法,这个表态背后至少有两层考量:
· 大模型的训练成本持续上涨,Altman称算力上涨存在物理限制;
· 参数规模带来的恐慌,可能会给行业发展带来监管压力;
无论是哪一种可能,大模型接下来的发展速度可能不会像之前那么快,但基于现有模型与更好的方法的结合,或许能进一步释放大模型在众多行业的价值。
另外需要注意的是,Sam Altman确认,OpenAI并未开始研发GPT-5,同时该公司计划扩大日本的业务。
新市场。福布斯上周发布了AI领域最具潜质的50家创业公司“AI50”榜单。今年的榜单里,差不多三分之一的公司拥有生成式AI相关的业务,这其中,既有握有大量微软投资的OpenAI,也有还未获得公开投资的Midjourney、Surge AI公司——当然,这两家公司接下来一定会获得巨额融资。
除此之外,包括Anthropic、Inflection、Runway等明星公司都入围榜单。另外还有一些“老牌”的创业公司,比如数据标注公司Scale AI、数据平台公司Databricks也受益于生成式AI的良好发展态势,这类“淘金热里卖工具”的公司,永远有市场。
继续谈新市场,与GPT-4等闭源模型相互应的还有一系列开源模型,截至4月20日,以下五个开源大模型值得关注:
· Meta的LLaMA;
· 基于LLaMA,斯坦福大学推出了Alpaca;
· 同样也是基于LLaMA,包括加州大学伯克利分校在内的研究者发布的Vicuna;
· Databricks公司推出的Dolly;
· LAION机构开源的Open Assistant,这个项目的详细介绍可参见这里;
另一个与大模型息息相关的市场信息是,Reddit将对使用该社区数据进行大模型训练的公司收费了,Reddit公司创始人兼CEO Steve Huffman表示,Reddit的数据库真的很有价值,“但我们不需要把所有这些价值都免费提供给一些全球最大的公司”。
此举或将对大模型的发展产生深远影响,此前在一系列大语言模型的训练数据里,一些主要社区(比如Reddit)、Wiki站点(比如维基百科)的数据质量相对较好,但包括OpenAI这样的公司,都在免费使用这些数据,然后将大模型变成付费产品(API),从这个角度去看,Reddit向OpenAI等大模型服务商收费,也是情理之中的事情。
大模型·争议
大模型在众多行业的应用存在巨大不确定性,比如金融领域,尽管华尔街对于投资算法、预测模型的追逐由来已久,但大语言模型之于金融,特别是投资场景的局限性很大:
· 数据量有限:不同于常规大模型能够使用海量的数据进行训练,金融市场的数据量并不大;
· 数据噪音太多:金融市场的数据总量虽然不大,但大量数据相互关联,而且实时动态变化中,很多数据信号转瞬就变成了数据噪音;
· 模型决策的风险大:利用大模型投资带来的风险,可能不会比完全相信自动驾驶汽车的风险更小,依然需要非常多的人力干预。
当然,我们不能静态地看待问题,大模型的发展还处于初期阶段,假以时日,新的算法或许能解决上述难题,全面改变金融行业的游戏规则。
至少在现在,大模型已经成为投资银行客户经理定制专业信息的新方式,通过自动化、定制化的金融信息,获取更多客户的青睐,金融行业的变化其实已经开始。
两篇论文探讨大模型带给社会经济与环境的影响:
· 以美国劳动力市场为例,大语言模型会深刻改变经济发展结构,特别是通过大模型提升效率方面的数据非常惊人,这个数据仅限于美国,各位可酌情参考;
· 研究者预估,微软美国数据中心训练GPT-3的过程会消耗大约70万升的水,这些水用于冷却数据中心,相当于生产320辆特斯拉电动车或370辆宝马汽车的用水量;
国家层面对于大模型的监管也在持续加码中:
· 中国:网信办发布《生成式人工智能服务管理办法(征求意见稿)》公开征求意见的通知,其中第六条:“利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续”;
· 加拿大:政府隐私专员办公室已开始对OpenAI展开调查,原因是OpenAI在未经用户同意的情况下利用和使用他们的个人信息。该办公室成是在接到投诉之后开展的这项调查;
· 美国:FTC多位官员在国会听证会上表示,ChatGPT等工具可能产生各种欺诈消费者的行为,部分企业以算法黑盒子为由是在逃避责任;
· 欧盟:负责起草欧盟《人工智能法案》的立法者称,计划增加新法律条款,以更好应对近期基础大模型快速发展带来的各种挑战,该法案预计将在5月进行投票;
公司层面,Google Bard一直在更新,Bloomberg的独家信息称,在Bard上线前,Google内部员工测试之后给出的评价很低,而负责评估Google AI产品是否符合道德伦理规范的团队也已经失去权力,该团队被告知不能阻碍正在开发阶段的任何一个生成式AI产品。
就在本周,资本市场因三星手机或将使用Bing搜索替代Google作为默认搜索引擎的信息引发震动,Google母公司Alphabet股价一度下跌3.5%,由此也能看出市场对于Google未来发展的担忧。
最后看看OpenAI内部用来评估大模型风险的“红队”,FT采访了十几位加入GPT-4模型“红队”的成员,他们主要在美国或欧洲,职业包括学者、教师、律师、安全研究员等。
在GPT-4上线前,这些成员通过各类极限性或充满伦理道德甚至法律风险的问题“攻击”GPT-4,并将结果反馈给OpenAI,以进一步提升大模型的安全性。
其中一个案例:一位名叫Andrew White的大学教授利用GPT-4寻找一种神经毒剂,该模型推荐一种可以充当化学武器的化合物,并使用“插件”为提供了新的信息来源,包括科学论文和化学制造商目录,然后还帮助他找到了制造这种化合物的地方。
而GPT-4上线后,这种情况已经不会再出现了。
评论