去搜搜
头像
大模型竞争悄然开始,语音合成或有重要突破|AI内参
2023-01-13 10:30

大模型竞争悄然开始,语音合成或有重要突破|AI内参

文章所属专栏 全球科技纵览·趋势必读 第二季
释放双眼,听听看~
00:00 09:08

作者|赵赛坡

头图|视觉中国


本期首先聚焦 OpenAI 近期的融资传闻与新产品,2019 年已经投资 OpenAI 的微软,也在加快投资与技术整合步伐,更进一步,ChatGPT 等生成模型引发的争议还在持续发酵……


云计算领域,阿里云设立国际能力中心、微软收购 DPU 创业公司以及 Salesforce 裁员的影响等,本期会提供几个思考角度。


2023 年的大模型竞争已经悄然开始,微软展示语音合成的重要突破、DeepMind 大模型能够与临床医生同台竞争……


接下来,欢迎和我一起复盘近期围绕计算与智能的产业事件。

 

AI+X


  • Open AI


当 2019 年夏天微软向 OpenAI 投资 10 亿美元的时候,或许并没有多少人——当然也包括我——认为这是一次理智的投资,我在当时的 AI 内参 会员通讯里写道:


……微软为 Azure 拿到了一家公有云的大客户,OpenAI 获得来自 Azure 的计算能力以及来自微软的宣传。


更进一步,对于 OpenAI 所秉承的 AGI 目标,又是一个相当具有迷惑性的说法。一方面,AGI 的研究短期内不可能实现,即便是在特定场景的 AI 研发也还有巨大的提升空间;另一方面,相比于 DeepMind 的开放式研究,OpenAI 一点也不“Open”,还记得他们对于 GPT-2 如何欲言又止吗?


综上,这是一笔目前来看还不明不白的投资,当然我们也不能否定微软对于 AI 研究的认真态度以及 OpenAI 一系列研究的影响力,但从行业发展的视角去看,距离 OpenAI 的 AGI 梦想还有非常长的距离,微软会是那个可以陪他一直走下去的那个人吗?


过去三年多时间里,OpenAI 的一系列基础研究突破,特别是大模型领域的技术进展让微软当时的投资显得极富远见性,无论是 GPT 大语言模型还是 DALL-E 的文本生成图片模型,微软都是第一批客户,并被这家软件巨头快速集成到自己的产品里。


资本市场的反应非常快。尽管过去几个月创投市场非常不景气,但包括 Peter Thiel 在内的多家硅谷知名投资人和公司,正在与 OpenAI 讨论新一轮投资的可能性,FT 的独家消息称,OpenAI 的估值超过 300 亿美元。


微软也在加快与 OpenAI 的合作步伐。《财富》杂志指出,微软计划在未来几年向 OpenAI 投资 100 亿美元,从而拿下 49% 的股份,如果这笔投资可以成行,将对整个 AI 创投市场产生巨大而深远的影响。


与此同时,Information 还结合线人的消息显示,微软正在将 ChatGPT 技术全面集成到核心产品 Office 365 套件里,包括:


  • 优化邮箱产品 Outlook 的功能,使其实现更好的邮件自动回复;

  • 集成到 Word,帮助客户自动撰写某些内容;

  • 集成到 PPT 里,为用户制作 PPT 提供相关建议等;


而 Bing 搜索集成 ChatGPT 的能力也是最容易实现的场景。


OpenAI 对于 ChatGPT 的发展也有一些自己的想法:


  • 加快开发 iOS 应用,便于用户更好与 ChatGPT 互动,目前已经进入内测阶段;


  • 推进商业化进程,为商业用户提供性能更好的 ChatGPT 服务,目前也处于内测邀请阶段,感兴趣的朋友可以在这里提交申请,OpenAI 或许会联系您。


以 GPT-3 为代表的语言模型极大降低了文本生成的门槛,由此也带来的一系列正在发生或即将发生的问题,比如通过语言模型生成论文进行学术作弊,或者学生将语言模型当作课程文章的生成器等,进入 2023 年,我们也看到越来越多的研究或政策,都在关注如何检测、识别这种问题:


  • 一名普林斯顿大学计算机科学系的学生开发了一个应用程序 GPTZero,可以辨别文章是由 ChatGPT 还是人类写的;


  • 国际机器学习会议(ICML)禁止研究人员提交含有人工智能生成文本的论文,该机构表示会在 2024 年重新评估该禁令;


  • 纽约市教育管理机构已经限制通过公立学校的设备或网络访问 ChatGPT,接下来其他地区的教育管理机构可能会出台类似的政策;


  • 专业的反作弊软件公司 Turnitin 计划推出一项检测 GPTChat 的新服务,帮助教师更快发现哪些学生使用 AI 模型生成自己的作业。


除此之外,OpenAI 表示也在开发类似的检测工具。

 

关注 AI 创投市场的最新动态。


  • 融资:利用机器学习提供翻译服务的创业公司 DeepL 日前完成新一轮融资,估值超过 10 亿美元,其客户主要为中小企业;


  • 并购:Snowflake 收购了 AI 数据分析公司 Myst AI,收购金额不详;德国制药公司 BioNTech 以 5.62 亿英镑收购英国 AI 数据分析创业公司 InstaDeep;


  • 裁员:AI 数据标注公司 Scale AI 本周宣布裁员 20%,该公司 CEO Alexandr Wang 表示自己错误估计了业务增长情况;


  • 投资:微软预计将为自动驾驶卡车公司 Gatik 提供 1000 万美元的投资,后者目前估值 7 亿美元,并将成为微软云计算的客户,在自动驾驶缓慢发展的当下,创业公司拿钱越来越难了;

 


阿里云


在本周举行的阿里云新加坡峰会上,阿里云宣布将在新加坡设立国际能力中心。


根据其官方说法,国际能力中心包括产品、生态、运营、品牌四个领域:


  • 产品:设立本地产品创新团队,针对国际市场的需求,设计并提供符合当地需求的产品服务和解决方案;


  • 生态与品牌:持续加深与全球生态伙伴的合作,阿里云计划三年再投入 70 亿元(10 亿美元),用以建设海外各地的本土化生态体系;


  • 服务:升级海外服务体系,目前已经在葡萄牙、墨西哥、马来西亚三地设全球服务中心,“覆盖全球时区,提供7X24小时技术支持”。


这一系列举措也延续了阿里云 2022 海外市场扩张战略,过去一年,阿里云新增了 6 个数据中心,分布在欧洲(法兰克福)、中东(利雅得)、东南亚(曼谷)、东亚(首尔、东京)。


对于阿里云新任掌门人张勇来说,2023 年不仅是阿里云能否快速扭转增长颓势的关键一年,也是阿里巴巴体系如何持续健康发展的关键一年,最近的两个关键信号:


  • 杭州市人民政府和阿里巴巴集团签署全面深化战略合作协议


  • 张勇在央视财经频道《对话》特别节目《对话·开年说|启动,2023!》里亮相,“对阿里来讲,很高兴看到在中央经济工作会议当中,对于平台经济,国家提出的期望,对于平台经济如何引领发展,创造就业,在国际竞争当中也希望我们能够大显身手。我想这个大显身手背后是一种希望,也是一种嘱托,我们如何能够更好的担当这样的责任,还任重道远,也是我们的职责所在”;


微软


微软最近完成对 DPU(数据处理单元)创业公司 Fungible 的收购,这个收购传闻已经在市场上有一段时间了,有媒体称收购金额在 1.9 亿美元左右,但并未得到双方的确认。


根据微软的官方说明,微软一直在加大对数据中心基础设施的投资,此前,微软还收购了一家为数据中心提供网络服务的 Lumenisity。


这几年数据中心 DPU 的重要性越发显现出来,它的作用在于减少 CPU 或 GPU 在特定场景中的负载压力,进一步优化数据中心的计算效率,DPU 创业公司也成为巨头争夺的焦点:


  • 2019 年 Nvidia 收购以色列创业公司 Mellanox;

  • 2022 年,AMD 收购 Pensando;


除此之外,AWS、阿里云也在探索类似 DPU 的技术,比如阿里云 2022 年发布的 CIPU,我在当时的会员通讯里写道:


CIPU 并不是什么绝对意义的新东西,从产品定位上看,它和英伟达的 DPU 以及英特尔的 IPU 没有本质差异,都是为了解决数据中心内部 CPU 算力不足或密集计算场景问题提出的解决方案。


从这个角度去看,CIPU 不是要去替代 CPU 或 GPU,而是要优化不同业务需求或场景中的算力调度。



对于微软来说,利用此次收购获得 DPU 相关人才与技术,既可以作为 Azure 的新特性或产品,也会被用于 Azure 内部服务器的优化与迭代。


再看一组云计算市场的基本面分析:


  • SaaS 巨头 Salesforce 裁员 10% 一定程度引发市场恐慌,但在 FT 的看来,在不确定的经济形势面前,Salesforce 这类公司最容易受到影响,而诸如 AWS、Oracle 等公司相对影响较小或比较缓慢,近期亚马逊大裁员并未影响 AWS 部门或许是一个例证;


  • 云数据平台 Snowflake CFO Mike Scarpelli 在 2022 年末的一场公开活动上分享了该公司的发展情况以及经济前景之于云计算市场的影响,这一系列推文很值得一读;

 

大模型


最近两个 AI 领域的基础研究突破很值得关注。


微软介绍了一个名为“VALL-E”的大模型,它能够实现从文本到语音的转换和生成,根据其论文的说明,“VALL-E”出现了语境学习能力,并可用于合成高质量的个性化语音,只需提供 3 秒录音,就能生成模仿该人声音的语音片断,你可以在这里感受一下其效果,非常震撼。


这个模型一定程度参考了 OpenAI DALL-E 的训练方法,或者说,通过语言模型的方式解决语音模型的问题,几个有趣发现:


  • 相比于目前的 TTS( Text to Speech),VALL-E 的效果非常惊人;

  • 模型对于上下文的理解能力使其具有巨大的应用前景;

  • 模型能够一定程度“理解”声音效果,比如为声音加入混响效果等;


鉴于该模型展示出来的能力,微软承认其有被滥用的风险,短期内也不会向公众开放。


我在 2022 年多期会员通讯里谈到,生成类模型会向音频、视频领域快速发展,微软此次的研究突破,也为这一年生成类模型的持续迭代吹响了号角。


DeepMind 最近发布了一个名为“Med-PaLM”的大模型,它基于 Google PaLM 语言模型(超过 5400 亿参数)构建,并加入了大量医学领域的数据,一些发现很有趣:


  • 为了评估 Med-PaLM 的能力,DeepMind 建立了 MultiMedQA,这是一个由七个医疗问题问答数据集组成的基准;

  • Med-PaLM 在多个问答数据集的表现接近临床医生,相差的比例大概在 0.3% 左右;

  • Med-PaLM 在多项选择题上展示出巨大优势;


DeepMind 在论文里非常谨慎地表示,基于研究结果,他们认为大语言模型能够在一定的指令引导下,应对医学问题的回答场景。


事实上,这几年大规模语言模型所展示出来的潜能是惊人的,而且某种意义上也无法预测,这也意味着,接下来一到两年,会出现大量基于大语言模型的创新,各个行业、产业都有机会通过调整大模型的参数、数据量或数据维度,从而发现新的能力与新的产业机会,企业存储服务 Box 创始人 Aaron Levie 这样评价大语言模型和生成模型带来的机遇:


ChatGPT和最新的人工智能浪潮正在创造一个 “建立人们甚至不知道他们需要的东西 ”的时刻,这也许是自早期网络以来从未见过的。许多突破性的使用方式在一年前几乎不可能被考虑到。(ChatGPT and the latest wave of AI is creating a “build something people didn’t even know they needed” moment at a level not seen since maybe the early web. Many of the breakthrough use-cases could barely have been contemplated a year ago.


2020 年代的 AI 发展一定比上一个十年更精彩。


本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声