中金 | AI浪潮之巅系列：AI端侧落地加速，开启实时互动新纪元

linbin123456 05-23 11

默认

【在售政府平台债每日一更】

摘要： 中金 | AI浪潮之巅系列：AI端侧落地加速，开启实时互动新纪元本周Open AI与谷歌分别发布新一代模型：GPT-4o和Gemini系列模型。本文将介绍两大AI巨头在大模型领域的...

微信号：18321177950
添加微信好友, 获取更多信息
复制微信号

中金 | AI浪潮之巅系列：AI端侧落地加速，开启实时互动新纪元
本周Open AI与谷歌分别发布新一代模型：GPT-4o和Gemini系列模型。本文将介绍两大AI巨头在大模型领域的进展，并围绕硬件、操作系统、算力等方面进行探讨。我们认为，随着AI在端侧的逐渐落地，将带动消费电子终端创新升级，并对云端算力硬件系统尤其是推理侧需求提出更高要求。
Gemini 1.5 Pro与GPT-4o有何异同？我们认为，GPT-4o是端到端模型的创新，带来人机交互方式新突破；谷歌Gemini性能升级，AI能力广泛接入旗下生态。对比来看，两者都是原生多模态大模型，有望引发行业的效仿热情，原生多模态或成为未来发展趋势；但差异点在于，Gemini上下文窗口更大，且定价更具吸引力；GPT-4o模型性能更强，且更强调实际应用场景中的人机交互创新。
AI端侧落地带来消费电子终端人机交互方式变革，关注操作系统升级及应用前景。在硬件侧，我们认为，此次两大模型发布从四个方面加快了AI落地端侧的进度：1）多模态交互方式革新；2）AI语音助手拟人化；3） AI功能在移动设备的应用前景；4）商业化前景。虽然当前大模型仍以云端算力调用为主，但从当前各家在模型参数压缩的努力，结合端侧商业变现的前景，未来部分算力下沉到端侧将成为必由之路，对应消费电子终端在硬件层面也将迎来创新升级。在操作系统及应用侧，语音助手拟人化程度提升，一方面使AI agent成为可能，另一方面未来交互方式变化或带来流量入口变化，深刻影响生态格局。
云端算力硬件：GPT-4o部分功能的免费开放，Gemini能力的提升或对单位算力成本下探提出要求，AI infra面临大幅优化。我们看到，当下行业对算力硬件性能、成本的衡量以训练导向逐渐转为推理导向。除了芯片端、网络硬件端（如光模块）持续升级外，系统工程能力也正不断强化：为获得更低的硬件利用率，降低推理成本，优化显存、实施算子融合/算子实现优化、低精度（量化）推理、分布式推理均是主流实现方式。我们认为算力硬件市场有望随应用落地步入以价换量时代，市场规模或将持续增长。
风险
AI算法技术及应用落地进展不及预期，AI变现模式不确定，消费电子智能终端需求低迷。
GPT-4o VS谷歌Gemini：大模型迭代到哪了？
Open AI：GPT-4o是端到端模型的创新，带来人机交互方式新突破
5月13日，OpenAI在春季发布会上推出新一代旗舰模型GPT-4o（o为omni，即包罗万象之意）。GPT-4o在GPT-4的基础上新增语言处理能力，可接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出；同时在时延、人类语气模拟、表达等方面更加接近人类表达，是迈向更自然人机交互的一步。
模型侧：解锁更多实时应用场景
低延迟、迅速响应提升语音助手拟人化能力。在GPT-4o之前，使用语音模型对话的平均延迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。得益于从三个模型到一个端到端模型的转变，GPT-4o能在232毫秒内对音频输入做出反应，平均反应时间为320毫秒，这与人类在对话中的反应时间相近，提升了用户体验。
免费开放、API调用性价比提升，有望打开商业化空间。OpenAI在发布会上宣布GPT-4o将免费提供给所有用户[1]，付费用户则可以享受五倍的调用额度。GPT-4o API相较于GPT-4 Turbo API，速度提升了2倍，价格仅为一半。
应用侧：语音助手打开AI实时互动场景空间
此外，GPT-4o发布会也将重点放在了AI与实际应用场景的结合上。在大会上，Open AI展示了众多GPT-4o以语音助手的方式与使用者进行多模态交互的实际场景，包括执行语音搜索、图像识别、情感反馈识别等。这些实际场景的展示，使市场看到了未来AI潜在应用落地场景的广阔空间。
谷歌：Gemini性能升级，AI能力广泛接入旗下生态
2024年5月14日，谷歌召开2024年I/O大会，并发布了一系列大模型产品以及AI应用。我们看到，OpenAI和谷歌双方前后分别召开新品发布会，大有相互较量之势，例如Gemini 1.5 Pro之于GPT-4o、Project Astra之于ChatGPT-4o、Gems之于GPTs、Veo之于Sora等，体现出谷歌正加速缩小与OpenAI在AI大模型方面之间的差距。此外，我们认为AI Overview、Ask Photos、AI+Workspace等功能的推出，也反映出谷歌正积极凭借自身的产业、生态优势，推动AI与应用的融合。
模型侧：深化大模型在端侧的部署
Project Astra对标ChatGPT-4o，打造更流畅、更丰富的人机交互体验。Project Astra基于谷歌Gemini大模型，能够同时处理视觉、语音等多模态信号，并展现出较强的理解、记忆和即时响应能力。我们观察到，演示中Project Astra至少在智能手机（Google Pixel）以及智能眼镜（prototype glasses）两个硬件设备上运行，我们认为AI大模型正加速向各类智能终端侧部署应用。
端侧应用功能迎来升级。1）Gemini Nano：目前运行于端侧的Nano模型仅用于文本模态，谷歌宣布将于今夏实现实时语音交互功能[2]，并在今年晚些时候上线视频交互功能，多模态功能趋于完善。2）Gems：与OpenAI的GPTs类似，Gems能够定制具备特定特征的AI助理，为使用者提供健身、陪伴、烹饪、编程、写作等任务的个性化协助。3）安卓系统升级：谷歌宣布新增三项AI功能：Circle to search、AI agent、模型本地化部署，在保障隐私安全的情况下，提升安卓系统的智能化水平。
应用侧：搜索、相册、音视频、办公，谷歌生态广泛AI化
谷歌凭借本身在生态上的优势，积极推动AI与应用的融合。1）搜索：AI Overview能够在搜索中自动总结全网内容，实现概览、推理、规划、排版等功能。2）相册：Ask Photos通过自然语言实现对特定相册照片的搜索。3）办公：在AI Workspace中新增工作总结、邮件问答、智能回复等功能，将AIGC赋能企业自动化，提升办公生产效率。4）多模态：谷歌推出Imagen 3、Music AI Sandbox、Veo等大模型，分别对应图像、音乐、视频生成；其中Veo模型能够根据多种模态信息的提示，生成时长超1分钟的1080P高清视频，与OpenAI Sora的差距进一步缩小。谷歌当前产业覆盖智能终端、互联网、企业、医疗、无人驾驶等多个产业，作为一家生态布局相当广泛的科技大厂，我们认为谷歌在应用侧落地具有先天的优势。随着大模型技术的不断成熟，我们预计谷歌有望加速应用落地。
对比：Gemini 1.5 Pro与GPT-4o有何异同？
相同点：两者都是原生多模态大模型，指引技术发展趋势
传统的多模态大模型，往往是不同模态的模型分别训练后再融合在一起，虽然能够用一个大模型实现对不同模态数据的处理，但是不同模态之间缺乏协调性。而Gemini和GPT-4o的训练语料同时包括文本、图像、音视频等多种模态数据，所有输入输出都是在同一个神经网络中进行处理。从两家的demo来看，最终的效果是大模型能够同时理解多模态信息以及信息之间的关系。我们认为，谷歌和OpenAI两大行业领先企业均不约而同开发原生多模态大模型，有望引发行业的效仿热情，原生多模态或成为未来发展趋势。
差异点：Gemini上下文窗口更大，GPT-4o展现了更多的应用场景
Gemini上下文窗口更大。2024年I/O大会上，谷歌宣布将Gemini 1.5 Pro的上下文窗口token数由100万个扩容至200万个，相当于2小时视频、22小时音频、超过6万行代码或超过140万词文本的数据体量，遥遥领先于其他大模型（Claude 3为20万个tokens，而GPT-4o仅为12.8万个）。
Gemini定价更具吸引力。我们以12.8万个tokens上下文长度为例，根据谷歌官网信息，Gemini 1.5 Pro输入、输出价格分别为3.5美元/1M tokens、10.5美元/1M tokens，对比GPT-4o（上下文窗口为12.8万个tokens）输入5美元/1M tokens、输出15美元/1M tokens的定价，Gemini 1.5 Pro的调用成本较GPT-4o下降30%。
GPT-4o更强调实际应用场景中的人机交互的创新。我们能看到，GPT-4o发布会并未过多展示技术细节，而是将大量时间用于展示GPT-4o如何在手机/PC产品上可能的应用场景，尤其AI语音助手充当了重要角色，在跨模态的人机交互中表现出色。
GPT-4o模型性能更胜一筹。根据OpenAI官网测评数据，GPT-4o在文本测试（如MMLU、MATH、HumanEval等）以及视觉理解测试（如MMMU、MathVista等）各类任务中均取得较Gemini 1.5 Pro更优的表现。我们认为，OpenAI的技术水平仍然领先于行业。
终端硬件：人机交互方式变革，AI端侧落地加速
在AI发展逐渐进入应用变现的下半场后，如何将AI能力赋能给To C端的消费者成为了重要课题。我们观察到，除了常规的模型及技术发布外，本次GPT-4o及谷歌发布会均将部分重点放在了展示AI在移动设备，如手机、PC等的实际应用场景。我们认为，未来AI在端侧的应用和消费者触达变现或将成为新的发展侧重点。

标签：中金 | AI浪潮之巅系列：AI端侧落地加速开启实时互动新纪元