谷歌“复仇”OpenAI：万亿参数大模型性能碾压GPT-4语言理解首超人类

2023-12-08 hth官方手机APP

原标题：谷歌“复仇”OpenAI：万亿参数大模型性能碾压GPT-4，语言理解首超人类

过去一年，被OpenAI持续吊打的谷歌开启“复仇”。今日凌晨，谷歌正式对外发布其人工智能大模型Gemini，宣称全面碾压GPT-4。

“Gemini是我们迄今为止最强大、最通用的模型，它在许多领先的基准测试中都展现出了最先进的性能。”谷歌CEO桑达尔·皮查伊（Sundar Pichai）表示。

根据谷歌给出的基准测试结果，Gemini在多项测试中完全击败了OpenAI的GPT-4。可以说，Gemini是目前唯一宣称全面超越GPT-4的大模型。

这也意味着，虽然大模型热度有所降温，但科技巨头围绕大模型的技术竞争仍在继续。在谷歌的持续追赶及Meta开源联盟的围堵下，OpenAI-微软联盟也面临慢慢的变大的压力。

这是谷歌历时半年多的攻坚成果。今年4月，谷歌合并谷歌大脑（Google Brain）和DeepMind两个内部团队联合攻关Gemini，DeepMind联合发起人、CEO戴密斯·哈萨比斯（Demis Hassabis）成为Gemini团队带头人，并和谷歌搜索等团队开展了合作。

Gemini被定义为多模态模型，可以归纳并流畅地理解、操作以及组合不一样的信息，包括文本、代码、音频、图像和视频。公开信息数据显示，Gemini具备万亿参数，算力高达1e26 FLOPS，是GPT-4的5倍多，总数据集也是GPT-4的两倍。

哈萨比斯称，这是AI发展过程中的一座重要里程碑，也标志着谷歌迈进新纪元的开始。同时，Gemini也是谷歌迄今为止最灵活的模型，从数据中心到移动电子设备，它能够在所有设备上高效运行。

根据谷歌公布的测试结果，从自然图像、音频和视频理解到数学推理，在被大型语言模型（LLM）研究和开发中普遍的使用的32项学术基准中，Gemini Ultra的性能有30项都超过了目前最先进的水平。

在MMLU的大规模多任务语言理解测试中，Gemini Ultra以90.0%的高分，首次超过了人类专家，也超过得分率为86.4%的GPT-4。在推理、数学和代码等多项核心能力的基准测试中，Gemini Ultra都高于GPT-4。

MMLU是美国俄亥俄州立大学等多所机构研究人员联合推出的大规模、多学科、多模态理解和推理基准测试，综合使用数学、物理、历史、法律、医学和伦理等57个科目，用于测试大模型世界知识和解决实际问题的能力。

此外，在图像等多模态基准测试中，Gemini Ultra表现也优于GPT-4。在MMMU基准测试中，Gemini Ultra图像得分率达59.4%，高于GPT-4V的56.8%，其余5项测试中也均高于GPT-4V得分。同时，在视频和音频的多数基准测试中也超过GPT-4V。

哈萨比斯认为，这些基准测试凸显了Gemini 的原生多模态性，并显示出Gemini具有更复杂推理能力的潜力。“它拥有通过阅读、过滤以及理解信息，从数十万份文件中提取见解的卓越能力，将有利于在从科学到金融等多个领域以数字化速度实现新的突破。”

目前，业内创建多模态模型的标准方法是分别训练不同模态的组件，然后将它们拼接在一起，以粗略模拟某些功能。这些模型有时可以很好地完成描述图像等特定任务，但在概念性更强、更复杂的推理方面却显得力不从心，这也是目前很多追赶GPT-4的模型所面临的技术挑战。

为此谷歌将Gemini 设计为原生多模态，从一开始就在不同模态上进行预训练，然后利用额外的多模态数据对其进行微调，以进一步提升其有效性，这正是Gemini优于现有多模态模型的关键所在。

谷歌还发布了其迄今为止功能最强大、效率最高且可扩展性最强的TPU系统Cloud TPU v5p。过去数年，谷歌虽然依靠英伟达芯片，但也在持续自研以TPU为核心的AI芯片。随着新算力系统的发布，这将能更快训练下一代大模型，更快推出新产品和新功能。

此外，在AI安全方面，谷歌称Gemini 也进行了全面的安全评估，对网络攻击、说服力和自主性等潜在风险领域进行了研究，在对抗测试、内容安全等方面采取了基准测试、过滤器等方法，以此来应对关键的安全问题。

在今年的大模型竞赛中，谷歌多次被外界批评犹疑不决，技术和产品进展长时间也被OpenAI吊打。最先匆忙推出的对标ChatGPT的Bard因演示翻车，谷歌蒙受1000亿美元的市值损失。

后来在5月的I/O 大会上，谷歌宣布推出对标 GPT-4的大模型PaLM 2，但透露出研究重心正在转向 Gemini。显然，PaLM 2更多是试水，而Gemini才是真正的杀手锏。

在AI领域有着长期投入的谷歌并不愿意缺席这场变革，正如皮查伊所说，AI将是影响最为深远的变革，影响力远超过移动技术或互联网。

他认为，AI有着为世界各地的人们创造机会的潜力，它将带来新一轮的创新和经济进步，并以前所未有的规模推动知识、学习、创造力和生产力的发展。

Gemini团队带头人哈萨比斯同样是AI的信仰者，把AI当作毕生工作的重点。他是一位少年天才，16岁就进入剑桥大学，2010年联合创立DeepMind ，在其被谷歌收购后进入谷歌，并主导推出了打败人类的围棋机器人AlphaGo。

“从少年时为电脑游戏编写AI程序，到多年来作为神经科学研究员试图了解大脑的工作原理以来，我始终坚信，如果能制造出更智能的机器，我们就能利用这些机器以不可思议的方式造福人类。”哈萨比斯表示，AI将不再仅仅是一款智能软件，它将更加有用且直观，就像是专业的帮手或助理，而Gemini的推出离这一愿景又近了一步。

为此，谷歌将开启广泛的Gemini落地计划。谷歌聊天机器人Bard 将使用Gemini Pro的微调版本来进行更高级的推理、规划和理解等，这是Bard推出后最大的升级，并将在170多个国家和地区提供英语服务，未来还会扩展不同模态，并支持更多的语言和地区。

谷歌还会在手机硬件上搭载Gemini，手机大模型正在成为行业趋势。Pixel 8 Pro会是首款搭载Gemini Nano的智能手机，将具备录音应用的总结等新功能，Gboard推出智能回复功能，WhatsApp也将从明年推出更多详细的信息应用。

此外，谷歌表示，未来几个月，Gemini 还将应用于更多产品和服务，如Search、Ads、Chrome 和Duet AI。目前，谷歌已开始在搜索中测试Gemini，并带来了更快的搜索生成体验，用户在美国的英语搜索延迟降低40%，质量方面也有所提高。

除内部产品，谷歌还将Gemini的能力开放给开发者。从12月13日开始，开发者和企业客户能通过Gemini API获取Gemini Pro，安卓开发者能够最终靠AICore使用Gemini Nano。性能最为强大的Gemini Ultra还在进行大规模的信任和安全检查，将在明年初开放使用。

随着谷歌Gemini的推出，压力也来到了OpenAI这边。过去一年里，OpenAI先后推出GPT-4、GPT-4Turbo等大模型，此前还推出名为GPTs的服务和GPT Store等商业化布局。早前持续数日的内部“政变”虽然以山姆·奥特曼回归终结，但也让OpenAI的未来发展蒙上一层阴影。

和OpenAI结盟的微软则也在持续推进新模型的落地。这周稍早前，微软官宣庆祝人工智能助手Copilot诞生一周年，并公布了即将推出的新功能，包括支持GPT-4 Turbo、更新DALL-E 3 模型、增添新的代码解释器功能，以及必应内部的深度搜索功能等。

谷歌Gemini的推出将在技术层面超过OpenAI-微软联盟，这可能会吸引更多用户。相比OpenAI，谷歌拥有更多的全球用户，尤其是手机等硬件终端用户，且自身拥有海量的实时数据，整体生态上更具优势，而OpenAI目前还更多依赖微软。

OpenAI和微软还越发面临开源联盟压力。Meta、IBM、AMD、英特尔等50多家公司和研究机构这周宣布成立人工智能联盟，旨在推动AI开放。该联盟将OpenAI、微软、英伟达等排除在外，多数成员都支持开源大模型，因此也被视为以Meta为首的开源对闭源的OpenAI的集体阻击。

目前，微软、谷歌在大模型上的投入尚未给其带来明显的业绩贡献，但技术竞争、商业布局仍将是这些巨头之间无限的追逐游戏。返回搜狐，查看更加多

上一篇: 比利时前首相：中欧立足共同利益携手共建多极世界

下一篇: 什么是移动网络的基本特征和最大创新点