Advertisement

从 Gemini 2.5 技术报告看大模型竞速:核心技术路线全景对标

阅读量:

引子

Google’s Gemini 2.5 paper has 3295 authors

2025年7月7日,Google DeepMind 在 arXiv 上正式发布了题为 “Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities” 的技术报告,竟然有3295名作者,堪称史上最拥挤的作者群。该报告详细介绍了 Gemini 2.5 Pro 和 Flash 模型在内建链式思考(built-in reasoning)、原生多模态处理(文本、图像、视频、音频)及超长上下文(最高支持 1,000,000 Token)方面的关键技术创新 Google Cloud Storageblog.google。该报告介绍新一代 Gemini 2.5 Pro 在常见 AI 基准测试中大幅领先,尤其在高级推理和代码生成任务上展现了显著优势;同时,Gemini 2.5 Flash 提供了在成本与延迟间可控的“思考”预算,满足不同场景需求。之前,媒体普遍关注其突破性性能,但也对安全框架披露不足提出批评;AI 社区专家既认可其多模态与长上下文处理能力,又呼吁更透明的安全评估细节。本文主要借助该论文的发表,收集相关报道并进一步分析一下Gemini 2.5的深入细节和模型对比。

Gemini 2.5 Pro evaluation

媒体评价

正面报道:技术能力与商业化前景

Google Cloud 博客指出,Gemini 2.5 Pro 和 Flash 的扩展能力,可助力企业构建更复杂且安全的 AI 驱动应用和代理系统 Google Cloud

在 Google I/O 2025 上,官方进一步公布了 Deep Think 增强推理模式和优化更新,强调开发者社区对 2.5 Pro 在代码生成领域的广泛好评 blog.google,IQ智商测试也是最高的(参考下图)。

添加图片注释,不超过 140 字(可选)

多家技术媒体测评显示,Gemini 2.5 Pro 在 LM Arena 排行榜上遥遥领先,且在实际应用中能解决以往模型难以触及的高级场景 Medium

LMArena score

批评声音:安全与透明度不足

TechCrunch 报道中,多位受访专家对官方报告中 Frontier Safety Framework(FSF)的细节披露不够表示失望,认为应提供更完整的安全评估数据 TechCrunch

Frontier Safety Framework(FSF)

Fortune 的 AI 治理评论家指出,Google 在发布模型时未同步公布详细的安全评估文档,这种“空白”可能加大后续风险管理难度 财富杂志

The Times 指出,随着 AI Overview 功能集成,Gemini 系列也面临生成错误信息(hallucination)的批评,影响用户信任度 泰晤士报

专家观点

模型能力认可

多位 AI 研究者在 arXiv 版本的论文评论中肯定了 Gemini 2.5 Pro 在多模态推理与长上下文处理上的巨大进展,认为这为通用 AI 助手愿景迈出了关键一步 arXiv

TechRadar 的使用者评价则强调,Deep Research 工具配合 2.5 Pro 能提供意想不到的深度探索结果,尽管有时会“过度思考”,但仍展现出显著潜力 TechRadar

安全与可控性呼声

多位治理专家呼吁,Google 应进一步公开模型卡(model card)中的安全指标与风险测试方法,以便学术界和业界更好地评估与监管 TechCrunch

在企业部署方面,不少架构师建议结合流水线式的内测与持续监控机制,确保在生产环境中控制“思考”预算,以防止模型决策过度复杂或引入不确定性 Google Cloud

Gemini 2.5 的推出不仅在基准测试和应用场景中取得了突破,也在多模态、长上下文与推理能力方面树立了新标杆。然而,安全评估透明度和模型输出可控性仍是业界关注的重点。总体而言,媒体与专家对其核心技术实力给予高度评价,同时呼吁 Google 在安全与治理方面提供更详尽的支持和文档,以促进生态系统的健康发展。

Google Gemini 系列模型的发展历程

Google 于 2021 年提出 Pathways 架构,采用异步分布式数据流设计,提高了跨 TPU Pod 的并行调度与资源利用效率,为后续大规模统一模型训练奠定基础 。2021 年末,GLaM(Generalist Language Model)引入稀疏激活的混合专家(MoE)网络,每次仅激活少数专家,显著降低训练与推理成本,同时保持乃至提升了 GPT-3 级别的性能。2022 年,PaLM(Pathways Language Model)在 Pathways 平台上训练出 5400 亿参数的Transformer,验证了统一架构下大规模模型的可行性,为 Gemini 系列(如下图)的多模态与超长上下文能力提供了方法论支持 。

Gemini Model versions

Gemini 1.0:开篇之作

发布日期:2023 年 12 月 6 日,由 Sundar Pichai 与 Demis Hassabis 联合发布。

核心子型号:Ultra(高复杂度任务)、Pro(通用场景)、Nano(端设备)。

集成与应用:Ultra 助力 Bard Advanced,Pro 融入 Search、Ads、Duet AI 等产品,Nano 内置于 Pixel 8 Pro,展现原生多模态能力 。

Gemini 1.5:长上下文与高效架构

发布日期:2024 年 2 月 15 日,Google 官方博客发布 “Our next-generation model: Gemini 1.5” 。

技术突破:

引入稀疏混合专家(MoE)架构,实现训练与推理效率提升;

标配 128 k Token 上下文,私测可达 1 M Token,上下文深度超越同期大模型 。

后续演进:2024 年 8 月,推出 1.5 Flash(降本增效、多语言支持)并进入 GA 。

Gemini 2.0:Agentic Era 起航

实验版首发:2024 年 12 月 11 日,官方博客 “Introducing Gemini 2.0: our new AI model for the agentic era” 推出 Flash 实验版 。

Deep Research 功能:集成于 AI Overviews,用于复杂主题研究与报告生成 。

Gemini 2.0 Flash GA

发布日期:2025 年 2 月 5 日,正式进入 GA,支持多模态输入、1 M Token 上下文、原生工具调用等 。

Gemini 2.0 Pro & Flash-Lite Preview

Pro Preview:2025 年 2 月,Gemini 2.0 Pro 实验版上线,拥有 2 M Token 上下文及复杂指令处理能力 。

Flash-Lite Preview:同期面向开发者公开,以更低成本提供接近 Flash 质量的服务 。

Gemini 2.5 系列版本详情

初始实验版:2.5 Pro Experimental

发布日期:2025 年 3 月 25 日,Google DeepMind CTO Koray Kavukcuoglu 在官方博客发布首个 2.5 版本 “Gemini 2.5 Pro Experimental”。

性能亮点:在多个基准(GPQA、AIME 2025 等)上领先,展示了更强的推理与代码能力。

2. Code Assist 集成

发布日期:2025 年 5 月 22 日,Gemini Code Assist 正式切换至 Gemini 2.5,引入 Chat、Code Generation、Code Transformation 能力 。

3. 稳定发布:gemini-2.5-pro GA

发布日期:2025 年 6 月 17 日,Vertex AI 上线 gemini-2.5-pro 稳定版,标志着 2.5 Pro 进入生产环境 。

生命周期:GA 至 2026 年 6 月 17 日。

4. Gemini 2.5 Flash GA

发布日期:2025 年 6 月 24 日,发布首个稳定版 gemini-2.5-flash,适用于低延迟、大规模场景 。

5. Gemini 2.5 Flash-Lite Preview

发布日期:2025 年 6 月 17 日,推出成本最优、速度最快的 2.5-flash-lite 预览版 。

6. 预览版重定向与弃用

重定向:2025 年 6 月 26 日,gemini-2.5-pro-preview-05-06、03-25 等预览版重定向至 gemini-2.5-pro,实验版 exp-03-25 正式弃用 。

Gemini 系列自 2023 年底的 1.0 起步,经由 1.5 的长上下文与 MoE 创新,至 2.0 的 Agentic 功能,再到目前最强的 2.5 Pro/Flash/Flash-Lite 家族,持续在性能、思考能力与多模态场景上突破极限。2.5 系列更通过 Pro Experimental、Code Assist 集成、GA 及预览版迭代,旨在满足从研发实验到商用部署的全流程需求。

Gemini 2.5的核心技术

Gemini 2.5 首次将“链式思考”显式内建于模型推理流程,通过数万次推理前前向传递(inference-time forward passes)与强化学习微调,使模型在给出最终回答前进行多步推理,显著提升了逻辑连贯性与准确率 。其次,其自适应思考预算机制允许模型根据任务复杂度动态分配计算资源,实现速度与性能的平衡。在架构层面,Gemini 2.5 继续沿用并优化了稀疏专家网络(MoE),大幅提升了参数利用效率与横向扩展性。超长上下文与多模态融合能力方面,2.5 系列可原生处理超过 100 万 Token 的文本上下文,并支持长达 3 小时的视频输入,得益于高效的视频 Token 化与流水线处理(如下图)。安全层面,Google 在 2.5 上线了基于 Frontier Safety Framework 的新版本管控策略,增强了对高级能力风险的识别与缓释 (Google DeepMind)。最后,借助 Deep Think 实验模式与 Project Mariner 工程集成,Gemini 2.5 将代理化(agentic)应用推向新高,为复杂工作流自动化提供了强大支持 (blog.google)。

Comparison of Gemini 2.X model family with Gemini 1.5 Pro and Flash

1. 内建“思考”机制(Built-in Reasoning)

1.1 多步内部推理流程

Gemini 2.5 首创将链式思考(chain-of-thought)完全内置于模型推理流程中,在生成最终输出前进行数万次前向传递,形成深度“思考”轨迹,有效减少常见的跳步式错误 (blog.google)。

1.2 强化学习微调

这种“思考”流程通过强化学习(RL)进行微调,借助人为反馈信号优化推理路径,使模型在数学、科学与代码任务上表现超越前代 (arXiv)。

Performance of Gemini 2.X models at coding, math and reasoning tasks

2. 自适应思考预算(Adaptive Thinking Budgets)

2.1 动态资源分配

Gemin 2.5 系列引入自适应思考预算(adaptive thinking budgets),根据输入问题的复杂度动态调整内部思考深度,简单查询获得快速响应,复杂场景获得更多计算资源,从而平衡延迟与性能 (Communeify, Techexpress)。

Adaptive thinking budgets illustration( According to my understanding)

2.2 成本与性能权衡

在 Flash 版本中,这一机制尤为重要:在保证高质量推理的同时,将算力与延迟成本削减至原先的数分之一,适配大规模生产环境 (storage.googleapis.com)。

Impact of thinking budget on performance on different evaluations.

3. 稀疏专家网络(Sparse Mixture-of-Experts)

3.1 架构优化

Gemini 2.5 延续并优化了来自 GLaM 的稀疏专家(MoE)设计,将大规模参数划分为多个专家子网,每次仅激活少部分专家,从而在维持性能的同时大幅降低计算消耗 (Medium)。

3.2 横向扩展性

这种架构使得 Gemini 2.5 能够在不断扩容的同时保持训练与推理效率,适配从实验室原型到大规模云端服务的多种部署场景 (arsturn.com)。

4. 超长上下文与多模态融合

4.1 百万级 Token 窗口

2.5 系列提供高达 1,000,000 Token 的文本上下文窗口,并通过流水线化的内存管理和查询优化,使得对超长文档、对话或日志的统一理解成为可能 (Google AI for Developers)。

4.2 视频与多模态输入

借助高效的视频 Token 化(≈66 tokens/frame)与改进的流水线处理,Gemini 2.5 可以原生处理长达 3 小时的视频内容,实现文本、图像、音频与视频的统一多模态推理 (arXiv)。

Number of output tokens generated per second for different models

5. 安全与治理(Safety & Governance)

5.1 Frontier Safety Framework 集成

基于 Google DeepMind 提出的 Frontier Safety Framework,2.5 系列引入新一轮模型卡(model cards)与安全评估协议,旨在对潜在的高级能力风险进行预警与缓释 (Google DeepMind)。

5.2 可解释性与透明度

除了技术报告与模型卡外,Google 还在 Gemini API 中提供详细的安全参数与限制说明,方便开发者与研究者对输出进行事前管控 (参考下图)。

Across all areas covered by the Frontier Safety Framework, CriticalCapability Levels (CCLs) have not been reached. Gemini 2.5 Pro is therefore unlikely to pose significantrisk of severe harm. For descriptions of each CCL.

6. 代理化能力与工具集成

6.1 Deep Think 实验模式

在 I/O 2025 上,Google 推出了 Deep Think 增强推理模式,为 2.5 Pro 提供更深入的“思考”配置,专为高复杂度数学与编程任务而优化 (blog.google)。

6.2 Project Mariner 与原生音频

Gemini 2.5 系列新增 Project Mariner,可直接调用用户设备的操作系统功能,并支持原生音频输出,使 AI 助手与系统深度协同 (Google DeepMind)。

7. 性能与基准测试

Gemini 2.5 Pro 在 AIME 2025、GPQA、Aider Polyglot 等前沿基准上均实现超过 80% 的得分,远超 1.5 Pro 时的 16%—17% 水平;Flash 版本也在延迟降低 70% 的同时,仅损失 <5% 性能 (Reddit, TechTarget)。

Evaluation of Gemini 2.5 family and in comparison to Gemini 1.5 models.


以上各项技术创新,共同造就了 Gemini 2.5 在高级推理、多模态大规模场景与生产部署一体化方面的领先地位,并为下一代通用智能与多模态代理系统奠定了坚实基础。

与主流LLM在核心技术上采用的路线的同异

以下内容对比分析了当今主流大型语言模型(LLM)在核心技术路线上的异同,涵盖西方主流模型(OpenAI 的 GPT-4、Meta 的 LLaMA 系列、Anthropic 的 Claude)及中国代表性模型(百度 ERNIE、阿里巴巴 Qwen 系列)。全文首先给出关键结论,然后分若干技术维度展开对比。

关键结论

基础架构:几乎所有主流 LLM 均基于自回归 Transformer,但在细节上有所优化,如激活函数(SwiGLU vs. GeLU)、归一化方式(RMSNorm vs. LayerNorm)和位置编码(RoPE vs. 绝对编码)。

稀疏专家(MoE):OpenAI GPT-4(未公开证实)和百度 ERNIE 4.5 明确采用 MoE 架构以提升参数扩展效率;Meta LLaMA、Anthropic Claude、阿里 Qwen 主要使用密集 Transformer,但 Qwen 2 开始提供稀疏与混合模型选项。

长上下文能力:Claude 3 默认支持 200k Token,上可扩展至百万级;Qwen 3 系列支持 128k,LLaMA 3 支持 128k;OpenAI 和 ERNIE 均在 100k—1M 之间进行私测或产品化 。

多模态与代理化:Gemini 和 Claude 在多模态原生支持上走在前列;Claude 3/Vision、Qwen-VL、ERXNEI 4.5 皆提供图像、视频输入能力;Anthropic 和 Google 均在“agent”能力(工具调用、文件/网页/音频接入)方面进行了深入集成 。

训练与对齐:OpenAI 和阿里采用 RLHF;Anthropic 独创“宪法式 AI(Constitutional AI)”进行自我批评式微调;百度则强调知识图谱融合与自反馈后训练;Meta 和 Qwen 系列依赖标准监督微调与指令调优。

可控推理预算:“思考”预算(Thinking vs. Non-Thinking)在 Gemini 2.5、Qwen3 中得到体现,用于平衡性能与成本。

模型 MoE 架构 上下文窗口 多模态支持 对齐 & 安全 代理/工具调用 思考预算机制
GPT-4 采用稀疏专家(约16个专家) 支持百万级(≈1 M)Token 文本 + 图像 + 语音(GPT-4o) 强化学习与人类反馈(RLHF) 插件与函数调用(Function Calling)
LLaMA 3 无 MoE,仅密集 Transformer ≈100 K Token 主要文本(后续版本支持多模态预览) 人类反馈微调(RLHF) 第三方工具链集成
Claude 3 无 MoE 默认 200 K Token(可扩展至 1 M) 文本 + 图像原生输入 “宪法式 AI”(Constitutional AI) 原生 Agent API(文档/网页/工具)
ERNIE 4.5 异构多模态 MoE(47 B 活跃,424 B 总) 文本 + 视觉 + 时空多模态 自反馈后训练(Self-Feedback Tuning)
Qwen 3 混合 MoE(235 B 总,22 B 活跃) 128 K Token 文本/图像/音频/视频统一多模态 RLHF(引入人类反馈强化) 原生 Model Context Protocol (MCP) “Thinking / Non-Thinking” 模式
Gemini 2.5 稀疏混合专家 MoE,动态路由专家子网 1,048,576 Token 文本 + 代码 + 图像 + 音频 + 视频 RLHF + Frontier Safety Framework Deep Think(增强推理模式) + Project Mariner(系统工具调用) 自适应 thinkingBudget,动态调节推理深度平衡性能与延迟成本

Comparison of Core Technical Approaches of main LLM(not full)

一、基础架构与微调策略

Transformer 及其变体

自回归 Decoder-Only:GPT、LLaMA、Claude、Qwen 等均采用 Transformer 解码器结构以实现高效自回归生成 。

激活与归一化:LLaMA 3 换用 SwiGLU 激活与 RMSNorm,提升收敛速度;大部分模型仍保留 GeLU 与 LayerNorm 。

位置编码:RoPE(旋转位置编码)在 LLaMA、Qwen、Gemini 中成为主流,优于传统绝对编码在长序列中的表现 。

对齐与微调

RLHF:OpenAI GPT-4 及 Qwen/NLP 系列常规采用人类反馈强化学习进行对齐;百度 ERNIE 也在 4.5 后引入自反馈增强训练 。

宪法式 AI:Anthropic Claude 通过自我批评与“宪法”原则,在监督与 RL 阶段加入无人类标签的模型自评,强化输出的安全性与一致性。

指令调优:Meta LLaMA、Qwen、ERXNEI 均提供指令微调版本(Chat、Instruct),提升交互体验与任务适应性。

二、扩展性与稀疏专家(Mixture-of-Experts)

OpenAI GPT-4

MoE 传闻:虽未官方确认,但外界普遍认为 GPT-4 采用 Mixture-of-Experts 架构,以少量专家子网实现万亿级参数量级,并在不同输入类型上动态激活不同专家 。

百度 ERNIE

异构 MoE:ERNIE 4.5 系列提出“异构多模态 Mixture-of-Experts”,在文本与视觉专家之间共享知识,并实现 47% MFU(模型 FLOPs 利用率) 。

阿里巴巴 Qwen

混合模型:Qwen 2 提供稠密/稀疏双轨模型,Qwen 3 引入二元模式(Thinking/Non-Thinking)以调节推理深度;Qwen-VL 系列则将视觉专家与文本专家分离又共享 。

Meta LLaMA

纯密集:LLaMA 系列坚持全密集 Transformer,仅通过加大模型规模(至 405B)和扩展上下文(128K)实现性能提升,无 MoE 设计 。

三、超长上下文与多模态融合

上下文窗口

Claude 3:默认 200K Token,可申请扩至 1M,用于大型文档、代码库与长对话 。

Qwen 3:所有 8B+ 及稀疏版本支持 128K Token,上下文能力紧随 Claude。

LLaMA 3:405B 模型同样支持 128K Token,优化了流水线化内存访问 。

OpenAI:据多方报道,GPT-4 Private 支持百万级上下文;GPT-4o 公开版已提升至 128K—256K 。

多模态处理

Anthropic Claude 3/Vision:可处理照片、图表、流程图等多种视觉格式,并在企业场景中得到快速采用 。

ERNIE 4.5:本地支持文本、视觉与时空多模态融合,并强调知识中心化数据构建 。

Qwen-VL & Omni:Qwen2.5-Omni 支持文本、图像、视频、音频的双向生成,是国内多模态全能型代表 。

LLaMA & Qwen:虽支持图片,但并未在主架构中深度融合多模态,依赖外部视觉前处理模块 。

四、代理化与工具调用

Anthropic Claude Agents:提供原生 Agent API,可接入文档、数据库与外部工具,支持复杂工作流自动化。

OpenAI GPT-4o & Gemini:Deep Think/Agentic 模式允许链式调用插件、网页搜索与自定义函数,迈向“通用 AI 助手” 。

Qwen & ERNIE:逐步开放插件生态,Qwen Chat 接入云端函数,ERXNEI Bot 深度集成搜索引擎 。


主流 LLM 在核心架构上均源自 Transformer,但在稀疏专家、长上下文、多模态融合、对齐微调与代理生态等方面各有侧重。西方厂商(OpenAI、Anthropic、Meta)更注重安全对齐(RLHF、Constitutional AI)、可控推理和Agent能力,中国厂商(Baidu、Alibaba)则强调知识增强、异构 MoE与大规模开源。了解这些异同,有助于选择适合的模型及架构思路,推动下一个通用智能时代的创新。

全部评论 (0)

还没有任何评论哟~