谷歌发布王炸推理模型Gemini2.0FlashThinking,挑战OpenAIo1
在人工智能领域竞争日益激烈的背景下,谷歌近日宣布推出 Gemini2.0 Flash Thinking模型。这一多模态推理模型具备快速且透明的处理能力,能够应对复杂问题。谷歌首席执行官桑达尔・皮查伊在社交媒体 X 上表示:“这是我们迄今为止最具深度的模型。” 根据开发者文档,Gemini2的Flash Thinking比基础版本的 Gemini2.0Flash模型具备更强的推理能力。新模型支持32,000个输入标记(大约50到60页文本),输出响应可以达到8,000个标记。谷歌在其 AI 工作室的侧边面板中表示,这一模型特别适用于 “多模态理解、推理” 以及 “编码”。 开发者文档:https://ai.google.dev/gemini-api/docs/thinking-mode?hl=zh-cn目前关于模型的训练过程、架构、许可和成本等详细信息尚未公布,但谷歌 AI 工作室显示目前使用该模型每个标记的费用为零。 Gemini2.0的一个显著特点是允许用户通过下拉菜单访问模型的逐步推理过程,这在 OpenAI 的 o1和 o1mini 等竞争模型中并不具备。这种透明的推理方式使得用户能够清楚了解模型得出结论的过程,有效解决了 AI 被视为 “黑箱” 的问题。 在一些简单测试中,Gemini2.0能够快速(在一到三秒内)正确回答一些复杂问题,例如计算 “草莓” 这个词中字母 “R” 的数量。在另一项测试中,模型通过逐步分析整体数字和小数位,系统地比较了两个小数(9.9与9.11)。 第三方独立分析机构 LM Arena 将 Gemini2.0Flash Thinking模型评为所有大语言模型类别中的最佳表现模型。 此外,Gemini2.0Flash Thinking模型还具备原生的图像上传与分析功能。相比于 OpenAI 的 o1,后者最初为文本模型,并在后续进行了图像和文件分析的扩展。当前,两者都只能返回文本输出。 虽然 Gemini2.0Flash Thinking模型的多模态能力扩展了其潜在应用场景,但开发者需注意,该模型目前不支持与谷歌搜索的结合,也无法与其他谷歌应用及外部工具集成。通过Google AI Studio和 Vertex AI,开发者可以对这一模型进行实验。 在日益竞争的 AI 市场中,Gemini2.0Flash Thinking模型可能标志着问题解决模型的新纪元。凭借处理多种数据类型、提供可视化推理和大规模运作的能力,它在推理 AI 市场中成为 OpenAI o1系列及其他模型的重要竞争者。划重点: 🌟 Gemini2.0Flash Thinking模型具备强大的推理能力,支持32,000个输入标记和8,000个输出标记。 💡 该模型通过下拉菜单提供逐步推理,增强透明性,解决 AI “黑箱” 问题。 🖼️ 具备原生图像上传与分析能力,扩展了多模态应用场景。