谷歌发布王炸推理模型Gemini2.0FlashThinking，挑战OpenAIo1

Created2024-12-20|Updated2024-12-20|codeai

|Post Views:

在人工智能领域竞争日益激烈的背景下，谷歌近日宣布推出 Gemini2.0 Flash Thinking模型。这一多模态推理模型具备快速且透明的处理能力，能够应对复杂问题。谷歌首席执行官桑达尔・皮查伊在社交媒体 X 上表示:“这是我们迄今为止最具深度的模型。” 根据开发者文档，Gemini2的Flash Thinking比基础版本的 Gemini2.0Flash模型具备更强的推理能力。新模型支持32，000个输入标记（大约50到60页文本），输出响应可以达到8，000个标记。谷歌在其 AI 工作室的侧边面板中表示，这一模型特别适用于 “多模态理解、推理” 以及 “编码”。开发者文档:https://ai.google.dev/gemini-api/docs/thinking-mode?hl=zh-cn目前关于模型的训练过程、架构、许可和成本等详细信息尚未公布，但谷歌 AI 工作室显示目前使用该模型每个标记的费用为零。 Gemini2.0的一个显著特点是允许用户通过下拉菜单访问模型的逐步推理过程，这在 OpenAI 的 o1和 o1mini 等竞争模型中并不具备。这种透明的推理方式使得用户能够清楚了解模型得出结论的过程，有效解决了 AI 被视为 “黑箱” 的问题。在一些简单测试中，Gemini2.0能够快速（在一到三秒内）正确回答一些复杂问题，例如计算 “草莓” 这个词中字母 “R” 的数量。在另一项测试中，模型通过逐步分析整体数字和小数位，系统地比较了两个小数(9.9与9.11)。第三方独立分析机构 LM Arena 将 Gemini2.0Flash Thinking模型评为所有大语言模型类别中的最佳表现模型。此外，Gemini2.0Flash Thinking模型还具备原生的图像上传与分析功能。相比于 OpenAI 的 o1，后者最初为文本模型，并在后续进行了图像和文件分析的扩展。当前，两者都只能返回文本输出。虽然 Gemini2.0Flash Thinking模型的多模态能力扩展了其潜在应用场景，但开发者需注意，该模型目前不支持与谷歌搜索的结合，也无法与其他谷歌应用及外部工具集成。通过Google AI Studio和 Vertex AI，开发者可以对这一模型进行实验。在日益竞争的 AI 市场中，Gemini2.0Flash Thinking模型可能标志着问题解决模型的新纪元。凭借处理多种数据类型、提供可视化推理和大规模运作的能力，它在推理 AI 市场中成为 OpenAI o1系列及其他模型的重要竞争者。划重点: 🌟 Gemini2.0Flash Thinking模型具备强大的推理能力，支持32，000个输入标记和8，000个输出标记。 💡 该模型通过下拉菜单提供逐步推理，增强透明性，解决 AI “黑箱” 问题。 🖼️ 具备原生图像上传与分析能力，扩展了多模态应用场景。

Author: hory-ai horysk

Link: https://www.hory-ai.com/2024/12/20/ai/2024-12-20/谷歌发布王炸推理模型Gemini2.0FlashThinking，挑战OpenAIo1/

Copyright Notice: All articles on this blog are licensed under hory-ai.com horysk.com unless otherwise stated.

Related Articles

AI拳击公司Growl推出壁挂式健身设备结合拳击训练与虚拟教练

美国AI拳击公社Growl近日推出了一款全新的壁挂式健身设备，旨在为用户提供与真人拳击教练互动的体验。与Lululemon Mirror和Tonal等互动健身器材不同，Growl 的设计强调身体互动，结合投影仪与传感器，为用户提供一个可以实际击打的沙袋，而不再是仅仅依赖于屏幕的虚拟健身指导。Growl设备通过投影仪代替传统的LCD或OLED屏幕，创造出更大、更具沉浸感的显示效果。其紧凑的设计使得设备可以轻松安装在墙上，且不会占用过多空间。用户的锻炼数据和进度会通过墙壁上的投影实时显示，而沙袋屏幕则会展示真人大小的虚拟拳击教练，带来身临其境的指导体验。为了实现精准的互动和反馈，Growl 配备了红外飞行时间传感器，这些传感器可以实时检测用户击打的位置和力度，将沙袋的表面转变为灵活的触摸屏。此外，多个摄像头以3D 方式跟踪用户的动作，AI系统则分析这些动作并提供实时反馈，帮助用户改善技巧。Growl 的训练内容包括与虚拟教练的互动指导，教练会引导你出拳的方向，并为你提供个性化的训练建议。除了常规训练，Growl 还提供类似于《Beat...

AI能否摆脱语言依赖？图灵奖得主Bengio、LeCun激辩AGI未来之路

人工智能正在经历一个充满争议和期待的发展阶段。近期，学术界对于AI的思考能力和语言本质展开了深入讨论，其中尤以图灵奖得主Yoshua Bengio和Yann LeCun的观点最为引人注目。当前的AI发展趋势令人振奋。各大科技公司正在将重点从纯语言模型转向更复杂的推理和思考能力。以OpenAI的o1模型为例，其在数学和代码领域的显著进步就是明证。这种转变背后的核心问题是:思考真的需要语言吗?Bengio在《金融时报》发表的文章为我们提供了一个独特的视角。他认为，AI正处于一个关键的转折点，能够在”说话”之前学会”思考”。这种能力的提升可能是通向人工通用智能（AGI）的重要里程碑。传统上，AI被认为更擅长”系统1”认知——快速、直观的处理，而人类智能的精髓在于”系统2”认知——深度思考和逻辑推理。更令人兴奋的是，科学家们已经开始破解这一难题。通过”思维链”（Chain of Thought）等技术，AI模型正逐步获得更复杂的推理能力。以o1模型为例，其在美国奥数竞赛中的表现已经跻身全国前500，这是一个里程碑式的突破。然而，另一位图灵奖得主Yann...

AmpRobotics转型运营机器人垃圾回收设施成功融资9100万美元

如今，回收工作面临着严峻挑战。由于人们难以明确知道什么可以回收以及如何正确回收，只有大约32%的符合回收条件的垃圾得到了妥善处理。虽然将所有垃圾丢进一个箱子并由废物管理公司统一处理似乎更为简单，但人工处理的高成本问题使这一方式难以实现大规模回收。随着机器人技术的引入，回收行业迎来了自动化的曙光。无论是像 Glacier 这样的初创公司，还是像苹果这样的跨国企业，越来越多的公司正致力于推动回收自动化。大多数自动化工作通过部署机器人来辅助人类回收废物，这些机器人被安置在现有设施中以提高效率。早期进入这一领域的公司 Amp Robotics，最近宣布转型，开始专注于运营整个回收设施。这一业务模式的转变为公司带来了新一轮的9100万美元资金支持。成立十年的 Amp Robotics，目前已在三家回收设施中部署了约400台机器人，并计划扩展至更多设施。Amp Robotics...

Humane发布颠覆性AI操作系统CosmOS智能代理协作开启人机交互新纪元！

告别繁琐的操作，迎接智能交互新时代!Humane 最新发布的 CosmOS 操作系统，将彻底颠覆你对人机交互的认知。这款由人工智能驱动的操作系统，专为智能设备和复杂任务而生，它能够像一位贴心的私人助理，理解你的需求和偏好，提供个性化、场景化的帮助，让你与设备的交互变得前所未有的轻松便捷。CosmOS 的秘密武器是它强大的“智能代理”系统。每个代理都像一位身怀绝技的专家，专注于处理特定任务，例如天气查询、音乐播放、任务规划等等。他们协同工作，默契配合，根据你的需求动态调整，无需你手动管理。更令人惊叹的是，CosmOS 的核心 “大脑”—— AI Bus 智能协调器，能够整合各种 AI 模型、数据集、服务和设备功能。它如同一位运筹帷幄的指挥官，根据任务需求，将任务分配给最合适的代理，并协调他们之间的协作，确保每个任务都能高效、准确地完成。CosmOS 就像一位善解人意的朋友，它会通过学习你的交互记录和历史行为，不断优化你的使用体验。它还会实时从互联网获取最新信息，确保为你提供的解决方案与当前情境高度相关。不论你喜欢用语音、触控、文字、手势还是视觉输入，CosmOS...

Marvell的AI狂潮四季度营收预测超出预期股价暴涨！

在这个高科技飞速发展的时代，马维尔科技（Marvell Technology）近日宣布，预计第四季度的营收将超出市场预期，原因无他，强劲的人工智能芯片需求让他们的生意蒸蒸日上。公司股票在周三开盘前上涨了12%，而在延长交易中甚至一度飙升超过8%，股价达到了创纪录的高点。马维尔科技的股价今年已上涨近60%，这一切都归功于市场对先进芯片的狂热追捧，这些芯片能满足日益复杂的生成式 AI 模型的处理需求。与之竞争的博通（Broadcom）也不甘示弱，股价同样上涨了约50%。马维尔预测，第四季度的营收将达到18亿美元，浮动范围为5%。相比之下，分析师们的平均预期为16.5亿美元。虽然 AI 处理器的市场主要被英伟达（Nvidia）垄断，但大型科技公司正在努力减少对这种供货紧张的芯片的依赖，这为马维尔这样的公司创造了机会。自2020年开始，马维尔就致力于为大型云计算公司开发定制芯片，短短几年时间，这项业务已迅速发展成为公司重要的利润来源。马维尔的首席运营官克里斯・库普曼斯（Chris Koopmans）在采访中表示:“我们多年来的努力终于看到了成果。”...

Enterpret获2080万美元融资利用AI技术深入解析客户反馈

近日，初创公司 Enterpret Inc. 宣布完成2080万美元的 A 轮融资，旨在利用人工智能算法将客户反馈转化为有价值的产品开发见解。此次融资由 Canaan Partners 领投，众多知名投资者参与，包括 Kleiner Perkins、Peak XV Partners、Wing Ventures 和 Recall Capital。此外，Notion 公司产品负责人 Lauryn Motamedi 和 Dropbox 公司增长与数据副总裁 Elena Verna 等天使投资人也参与了此次融资。图源备注:图片由AI生成，图片授权服务商MidjourneyEnterpret 成立于2020年，由两位兄弟 Varun 和 Arnav Sharma 创立。Varun 是公司的首席执行官，他表示，很多公司在收集客户反馈时，往往采用不系统的方法，既费时又费力。企业通常需要从各种来源，如销售电话、调研问卷、支持票据、社交媒体帖子、论坛评论及 Slack...