5月29日,极客邦科技双数研究院InfoQ研究中心正式发布《2025推理模型评测报告》,基于逻辑推理、数学推理、多步推理、语言推理、及幻觉控制五大维度,对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开深度评估。报告显示,文心X1 Turbo以总分第一的成绩领跑国内模型,并在幻觉控制、语言推理等核心维度展现显著优势,成为国内首个在五大评测维度中斩获最多单项冠军的推理模型。
InfoQ研究中心指出,受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动,全球厂商已进入推理模型密集发布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线,争夺下一代大模型的“推理入场券”。
根据报告,文心X1 Turbo是本次评测中“单项冠军数量最多”的模型,在五大细分维度中表现亮眼:在幻觉控制方面,文心X1 Turbo以80.56%的得分位列第一,领先DeepSeek-R1、Qwen3-235B-A22B等模型,有效降低模型生成错误或误导性信息的风险;在语言推理方面,文心X1 Turbo以70.31%的得分位列第一,领先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在数学推理方面,OpenAI O3以81.25%的得分位列第一,文心X1 Turbo紧跟其后,位居国内第一。
幻觉控制Top 5模型得分情况
语言推理Top 5模型得分情况
报告认为,作为国产推理模型代表,文心X1 Turbo其技术突破不仅标志着国产模型在推理能力上的里程碑式进展,更为AI从“内容生成”向“可验证逻辑执行”的跃迁提供了关键支撑。
随着技术迭代与场景深化,推理模型把大模型从单纯的内容生成器升级为“可验证的逻辑执行器”。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升,更多新商业机会正被快速打开。
上海举行国际人形机器人技能大赛
海南三沙:“渔家龙舟”竞渡迎端午
科学报国正当时|选择地质学专业,带你上天、入地、下海!
04:还在纠结如何挑选科普图书?科学家推荐这些
千锤百炼 薄如蝉翼——“手撕钢”技术
03:“破四唯”之后,青年科学家面临哪些挑战与机遇?
地球写给未来的“情书”——探秘植物界的“诺亚方舟”
02:“内卷”还是“躺平”?如何应对科研倦怠期?
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。