11月14日,长江证券发布媒体行业AI系列跟踪报告,称多模型相继发布,高性价比模型表现亮眼。
11月6日,KimiK2Thinking模型发布并开源,全面提升Agent能力与推理能力,并在训练成本方面再创新低。11月8日,OpenAI宣布上线GPT-5Codex-Mini,并针对ChatGPTPlus、Business和Edu用户提升了约50%的速率限制,为ChatGPTPro和Enterprise用户提供了任务优先处理服务。
KimiK2Thinking模型发布,Agent与推理性能实现跃升,训练成本再创新低。KimiK2Thinking模型的核心亮点在于通过多轮调用工具和多步思考,掌握“边思考、边使用工具”的能力,大幅提升Agent能力与推理能力。1)Agent能力:能够持续进行200-300次工具调用,并在调用过程中交错思考,根据ArtificialAnalysis,KimiK2Thinking在2-BenchTelecom智能体工具使用基准中以93%的得分达到SOTA水平,优于CPT-5Codex87%的得分,以及KimiK2Instruct73%的得分。2)推理能力:该模型在“人类最后的考试”评测中取得SOTA成绩,展现强劲推理能力与问题解决能力。此外,该模型通过INT4量化技术等实现了较高性能与较低成本的平衡,根据CNBC报道,KimiK2Thinking模型的训练成本仅为460万美元,显著低于DeepSeek-V3、OpenAI系列模型的成本投入。KimiK2Thinking模型价格与KimiK2模型持平,价格为每百万Token输入4元、输出16元、命中缓存输入1元。目前该模型已上线Kimi网页版和最新版Kimi手机应用的常规对话模式,后续KimiAgent模式的底层模型也将升级为该模型。认为KimiK2Thinking模型以较低成本实现较高性能,在一定程度上验证了国产大模型的开源低成本路线具备较强潜力。
OpenAI上线GPT-5Codex-Mini模型,具备更高性价比。11月8日,OpenAI上线轻量级模型GPT-5Codex-Mini模型,相较于标准版,GPT-5Codex-Mini模型更加紧凑且具备更优成本。其轻量化设计能在一定程度上降低开发者的使用成本,主要适用于简单的软件工程任务处理,以及一些即将到达调用限制的场景,当调用量达到配额的90%时,Codex会自动推荐用户切换至GPT-5-Codex-Mini。在SWE-benchVerified测试中,GPT5-Codex的得分为74.5%,而GPT-5-Codex-Mini的得分为71.3%,两者在性能上的差距较小。在现有订阅体系下,用户使用GPT-5Codex-Mini将获得标准版约4倍的调用量。
重要提示:本文著作权归财中社所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至editor@caizhongshe.cn。