Kimi K2.5 已上线 AgentsFlare

Agent 系统的构建与部署！Moonshot AI 正式发布并开源了其最新旗舰模型 Kimi K2.5。这是目前 Kimi 系列中能力最全面的一代模型，在 Agent 推理、代码生成、图像与视频理解以及通用智能等方面达到了开源模型中的领先水平。 Kimi K2.5 现已正式上线 AgentsFlare，可直接用于生产级 Agent 系统的构建与部署！

面向真实世界的多模态 Agent 能力

原生多模态设计

Kimi K2.5 原生支持文本、图像和视频输入，并同时覆盖对话式与 Agent 式任务场景，支持“思考 / 非思考”两种模式切换。

这使得模型可以直接理解截图、照片、PDF 或录屏内容，适用于大量难以用纯文本准确描述的真实问题。

降低 AI 使用门槛

通过将视觉理解、推理与代码能力整合在一个模型中，K2.5 显著降低了 AI 系统的使用与构建门槛。用户可以通过“给上下文”而不是“写说明书”的方式启动复杂任务。

覆盖日常办公场景

K2.5 的 Agent 能力已扩展至 Word、Excel、PPT、PDF 等常见办公文档处理场景，可用于撰写、整理、分析和重构半专业级文档。

视觉 × 代码的深度融合

更强的代码生成能力

K2.5 在代码生成，尤其是前端与交互式界面开发方面有明显提升，能够从简要描述直接生成结构完整、可用性较高的界面代码。

从界面到代码

模型可以分析屏幕录制或界面演示，拆解交互逻辑，并生成结构清晰、可维护的代码。这一能力非常适合快速原型开发和 Agent 驱动的工程流程。

Agent Cluster：并行协作的智能体系统

Kimi K2.5 引入了实验性的 Agent Cluster（智能体集群） 模式，标志着从“单 Agent 执行”向“多 Agent 协同”的重要转变。

多 Agent 并行协作

在 Agent Cluster 模式下，K2.5 可同时生成最多 100 个专用 Agent，并行处理复杂任务，支持多达 1,500 步的长流程执行。

显著的效率提升

根据官方数据，在复杂研究与综合分析场景中，Agent Cluster 可将关键推理步骤减少 3–4.5 倍，整体执行时间缩短最高达 4.5 倍。

这一能力与 AgentsFlare 所强调的多 Agent 编排、调度与治理理念高度契合。

Kimi Code：多模态编程工具

随 K2.5 一同发布的 Kimi Code 是一款基于该模型的专用编程工具，可在终端中使用，也可集成至 VS Code、JetBrains 等主流 IDE。

Kimi Code 支持图像和视频等多模态输入，并在内部评测中相较前代模型表现出显著提升。

可用性、价格与生产部署

Kimi K2.5 当前可通过以下渠道使用：

kimi.com 与 Kimi App
Kimi API 开放平台
Kimi Code
AgentsFlare（统一生产级接入）

模型支持四种交互模式：

快速模式
思考模式
Agent 模式
Agent Cluster 模式（Beta）

相较 Kimi K2 Turbo，K2.5 的 API 定价大幅下调，输入 Token 成本降低 50%，输出 Token 成本降低约 64%，更适合规模化与长期运行的业务场景。

从模型能力到可运行的 Agent 系统

Kimi K2.5 代表的不只是模型能力的提升，而是一次向 多模态、Agent 原生、可并行协作智能系统 的跃迁。

AgentsFlare 作为 Kimi K2.5 的 企业级 Agent 基础设施合作伙伴，帮助企业将前沿模型能力真正转化为可运行、可治理、可规模化的 Agent 系统。

通过 AgentsFlare，企业可以在生产环境中安全、稳定地使用 Kimi K2.5，实现：

统一的模型接入与 Agent 编排
多 Agent 调度与执行控制
可观测的性能、成本与调用行为
符合企业要求的安全隔离与治理能力

AgentsFlare 并非将 Kimi K2.5 作为一个孤立的模型接口，而是将其纳入完整的 Agent 运行体系中，使其成为企业级 AI 系统中的一等公民。

除 Kimi K2.5 外，AgentsFlare 已统一接入并管理 100+ 主流模型，覆盖多家模型提供方，使企业能够：

在不同模型之间灵活路由任务
在同一 Agent 工作流中组合多模型能力
避免模型厂商锁定，同时保持统一治理
随模型演进而持续升级 Agent 系统

这种 模型能力与 Agent 基建解耦 的设计，正是企业构建可扩展、可持续 Agent 系统的关键。

在 AgentsFlare 上启动 Kimi K2.5，让 Agent 真正进入真实世界运行。

官方 API 也会宕机？揭秘 Agentsflare 如何提供比直连更高速、更稳定的大模型（LLM）服务

立即体验