定焦｜实测Kimi Work、QoderWork、WorkBuddy，谁最能干？

最近，Agent大军又新增了一名成员。

Kimi推出了新产品Kimi Work，定位为面向知识工作者的通用型桌面Agent。官方称其能自主协调多个子Agent并行处理复杂任务。

但现在Agent产品实在太多了。今年以来，桌面Agent赛道堪称“神仙打架”。每款诞生时的宣传语听起来都是六边形战士，可作为用户，我们只关心到底哪个是真好用呢？

过去一两年，AI在写代码这件事上已经跑出了“Vibe Coding”的节奏，不用懂语法，说清楚要什么，AI帮你把代码跑起来。现在，AI的风吹到了更广泛的办公场景：报告、数据、PPT、信息收集……只要你说得清，AI能帮你干。这就是所谓的Vibe Working。而桌面Agent，是目前距离这个目标最近的工具形态。

于是这次，我们决定用个更直接的方式来验货——设计一套闯关游戏，让三款Agent同台竞技。选手是月之暗面的Kimi Work、阿里的QoderWork、腾讯的WorkBuddy。

关卡按照知识工作者最常见的工作场景来设计，分为四关：文档解读、专业场景（金融副本）、交付能力（PPT与报告）以及Skill生态。难度依次递进，从基础能力考到工具扩展上限。每关结束，我们会对三位玩家的表现打分，评级从高到低分为四档：夯、人上人、NPC、拉。

说明一点：三款产品目前均处于不同的开发阶段，Kimi Work还在内测。这次测试不是最终定论，只是当下阶段的一次横向对比。

01.文档解读：解读都能做，可视化见高下

第一关，就当在新手村热热身。

就从最简单的文档解读开始。我们让它们读取桌面上的行业报告，把内容要点以可视化的形式呈现。

毕竟知识工作者的日常，少不了跟各种报告打交道。客户甩过来一份几十页的PDF，得快速理出重点。主要考察的是基础的理解和呈现能力，门槛不算高，但交出来的东西能不能看，差距自然就出来了。

QoderWork，可以得到一个“夯”。它交了一个网页，内容分成行业总览、三类机器人分析和未来展望，板块清晰，信息量充足，视觉呈现完整。

QoderWork文档解读成果

WorkBuddy算是“NPC”，同样给了网页，市场趋势、品类分析、未来挑战这些板块也都有，框架不错。但和QoderWork比起来内容有些单薄，更像是把要点列了一遍就收工，排版也不够整齐，没有惊喜。

WorkBuddy文档解读成果

Kimi Work，同样是“NPC”。它走了另一条路，没做网页，直接甩了三张图——要点总结、产业链结构、因素分析。内容挺全的，表格样式也花了心思。但是细节没打磨好，部分图表文字挤成一团，该留白的地方全塞满，信息都在，观感差了一些。

Kimi Work文档解读成果

新手村小结，三位玩家都读懂了报告，理解上没选手翻车，但交上来的成果有一定的质量差距。

02.专业场景：金融副本，各有长处

热身结束，第二关上强度。

这一关解锁了金融副本。知识工作者的日常少不了跟专业数据打交道，查数据、做分析、扒信息，光靠搜索引擎效率太低。既然三个产品都号称能处理复杂任务，那就进副本试试，看谁扛得住。

这关设了两个子任务。一个是数据分析，一个是信息收集，分别考察分析得准不准、查得全不全。

任务一是金价走势分析。

QoderWork，给到一个“夯”。它还是直接给了一个网页，质量上比第一关高了一档。阶段分析、月度数据一应俱全，走势图还带悬停交互，点击就能看到具体数值。全景和细节都有，这个任务完成度最高。

QoderWork金价走势分析

WorkBuddy，给它一个“人上人”。同样是网页，有悬停交互和月度数据，整体完成度不错。但细节上有两处扣分，月度数据的表头写的是“日涨跌幅”，跟实际内容对不上；图表下方时间刻度挤在一起看不清。大框架到位，细节还差点意思。

WorkBuddy金价走势分析

轮到Kimi Work，给它一个“NPC”。它做了走势图，但直接存到了本地，页面上看不到，得自己去文件夹翻，分析部分中规中矩，走势图数据不够清晰，文字有遮挡。产出本身不差，但用户体验在交付环节不太好。

Kimi Work金价走势图

任务二是：汇总AI领域融资事件。

Kimi Work，可以给到一个“夯”。它交了两个成果，一份简洁的文字摘要，一份详细的分析文件。文件是亮点，不光梳理了融资轮次，还附上了公司财务状况分析，信息密度三款里最高。

Kimi Work融资汇总情况

QoderWork可以给到“人上人”。投资方名单、趋势判断、数据来源全都安排上了，细节很足。但扣分在严谨性上：MiniMax用的是上市初期的旧融资数据，智谱却用了最新数据，两家公司的数据口径不统一，说明信息收集时没做时间对齐，会影响横向比较的可信度。

QoderWork融资汇总情况

WorkBuddy只能拿到“NPC”。结构清楚，还独家加了多模态赛道的情况，这是另外两位都没提的增量，值得肯定。但部分具体数据不够准确，也漏掉了DeepSeek这一变量，覆盖度打了折扣。

WorkBuddy融资汇总情况

这关打完，一个有意思的发现，没有谁两个任务都拿到最高评级。QoderWork数据分析强但信息整合不够严谨，Kimi Work信息收集扎实但分析任务的交付体验拉垮，WorkBuddy不翻车也不惊艳。这说明三款产品在专业场景下各有侧重。

03.交付能力：PPT看QoderWork，报告看Kimi Work

前两关考的是找信息和分析信息，这关考交付。这关我们设了两个关卡，看看三位玩家的产出能力到底怎么样。

子任务一：做PPT。

我们让三款各做一份介绍自己的PPT。

QoderWork摘下“人上人”。它是三位里最有流程感的，动手之前先问你风格、页数等要求，根据要求生成大纲你点头后才开始做。速度最慢，但交出来的PPT内容最扎实，甚至连订阅方案和下载链接都附上了。没给最高分的原因是Token消耗太高，只是做一个PPT，成本明显偏重。

QoderWork PPT展示

Kimi Work则能够给到一个“NPC”。PPT直接存本地，无法在页面里预览。让它改版，改完依然存本地，来回几次都无法当场验收。内容本身排版和文字没什么大问题，但偏简洁，丰富度一般。体验上多了一道不必要的门槛。

Kimi WorkPPT展示

WorkBuddy这关，“拉”。抛开内容不谈，排版本身就问题不少：同一层级用了不同字体，标题图标和字体不对应。指出问题后，它认真改了，但改完一看，原本整齐的内容页反而出现字体混排，整体比上一版还乱。越改越差，说明底层的排版逻辑还没跑通。

WorkBuddyPPT展示

子任务二：写报告。

PPT做完，接着上报告。三位玩家在上一关的排名是QoderWork > Kimi Work> WorkBuddy，换到报告，会不会洗牌？

Kimi Work可以得到“人上人”。速度最慢，但内容很全面，同时输出了Markdown和Word两个版本，Markdown方便快速浏览，Word适合正式提交，把两种使用场景都照顾到了。

Kimi Work报告展示

WorkBuddy这回可以提升一级得到“NPC”。生成速度最快，内容中规中矩，板块划分清楚但每个部分深度一般。加分项是有目录、查阅方便，附录还标注了信息来源，阅读体验比上一关的PPT强了不少。

WorkBuddy报告展示

QoderWork给到“NPC”。内容丰富度和WorkBuddy相当，宏观背景的梳理稍好，但没有目录，几十页翻下来不方便，阅读体验扣分。

QoderWork报告展示

总结PPT和报告两个子任务，又是没有谁包揽。QoderWork做PPT最有流程感，Kimi Work做报告内容最扎实。可以看到，当前桌面Agent在内容交付上还存在一个共同短板：生成结果之后的可控性，能不能预览、能不能方便调整，这些体验还需优化。

04.Skill：数量看WorkBuddy，创建看QoderWork

前三关考的是产品本体的能力，但单靠本体上限有限。Agent产品的另一个竞争维度，是Skill生态：内置了多少工具、这些工具顺不顺手，决定了玩家在特定场景里能走多远。

先看各家的Skill库，再看能不能自己造。

内置Skill数量上，WorkBuddy支棱起来了，可以给到一个“夯”。Skill库最豪华：一类是对接不同应用的自建Skill，一类来自腾讯自家的SkillHub，还能直接跳转逛。专家套件选择空间也大，前三关表现起起落落，这关找到主场了。

WorkBuddy技能库

QoderWork给到“NPC”。它也有两类Skill，自家的和第三方的，总数不多。有专家套件，能调用专业指令，算是基本的弥补。

QoderWork技能库

Kimi Work就有点“拉”了。内置Skill数量最少，也没有专家套件扩展选项。对于一个主打知识工作者的产品来说，这是一个明显的短板。

Kimi Work技能库

现成的装备看完，再看能不能自己打造。我们给三款产品同样的两组参考图片，让它们照着图片造一个可复用的制图Skill。

QoderWork可以给到“人上人”。完成度最高：内容完整，数据全面，细节上每一页的标题样式都照着参考文件的风格走。

QoderWork制作的财报解读图表

WorkBuddy退一档，“NPC”。开局翻车，第一版输出的是损坏的SVG文件，反复提醒几次才交出能正常查看的PNG。成品比较基础，首页没有按模版取标题，解读页的图表停在简单样式。

WorkBuddy制作的财报解读图表

Kimi Work，“拉”。分析页还原了一些细节，会自己取小标题，但首页标题和参考模版偏差较大。更大的问题是图表数据粘连严重，几乎每一页都有文字糊在一起的情况，基本不可用。

Kimi Work制作的财报解读图表

三款都已具备根据工作场景自建Skill的能力，只是完成度有高有低，还需要多次调试。但把零散的工作流封装成可复用的工具，正是Agent区别于普通AI对话的核心优势之一，后续谁在这里跑得快，谁的上限才会真正打开。

05.结语

一个贯穿四关的发现是，没有全能型玩家。每一位都有鲜明的长处和短板，谁也没能把所有关卡一口气拿下。

但这个结果本身其实已经说明了一些问题。当前阶段的桌面Agent，还不是一个能替你全权处理工作的助手，更像是各有偏科的工具，在它擅长的场景里顺手，换个场景就可能掉链子。

这也意味着，接下来的竞争焦点未必是谁先补齐所有短板，而是谁能把自己的长板做到足够长，让用户在特定场景下形成依赖。

对Kimi Work来说，它还处于打地基的阶段。定位知识工作者方向没有问题，内置的金融、科研专业数据库是它区别于其他产品的底牌，这次测试里融资信息汇总和报告撰写的表现也印证了这一点。但有两个体验层面的问题如果不解决，会持续影响用户留存：一是结果动不动就存本地，多了一道不必要的操作门槛；二是不同任务之间的表现波动太大，用户很难建立稳定的使用预期。

回到开头提到的Vibe Working，它描绘的愿景很吸引人，但真正的Vibe Working，不该只是AI能干活，而是用户能更放心地把活交给它。从这个标准看，三款桌面Agent都还在路上。

*题图来源于月之暗面Kimi微信公众号。