最近,Agent大军又新增了一名成员。

Kimi推出了新产品Kimi Work,定位为面向知识工作者的通用型桌面Agent。官方称其能自主协调多个子Agent并行处理复杂任务。

但现在Agent产品实在太多了。今年以来,桌面Agent赛道堪称“神仙打架”。每款诞生时的宣传语听起来都是六边形战士,可作为用户,我们只关心到底哪个是真好用呢?

过去一两年,AI在写代码这件事上已经跑出了“Vibe Coding”的节奏,不用懂语法,说清楚要什么,AI帮你把代码跑起来。现在,AI的风吹到了更广泛的办公场景:报告、数据、PPT、信息收集……只要你说得清,AI能帮你干。这就是所谓的Vibe Working。而桌面Agent,是目前距离这个目标最近的工具形态。

于是这次,我们决定用个更直接的方式来验货——设计一套闯关游戏,让三款Agent同台竞技。选手是月之暗面的Kimi Work、阿里的QoderWork、腾讯的WorkBuddy。

关卡按照知识工作者最常见的工作场景来设计,分为四关:文档解读、专业场景(金融副本)、交付能力(PPT与报告)以及Skill生态。难度依次递进,从基础能力考到工具扩展上限。每关结束,我们会对三位玩家的表现打分,评级从高到低分为四档:夯、人上人、NPC、拉。

说明一点:三款产品目前均处于不同的开发阶段,Kimi Work还在内测。这次测试不是最终定论,只是当下阶段的一次横向对比。


01.文档解读:解读都能做,可视化见高下

第一关,就当在新手村热热身。

就从最简单的文档解读开始。我们让它们读取桌面上的行业报告,把内容要点以可视化的形式呈现。

毕竟知识工作者的日常,少不了跟各种报告打交道。客户甩过来一份几十页的PDF,得快速理出重点。主要考察的是基础的理解和呈现能力,门槛不算高,但交出来的东西能不能看,差距自然就出来了。

QoderWork,可以得到一个“夯”。它交了一个网页,内容分成行业总览、三类机器人分析和未来展望,板块清晰,信息量充足,视觉呈现完整。

QoderWork文档解读成果

WorkBuddy算是“NPC”,同样给了网页,市场趋势、品类分析、未来挑战这些板块也都有,框架不错。但和QoderWork比起来内容有些单薄,更像是把要点列了一遍就收工,排版也不够整齐,没有惊喜。

WorkBuddy文档解读成果

Kimi Work,同样是“NPC”。它走了另一条路,没做网页,直接甩了三张图——要点总结、产业链结构、因素分析。内容挺全的,表格样式也花了心思。但是细节没打磨好,部分图表文字挤成一团,该留白的地方全塞满,信息都在,观感差了一些。

Kimi Work文档解读成果

新手村小结,三位玩家都读懂了报告,理解上没选手翻车,但交上来的成果有一定的质量差距。


02.专业场景:金融副本,各有长处

热身结束,第二关上强度。

这一关解锁了金融副本。知识工作者的日常少不了跟专业数据打交道,查数据、做分析、扒信息,光靠搜索引擎效率太低。既然三个产品都号称能处理复杂任务,那就进副本试试,看谁扛得住。

这关设了两个子任务。一个是数据分析,一个是信息收集,分别考察分析得准不准、查得全不全。

任务一是金价走势分析。

QoderWork,给到一个“夯”。它还是直接给了一个网页,质量上比第一关高了一档。阶段分析、月度数据一应俱全,走势图还带悬停交互,点击就能看到具体数值。全景和细节都有,这个任务完成度最高。

QoderWork金价走势分析

WorkBuddy,给它一个“人上人”。同样是网页,有悬停交互和月度数据,整体完成度不错。但细节上有两处扣分,月度数据的表头写的是“日涨跌幅”,跟实际内容对不上;图表下方时间刻度挤在一起看不清。大框架到位,细节还差点意思。

WorkBuddy金价走势分析

轮到Kimi Work,给它一个“NPC”。它做了走势图,但直接存到了本地,页面上看不到,得自己去文件夹翻,分析部分中规中矩,走势图数据不够清晰,文字有遮挡。产出本身不差,但用户体验在交付环节不太好。

Kimi Work金价走势图

任务二是:汇总AI领域融资事件。

Kimi Work,可以给到一个“夯”。它交了两个成果,一份简洁的文字摘要,一份详细的分析文件。文件是亮点,不光梳理了融资轮次,还附上了公司财务状况分析,信息密度三款里最高。

Kimi Work融资汇总情况

QoderWork可以给到“人上人”。投资方名单、趋势判断、数据来源全都安排上了,细节很足。但扣分在严谨性上:MiniMax用的是上市初期的旧融资数据,智谱却用了最新数据,两家公司的数据口径不统一,说明信息收集时没做时间对齐,会影响横向比较的可信度。

QoderWork融资汇总情况

WorkBuddy只能拿到“NPC”。结构清楚,还独家加了多模态赛道的情况,这是另外两位都没提的增量,值得肯定。但部分具体数据不够准确,也漏掉了DeepSeek这一变量,覆盖度打了折扣。

WorkBuddy融资汇总情况

这关打完,一个有意思的发现,没有谁两个任务都拿到最高评级。QoderWork数据分析强但信息整合不够严谨,Kimi Work信息收集扎实但分析任务的交付体验拉垮,WorkBuddy不翻车也不惊艳。这说明三款产品在专业场景下各有侧重。


03.交付能力:PPT看QoderWork,报告看Kimi Work

前两关考的是找信息和分析信息,这关考交付。这关我们设了两个关卡,看看三位玩家的产出能力到底怎么样。

子任务一:做PPT。

我们让三款各做一份介绍自己的PPT。

QoderWork摘下“人上人”。它是三位里最有流程感的,动手之前先问你风格、页数等要求,根据要求生成大纲你点头后才开始做。速度最慢,但交出来的PPT内容最扎实,甚至连订阅方案和下载链接都附上了。没给最高分的原因是Token消耗太高,只是做一个PPT,成本明显偏重。

QoderWork PPT展示

Kimi Work则能够给到一个“NPC”。PPT直接存本地,无法在页面里预览。让它改版,改完依然存本地,来回几次都无法当场验收。内容本身排版和文字没什么大问题,但偏简洁,丰富度一般。体验上多了一道不必要的门槛。

Kimi WorkPPT展示

WorkBuddy这关,“拉”。抛开内容不谈,排版本身就问题不少:同一层级用了不同字体,标题图标和字体不对应。指出问题后,它认真改了,但改完一看,原本整齐的内容页反而出现字体混排,整体比上一版还乱。越改越差,说明底层的排版逻辑还没跑通。

WorkBuddyPPT展示

子任务二:写报告。

PPT做完,接着上报告。三位玩家在上一关的排名是QoderWork > Kimi Work> WorkBuddy,换到报告,会不会洗牌?

Kimi Work可以得到“人上人”。速度最慢,但内容很全面,同时输出了Markdown和Word两个版本,Markdown方便快速浏览,Word适合正式提交,把两种使用场景都照顾到了。

Kimi Work报告展示

WorkBuddy这回可以提升一级得到“NPC”。生成速度最快,内容中规中矩,板块划分清楚但每个部分深度一般。加分项是有目录、查阅方便,附录还标注了信息来源,阅读体验比上一关的PPT强了不少。

WorkBuddy报告展示

QoderWork给到“NPC”。内容丰富度和WorkBuddy相当,宏观背景的梳理稍好,但没有目录,几十页翻下来不方便,阅读体验扣分。

QoderWork报告展示

总结PPT和报告两个子任务,又是没有谁包揽。QoderWork做PPT最有流程感,Kimi Work做报告内容最扎实。可以看到,当前桌面Agent在内容交付上还存在一个共同短板:生成结果之后的可控性,能不能预览、能不能方便调整,这些体验还需优化。


04.Skill:数量看WorkBuddy,创建看QoderWork

前三关考的是产品本体的能力,但单靠本体上限有限。Agent产品的另一个竞争维度,是Skill生态:内置了多少工具、这些工具顺不顺手,决定了玩家在特定场景里能走多远。

先看各家的Skill库,再看能不能自己造。

内置Skill数量上,WorkBuddy支棱起来了,可以给到一个“夯”。Skill库最豪华:一类是对接不同应用的自建Skill,一类来自腾讯自家的SkillHub,还能直接跳转逛。专家套件选择空间也大,前三关表现起起落落,这关找到主场了。

WorkBuddy技能库

QoderWork给到“NPC”。它也有两类Skill,自家的和第三方的,总数不多。有专家套件,能调用专业指令,算是基本的弥补。

QoderWork技能库

Kimi Work就有点“拉”了。内置Skill数量最少,也没有专家套件扩展选项。对于一个主打知识工作者的产品来说,这是一个明显的短板。

Kimi Work技能库

现成的装备看完,再看能不能自己打造。我们给三款产品同样的两组参考图片,让它们照着图片造一个可复用的制图Skill。

QoderWork可以给到“人上人”。完成度最高:内容完整,数据全面,细节上每一页的标题样式都照着参考文件的风格走。

QoderWork制作的财报解读图表

WorkBuddy退一档,“NPC”。开局翻车,第一版输出的是损坏的SVG文件,反复提醒几次才交出能正常查看的PNG。成品比较基础,首页没有按模版取标题,解读页的图表停在简单样式。

WorkBuddy制作的财报解读图表

Kimi Work,“拉”。分析页还原了一些细节,会自己取小标题,但首页标题和参考模版偏差较大。更大的问题是图表数据粘连严重,几乎每一页都有文字糊在一起的情况,基本不可用。

Kimi Work制作的财报解读图表

三款都已具备根据工作场景自建Skill的能力,只是完成度有高有低,还需要多次调试。但把零散的工作流封装成可复用的工具,正是Agent区别于普通AI对话的核心优势之一,后续谁在这里跑得快,谁的上限才会真正打开。


05.结语

一个贯穿四关的发现是,没有全能型玩家。每一位都有鲜明的长处和短板,谁也没能把所有关卡一口气拿下。

但这个结果本身其实已经说明了一些问题。当前阶段的桌面Agent,还不是一个能替你全权处理工作的助手,更像是各有偏科的工具,在它擅长的场景里顺手,换个场景就可能掉链子。

这也意味着,接下来的竞争焦点未必是谁先补齐所有短板,而是谁能把自己的长板做到足够长,让用户在特定场景下形成依赖。

对Kimi Work来说,它还处于打地基的阶段。定位知识工作者方向没有问题,内置的金融、科研专业数据库是它区别于其他产品的底牌,这次测试里融资信息汇总和报告撰写的表现也印证了这一点。但有两个体验层面的问题如果不解决,会持续影响用户留存:一是结果动不动就存本地,多了一道不必要的操作门槛;二是不同任务之间的表现波动太大,用户很难建立稳定的使用预期。

回到开头提到的Vibe Working,它描绘的愿景很吸引人,但真正的Vibe Working,不该只是AI能干活,而是用户能更放心地把活交给它。从这个标准看,三款桌面Agent都还在路上。

*题图来源于月之暗面Kimi微信公众号。