kaiyun网站三款家具分差不足 8 分-开云(中国)Kaiyun·官方网站登录入口

当智高手机硬件立异干预瓶颈期，GUI 智能体正成为手机厂商新一轮角逐的中枢赛场。从传统语音助手到具备自主诡计、视觉感知、跨欺骗全链路试验才气的智能体，端侧 AI 的落地才气，坚决成为分别家具竞争力的中枢标尺。近日，SuperCLUE 发布AgentCLUE-Mobile 6 月手机助手 GUI 智能体测评榜单，6 款主流手机智能体同台竞技，最终得益呈现出 “一家领跑、三家胶著、两家追逐” 的明晰形状。测评数据直指当下行业真相：参数并非决定性能的惟一模范，模子架构、任务适配度、单步有筹画质料，才是 AI 手机迈向商用的枢纽。

一、榜单全景：三大梯队浊泾清渭，中兴已矣断层率先

本次测评聚焦具备完整智能体架构与专属模子的 6 款家具，长入在 ADB 手机交互 + 纯视觉输入的模范化环境中开展测试，从意图解析、视觉感知、长链路试验三大中枢维度量化才气，最终总得益名次如下：

同一分数与轮廓才气，6 款家具被分别为三大梯队，差距十分权贵：

1. 第一梯队（90 分以上，商用级）：仅中兴 GUI 手机智能体入围。91.29 分的总得益遥遥率先，亦然全场惟一轮廓才气接近生意落地模范的家具。其在轻便、中等、难题全难度任务中确认隆重，7 大细分维度得分均冲突 85 分，端到端任务完成率高达 93%，基本开脱了端侧智能体 “教导解析偏差、操作冗余、长链路中断” 的通病。

2. 第二梯队（65-75 分，成长型）：智谱 AI Open-AutoGLM、阿里两款家具造成中游阵营，三款家具分差不足 8 分，处于胶著景况。该梯队家具具备基础的意图解析与 GUI 感知才气，但跨欺骗长链路试验成为浩繁短板，任务完成率网络在 56%-60%，距离范畴化商用仍有显然差距。

3. 第三梯队（60 分以下，探索型）：阶跃星辰 GELab-Zero、字节卓绝 UI-TARS 处于追逐阶段。其中 UI-TARS 以 30.19 分垫底，与榜首差距超 60 分，纯视觉小模子在复杂手机交互场景中的才气短板图穷匕见；GELab-Zero 虽优于 UI-TARS，但举座才气薄弱，全维度得分均低于 62 分，任务完成率仅 35%。

从调用模式来看，API 调用类家具举座确认优于腹地部署家具。榜单前四名中三款均接受云霄 API 调用，而四款腹地部署家具包揽后三名。这也印证了现时行业近况：受限于手机端算力、内存、功耗，纯端侧腹地运行的小模子，暂时难以承载复杂 GUI 自动化任务，端云协同仍是现阶段最优解。

二、深度拆解五大中枢论断：云霄如故腹地大模子？这是一个问题。

本次测评并非轻便的分数名次，而是通过难度分层、程序拆解、多维度打分，挖掘端侧 GUI 智能体的技巧瓶颈与行业趋势，五大中枢论断精确勾画出现时赛说念的技巧全貌。

1. 难度确认分化：部分家具 “倒错配”，中等任务成最大查验

测评题目接受倒金字塔难度结构，难题题目占比最高，重心查验智能体的长链路试验、多意图并行、格外收复才气。各家具在不同难度任务中实在认，颠覆了 “难度越高、得分越低” 的惯例认识：

中兴已矣全难度通吃：轻便任务得分 96.99 分，难题任务仍保抓 85 分以上，非论短教导如故多程序复杂任务，有筹画踏实性拉满。

第二梯队两款家具出现难度逆序表象：Open-AutoGLM 难题任务得分 76.71 分、中等任务 68.68 分；Mobile-Agent-3.5 难题任务 73.09 分、中等任务 58.17 分。难题任务得分反超中等任务，中枢原因是中等任务包含无数隐式教导、多意图并行判断，对模子的诡计踏实性要求更高，反而比线性长链路的难题任务更难应付。

第三梯队全线拉胯：MAI-UI、GELab-Zero 慑服得分随难度递加递减的规矩，但举座分值偏低；UI-TARS 更为顶点，轻便、中等、难题三类任务得分均游荡在 30 分驾驭，属于 “全难度失效”，无法胜任基础手机自动化操作。

2. 试验后果：完成率与操作步数强绑定，冗余操作是体验硬伤

测评从任务完成率和平均操作步数两大维度，预计智能体的试验后果，这亦然径直影响用户体验的核神思划：

中兴：93% 的超高完成率，平均每题仅 10.83 步。单步有筹画精确，险些无冗余点击、回退操作，试验后果、准确率双优，透澈适配平日用户使用场景。

第二梯队：完成率网络在 56%-60%，步数各异显然。Mobile-Agent-3.5（59%/12.15 步）后果相对平衡；MAI-UI 完成率 56%，平均步数高达 17.23 步，存在无数无效操作，呈现 “操作多、正确率低” 的问题。

第三梯队：堕入 “步数越多、罪责越多” 的恶性轮回。GELab-Zero 完成率 35%，平均 16.75 步；UI-TARS 完成率仅 18%，平均步数达到 20.62 步，相当于每试验 11 步才气得手一次，实用性极低。

行业规矩在此取得考证：智能体的实用化瓶颈，不啻是 “能否完成任务”，更是 “用几许程序完成任务”。压缩无效操作、普及单步有筹画质料，远比单纯普及举座正确率更能优化用户体验。

3. 云霄模子断层领跑，腹地小模子 “参数越大巧合越强”

模子架构与场景适配度，优先级远高于参数目：

27B 参数的中兴 Nebula-Pilot V1.0 一骑绝尘，相较第二名 9B 参数的 Open-AutoGLM 拉开 18 分的庞杂差距，大参数模子在复杂认识、长链路诡计上的上风充分久了。

7B 模子确认不足 4B 模子：字节 UI-TARS（7B）得分 30.19 分，大幅过期于阶跃星辰 GELab-Zero（4B，54.26 分）。这讲授脱离场景适配的参数堆叠毫意外想，针敌手机 GUI 交互优化的小模子，才气不错超越通用型 7B 模子。

4B-9B 参数区间出现角落效应递减：该区间内模子参数目普及带来的才气增益十分有限，厂商单纯依靠 “堆参数” 普及家具竞争力的阶梯依然走欠亨。

4. 才气短板：跨欺骗试验成为行业通用瓶颈，短板决定上限

测评培育 7 大细分才气维度，热力争数据明晰展现各家具的才气矩阵，同期揭示了全行业的共性短板：

中兴：才气全面平衡，六大中枢维度（轻便 / 中等 / 难题任务、意图拆解、GUI 感知、跨欺骗试验）得分一说念冲突 85 分，无显然短板，这亦然其高完成率的中枢复古。

第二梯队：认识、感知才气尚可，但跨欺骗全链路试验集体拉胯。Open-AutoGLM、Mobile-Agent-3.5 该维度得分分别为 65.69 分、67.10 分，多欺骗切换、数据迁徙、示知栏联动等复杂场景科罚才气不足；MAI-UI 分化严重，意图拆解得分 76.72 分，但跨欺骗试验仅 50.79 分，“认识强、试验弱” 的问题隆起。

第三梯队：全面过期。GELab-Zero 全维度低于 62 分；UI-TARS 仅 GUI 感知维度达到 46.06 分，其余维度均低于 31 分，纯视觉模子难以兼顾认识、诡计、试验全经过。

纪念来看：智能体的端到端得手率，由最弱维度决定。当下多数家具卡在 “跨欺骗试验” 枢纽，这亦然从 “玩物级 AI” 走向 “用具级 AI” 必须攻克的中枢关卡。

5. 场景实战：典型任务落地对比，差距直不雅可见

本次测评比取多意图并行 + 跨欺骗试验的高频复杂任务看成典型案例：“高德搜索海底捞并导航至最近门店，翻开微信在家具一样群发送位置分享”，完整还原用户信得过使用场景，两款梯队代表家具实在认差距一目了然。

1. 中兴 GUI 手机智能体（满分 100 分）

全程 15 步操作，每一步逻辑连贯、动作精确。规律完成翻开高德、搜索枢纽词、按距离排序采选最近门店、启动导航、复返桌面、翻开微信、干预群聊、开启及时位置分享，无一步冗余、无一次误操作，精确解析 “最近门店”“位置分享（及时分享）” 两大中枢教导，完好匹配用户信得过诉求。裁判判定总共程序有用，是全场惟一满分完成该复杂任务的家具。

2. GELab-Zero（得分 53.85 分）

臆想 13 步操作，出现两处中枢罪责：第一，搜索海底捞后，未采选距离最近的门店，抵牾 “导航至最近一家” 的教导；第二，浑浊微信 “发送静态位置” 与 “分享及时位置” 功能，误选静态位置发送，偏离 “位置分享” 的中枢要求。两大枢纽诞妄径直导致任务失败，无数操作沦为无效动作，亦然中低端智能体的典型问题：教导解析浮于名义，无法区分相似功能、隐性敛迹条目。

该案例也直不雅解释了分数差距背后的用户体验各异：优秀的 GUI 智能体不错像东说念主一样解析复杂当然说话、区分细节教导；而过期家具仅能完成基础点击，遇到多意图、隐性规则便容易出错。

三、纪念：GUI 智能体，重新界说下一代手机的中枢体验

智高手机硬件立异依然触顶，录像头、芯片、快充的同质化内卷难以再撬动换机需求，具备自主试验才气的 GUI 智能体，成为行业冲突增长瓶颈的新变量。

本次 AgentCLUE-Mobile 测评交出了一份理会的得益单：当下国内手机智能体赛说念梯队坚决固化，中兴凭借自研 27B 大模子与深度场景优化，率先站在商用门槛之上；智谱、阿里等玩家处于成长阶段，仍需补皆长链路试验短板；而纯视觉小模子阶梯际遇显然瓶颈。

关于通盘行业而言，这场测评敲响了警钟：AI 手机的竞争，早已不是 “有莫得大模子” 的主意之争，而是 “模子能不可用、用得好不好” 的落地之争。参数仅仅数字，架构、适配、工程才气、场景打磨，才是决定家具最终体验的中枢。

站在行业拐点之上，AI 手机大战才刚刚驱动。短期来看kaiyun网站，端云协同仍是主流，全面商用的家具将率先收割阛阓；长期来看，跟着端侧算力抓续升级、模子技巧抑止迭代，腹地部署的轻量化高性能智能体，或将成为最终形态。

kaiyun网站三款家具分差不足 8 分-开云(中国)Kaiyun·官方网站登录入口

热点资讯

相关资讯