t的两种范式:API与GUI【国盛计算机】手机Agen
决策与规划▷★=◇◁:推理链与任务拆解以及执行过程中的动态规划▽◇:理解屏幕后•▼▷★,Agent需要规划行动…▷。例如面对●◁•■◇“帮我点一杯拿铁☆▽▷-”这样的指令…○=▲,我们认为Agent可能会将其拆解为子任务序列▼…△:打开App - 搜索咖啡 - 选择规格- 下单■…,Agent每执行一步◆☆▷…-□,都要动态观察当前屏幕状态决定下一步行动•□,例如点击下单后△▷◇■,可能弹出一个优惠券…△★◇▷,也可能提示售罄▼…•●。案例▲◆:智谱AutoGLM
GUI范式★◁•=▽:模拟人类的感知与操作○◇…。利用多模态模型看懂屏幕上的UI元素▪•△,利用系统辅助服务模拟手指的点击与滑动-●☆▽。这一路线不依赖开发者的配合◁△◁,试图以通用的视觉能力•-△“暴力▲☆”打通所有应用◆☆-●。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋▪▽▲。
App自身也在Agent化◁•。在腾讯2025年第三季度财报电话会上▽▼…◇▪▷,腾讯总裁刘炽平披露微信AI化战略▼◁▼,明确表示▽•…-◁▪“微信最终会推出一个AI智能体●◆”•○-▪…▽,让用户在生态内即可完成从需求理解到服务交付的全流程=••-•□。淘宝也在尝试通过■▲◁“问问▲◁▽•”等功能=△,在App内实现自然语言导购☆●••◇。
大模型等厂商的愿景是打造一个全能的App(如ChatGPT▲△、豆包)=▽•。用户在这个App里通过对话完成所有需求◇……。可以理解为想把将其他App变成自己的后端数据库和工具▼▼。
Agent▼■••★☆:谷歌=■▽●□、阿里巴巴□◁▲、腾讯控股◁▪•◆、阜博集团●•▲◆、广立微▲▲▽、第四范式◇▪、360☆■、汇量科技○=◇、金蝶国际□▷•△□▼、拓尔思•▽-▷•、合合信息△=◁•☆、税友股份■▲◁◆、新致软件△○、金桥信息▷•、快手▷★=、美图公司●★、鼎捷数智▲●○★、慧辰股份□•■▪◆=、嘉和美康○…=▷••、海天瑞声★■、泛微网络☆-◆☆▲●、朗新集团■▲★◆、润达医疗●◇◆-…◇、壹网壹创•-◆、万兴科技■…、用友网络★•、麦迪科技=•▽、宇信科技●■、京北方▪◇▼▽★、中科金财◁▲▪=○、致远互联▼●◆□◁、汉得信息▷□▲、软通动力■▽☆、光云科技◁◆、上海钢联□◆、同花顺□▼…▷▽▲、信雅达•=◇△、萤石网络▼▪●、迪安诊断=▪△▽△○、中科金财=●□•、恒生电子○◇▷◇、星环科技◇■•…★、卫宁健康▽…△▪、创业慧康○●△-、科大讯飞…◆、万兴科技▷●▽○、创业黑马▪-、迈富时▷▪、小商品城-▼、金证股份◁■★、顶点软件◁▽、朗新集团□◁••-、晶泰控股▷□、佳发教育☆☆◇△▽☆、新大陆◇◆…■、新开普等○●。
具体分析详见2025年12月7日发布的报告《手机Agent的两种范式○…:API与GUI》
手机Agent的兴起意味着移动互联网流量的重新洗牌…◁▷,手机厂商▼▲▪=■○、大模型厂商和应用厂商三方势力将展开复杂的博弈◇-▪▼。手机厂商▽▷▷•=:从硬件售卖到获取流量入口的价值
苹果等厂商试图在应用之上构建一层▼▽=“语义互联网◇■”•▷■-◁,将App内的功能原子化◁▪★-,供AI调遣…△◇◁•●,这需要应用开发者配合接入-●■。
2025年12月1日□☆,字节发布豆包手机助手预览版●●。这是一个面向手机厂商的系统级服务▽▲★,它将豆包大模型深度融入操作系统-■,让用户只需动嘴(或动一下手指)◇•○▼□,就能指挥手机去执行那些原本需要点击几十次屏幕的繁琐操作▽…▪■。功能包括跨平台比价点外卖▲▲◆、搜小红书做攻略等▲…△。豆包手机助手的主力研发团队◇-★,是字节负责 AI 硬件的 Ocean▷=▽○,它隶属于字节 AI 产品大部门 Flow◆☆•,主要成员来自字节多年来先后收购的一些硬件产品团队●◁■…◆,如锤子手机★-▷▼☆-、VR 头显 PICO◁◇▪•▷▪、智能耳机 Ola Dance 等▪◇▷,以及近年加入字节的手机★◆、硬件从业者…▼◆★▼。这款豆包与中兴合作的手机已在豆包手机助手官网及中兴商城上架◁◆▼-◆●,售价 3499 元…●☆•△…。这款手机只是豆包手机助手的 ☆▪•“打样-▽◆□-○”●…。字节正和多家手机厂商谈合作☆=。
2025年8月20日•▼△☆■,北京AI公司-▽=“智谱 AI▽◆▽”宣布…==,去年发布的全球首个可自主操作手机的智能体产品AutoGLM再次升级☆▼★▷★,推出AutoGLM2▽△★◁.0▷=◇▼,并迈出更具历史意义的一步——首次面向公众全面开放=▷•★,无需邀请码即可使用▲□。此次发布的AutoGLM2=•▼▲□◁.0被定位为△•□★◁=“执行型助手▲▷”▷•。 在生活场景中△◆…,用户一句话即可让AutoGLM操作抖音◁◁•○、小红书•△●△●■、美团-▪…、京东等40余款应用◆-▲▲▼,完成点餐▪••●…、订票△■★▼▷◇、查房▪-▷◆■◆、预约等服务△△。在办公场景中▪☆▷,它也能跨应用执行完整流程■◇☆◆,从检索资料到撰写文稿▽•◆,再到生成视频▷☆•…、PPT或播客■☆-•I【国盛计算机】手机Agen,并直接完成发布•▽▽■。
API范式的挑战在于不同开发者对同一个功能的定义可能千差万别◆▲★…。为了解决这个问题●○▽▪,苹果提供了多个助手架构(Assistant Schema)=▼☆◆○○,每个架构都对应不同的内容领域(例如浏览器-■★△▲、文档阅读器▼••=☆○、文件管理等)◁▽□▽。这些架构帮助 Siri 根据内容的类型提供定制化的响应◇○▲□☆。助手架构可以理解为一组标准化的○□“模板▼●◇”▪▼•,Apple 设计这些模板是为了帮助 Siri 识别应用的具体功能★★…▲◆▼。比如开发者的应用是图片管理类的●…▲▽▪,那么使用photos◁▽■•▼★.openAsset这样的架构▲○,可以让Siri理解要展示一张照片▪●■。
用户通过点击图标进入特定的应用环境▼•○▽,用户在不同App间切换▲●★=◁、寻找功能入口▲▼、手动搬运数据的成本显著上升…▽▪◁。业界目前有两条不同的技术路线☆•▽•★:GUI范式▷•●•★◁:利用多模态模型看懂屏幕上的UI元素=▽★=•◆,移动交互范式的跃迁★▼●•。利用系统辅助服务模拟手指的点击与滑动★•□=。手机Agent◆★○★□■,
API范式…=▲◆●□:建立标准化的语义接口○•◆…,App开发者主动适配并暴露相应功能◇▷-★▼。Agent通过结构化的API调用来指挥App执行任务□●•☆◆◆,以苹果的Apple Intelligence及其App Intents框架为典型代表◆•▽。
在与中兴努比亚(Nubia Z60 Ultra)的合作中•▼,豆包助手被整合进系统底层▼▲☆…▪□。通过长按侧边键唤醒•☆•,豆包可以直接获取系统底层的屏幕缓冲区数据☆▽△■□▲,无需通过Accessibility服务的截屏接口☆▪-=◁,大大降低了延迟☆▼△◁◇。
自动驾驶☆▷:江淮汽车◁▲△•、赛力斯==□▽、小鹏汽车=☆◆=◇◆、理想汽车●▼★◁▽、禾赛●•◁★•、地平线▼▲、世运电路等◇•■▼。
商业形态演变▲▷•◆…:三方博弈与生态重构■◇。手机Agent的兴起意味着移动互联网流量的重新洗牌○○☆★,手机厂商-●▲★▪、大模型厂商和应用厂商三方势力将展开复杂的博弈-▽◁。手机厂商有望从硬件售卖进一步获取流量入口的价值▲-☆△,OS成为了用户意图的第一接收者▼•○▲▷◆。类似于搜索广告可能演变成一种新的竞价模式▽-☆○。大模型厂商的愿景是打造一个全能的App(如ChatGPT◇▪、豆包)△◆。用户在这个App里通过对话完成所有需求•☆◁…。把将其他App变成自己的后端数据库和工具◁▽-=▲。大模型厂商会积极寻求与二线手机厂商合作△☆★★。字节跳动与中兴的合作就是典型案例-▽◁◆◇。应用厂商▼☆◆•,一方面可能与手机/模型厂商合作==△…,开放部分能力接口•★-;另一方面•▽◇,为保护自身利益=☆◇▼,也可能拒绝或限制Agent的接入▷★•▷▪▪。Agent的授权边界是需要进一步划分的法律问题○◁▪▼□•。App自身也在Agent化•○■▷,例如微信最终会推出一个AI智能体☆▪,淘宝也在尝试通过★▪“问问•▽•◇▲●”等功能在App内实现自然语言导购•◁▷☆。我们认为手机Agent的发展不会是API或GUI的单选题-■◁□▲,对于高价值▲…、涉及敏感数据的操作(如支付●••、通讯★•◇☆、核心业务流)=▲=,API Agent有更高的准确度和隐私保护◆◁。对于只读••、信息查询类的需求=…••▽,以及API尚未覆盖的应用-◁▼◆,GUI Agent通过视觉理解的方式运行可以更灵活通用▲■。为了解决延迟和隐私问题-•,未来的手机处理器预计还将进一步优化视觉模型的推理能力○○,使GUI识别和决策在端侧完成●☆△,不再上传云端▼▷。
核心差异对比=▽▼◁,API Agent与GUI Agent各有千秋▼◆▪★。对比了两种范式的技术路线差异●☆◆=…★,GUI Agent的核心优势在于通用性高•▽▲,在可靠性◆■▼▪◆▼、性能□•▼=、隐私风险角度则是API Agent更胜一筹☆△▷。1)通用性▼◇◁●…: GUI Agent的通用性显著更高■▽○•■-,这是核心优势==▲,不需要App 开发者进行适配•=。理论上只要是人类能够使用的 App◆=□■◁□,GUI-Agent 都能使用◆…☆▽▼。解决了应用覆盖率的问题☆▽▲•★◆,新功能或未暴露功能的适配度也更高◁•○…•。2)可靠性……;GUI Agent的可靠性仍然较低▲△▷。原因包括模型对复杂界面的识别能力还达不到百分百=•●;需要多步骤模拟用户操作▼★○△□,整体任务失败率更高=▲;UI 改版时容易失效…•■▪。3)性能•▽◇★:API Agent 可以一次调用完成复杂任务…◁▽◆,后端直接驱动执行效率高▽▷=△。GUI Agent性能较低▼◁■=•-,完成简单任务可能需要多次截图分析-■、视觉推理等复杂计算△■★◁☆■,算力消耗更大□▪▼…◁★。截图上传到云端模型时☆▽,数据量通常高于API传输参数•…■★,延迟也更高=□。4)隐私风险□◁■▲▪:API-Agent 的应用端后台可进行精细的数据和权限管理…■○,权限边界清晰-●■=。GUI-Agent 的隐私风险较高◆●●。它需要读取屏幕内容◁…=▽,容易暴露聊天记录-△▽、密码★★▷•○▲、验证码等敏感信息•★•-。除了技术问题◁=△◆▪,商业阻力上我们认为GUI Agent不经过授权•=▽◁▽,更容易受到应用厂商的抵触•-▽▷-◁。
Agent-■●:谷歌☆•▪=•、阿里巴巴◇▷■、腾讯控股▽…、阜博集团▲=◇◆-、广立微▪□▽•▲◁、第四范式○=、360▲-☆□★○、汇量科技▽★▲、金蝶国际▷◁▪☆▼、拓尔思◇○-◁、合合信息•◇=•、税友股份▽■▲□▲、新致软件○■、金桥信息□•-▼、快手•▲▪□▪★、美图公司△◁▷-△、鼎捷数智▽◇◆、慧辰股份◇•-▲●■、嘉和美康▲=▽▪、海天瑞声=◆、泛微网络◁△…▷、朗新集团•○、润达医疗▪●◆、壹网壹创★•○▷…、万兴科技•■-•=•、用友网络▪=-、麦迪科技◇★▽☆☆、宇信科技•▼▲、京北方●-●=☆、中科金财☆▽▪▪、致远互联△■▲=、汉得信息▲△=○☆、软通动力▷▽▲■△△、光云科技◁○■◇•◆、上海钢联-…■△•△、同花顺…■、信雅达▪▪…、萤石网络△◇、迪安诊断□◆▪、中科金财▼☆、恒生电子○•=●◁□、星环科技☆▽▷▪•、卫宁健康-☆、创业慧康▷▷□•、科大讯飞-△■、万兴科技▷▪☆▪、创业黑马◇☆▪▪、迈富时•▲★、小商品城▽▲•○◁、金证股份○★、顶点软件□•☆▼•▽、朗新集团△○、晶泰控股•☆◁▲▪、佳发教育•◆、新大陆●■□、新开普等■-●▼。
API Agent☆…:腾讯控股▷◁▷、阿里巴巴■-△□▽•、谷歌◆▪。算力▽☆:寒武纪△…□、海光信息=▽■◁、东阳光…◆•◇、神州数码▷■、新易盛★○▪…◁、中际旭创◁●▷☆◇、中芯国际▼□☆■○、华虹半导体▲■●、胜宏科技○◆◆▪、品高股份▽○◁▼-■、鸿腾精密★▽、有方科技▲●■▽◇▲、协创数据★…◆-▪、沪电股份●▪◇△、兴森科技…▪◆■▲、中科曙光★◆▲●、浪潮信息▼▷-、东山精密●▪▽▪▼、云天励飞-△▼-□△、伟仕佳杰•★•-、宏景科技◇☆、中芯国际▼☆▪▲•、奥飞数据△▽▼、云赛智联=◇=、科华数据▽★□★…■、禾盛新材◆•-、潍柴重机▲•、金山云=■◇○▷▪、浙数文化◁○▽•▷△、青云▪▽、大位科技▪▼□、玉柴国际◇●☆□■◁、亿田智能■▪•▽◇、弘信电子=◇★□、圣阳股份★▪☆★■◆、润泽科技▽▲◆•○、润建股份▽-、深桑达◇▪、优刻得■□▷、云从科技=☆•▪▷•、太极股份☆•-◁◆、数据港●▲★◁▷☆、首都在线●•-◇★▪。
依靠视觉和手动点击来完成任务○▽◇◆◆。则对产业链相关公司会造成一定不利影响■▽…▪★○。随着应用数量的增长和功能的堆叠●□◆●,这一路线不依赖开发者的配合■••☆,而是通过模拟人类的视觉和触觉来操作手机▪=▲。技术迭代不及预期风险▷○▲●▪:若技术迭代不及预期□=,如何在碎片化的移动生态中让AI跨越应用围墙执行任务◁◆★▲,随着大模型的突破性进展=△…☆☆-。GUI范式是不寻求App开发者的配合…▷,手机Agent便负责将意图转化为具体的执行步骤并交付结果○◁=◁=!
对于App厂商■=▽★●,一方面可能与手机/模型厂商合作▼▽▽◇,开放部分能力接口▲▲△;另一方面◇=,为保护自身利益▪◁▽☆-▷,也可能拒绝或限制Agent的接入•●▷-。
展望未来◇△●,我们认为手机Agent的发展不会是API或GUI的单选题◆…▽◆,而是两者的融合◇△◁。对于高价值◇◁△、涉及敏感数据的操作(如支付▷▷、通讯☆□▷■•▽、核心业务流)□▽○◁▲,APIAgent有更高的准确度和隐私保护•◁◁t的两种范式:API与GU。对于只读▽△△◆■、信息查询类的需求•☆○■★=,以及API尚未覆盖的应用▽▽,GUI Agent通过视觉理解的方式运行可以更灵活通用◁…•○•。为了解决延迟和隐私问题◆◇▼,未来的手机处理器预计还将进一步优化视觉模型的推理能力▲◁,使GUI识别和决策在端侧完成◇☆,不再上传云端☆■=▪●。

自动驾驶-▽▪=▷:江淮汽车□-、赛力斯▼☆、小鹏汽车△●▼、理想汽车■▷-▷▷、禾赛◇☆△、地平线•▪、世运电路等▪•★▷□。
在App时代▼☆•☆▽,用户打开手机直接点击App▷☆◇▼★□,OS只是一层启动器▼▪▪•◁☆。在Agent时代☆▽▷,用户直接告诉OS○▲“我要打车••…▽■●”◇…◇◁,OS决定唤起哪个App○=。OS成为了意图的第一接收者▽=。类似于搜索广告•◁。当用户表达订酒店意图时◆☆…,携程▪☆□▲、飞猪…△◆、美团谁排在第一位◁=?这可能演变成一种新的竞价模式▲○▷。

苹果推出的Apple Intelligence其核心并非仅仅是一个更聪明的Siri…•,而是一套深度的系统级集成框架——App Intents(应用意图)-▲★■。为了让 Siri 更好地理解开发者的应用并实现更流畅的对话式交互○○○◇▲▲,开发者需要选择与应用功能相匹配的域和模式•◆--▪•,开发者通过使应用意图○…◇★、应用实体或应用枚举符合模式◁…★●,确保 Apple Intelligence 能够理解应用的操作和内容★☆=。
如何在封闭且碎片化的移动操作系统中▽…,让AI跨越应用围墙执行任务◇☆?业界逐渐分化出两条不同的技术路线★▼▽:
自触控屏幕开启移动互联网黄金时代以来★…▽,图形用户界面(GUI)一直是人机交互的绝对主导△▼●▪。在这一范式下=••-◆☆,App被设计为一个个独立的孤岛▼▷,用户通过点击图标进入特定的应用环境▲…-□,依靠视觉和手动点击来完成任务◇○。这种以应用为中心的交互模式随着应用数量的增长和功能的堆叠□…△▲,用户在不同App间切换=○○▷△、寻找功能入口◇▷•★=、手动搬运数据的成本显著上升-■▼●。随着大模型的突破性进展▲●▽□●△,移动交互范式正处于跃迁的前夜◁△□:从GUI交互向Agentic交互演进•-。用户只需通过自然语言表达想做什么☆▷,手机Agent便负责将意图转化为具体的执行步骤并交付结果…★☆▼。
字节跳动与中兴的合作就是典型案例◆▲。App被设计为一个个独立的孤岛…--□••,智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋▼▽●?
对外经济贸易大学法学院教授-●、数字经济与法律创新研究中心主任许可介绍了发生在美国的Perplexity案▼=◇▪□。该案中△-,被告Perplexity是一家AI公司◁□…★◇☆,其通过亚马逊付费会员账号帮助用户购物□◆=▲,被亚马逊指控违法并给自身造成商业损失△…。Perplexity则主张自己是◁=…◇▲“用户授权的代理人■◁”◆•○▪,认为亚马逊的指控是一种霸凌▷○□●=。许可指出★▷☆■▲▷,该案核心争议反映了一种法律困境●•■■◁:AI助手声称是用户权利延伸□◁◆◆,但平台认为其行为破坏了商业生态和安全秩序◇△。●◆“在很多情况下◆○■■▽,用户权益和平台权益都需要考虑=…▽▽,需要双重授权甚至多重授权□▼•▲•■。◇◇”许可说▪••▼。
特别声明▷▽△▷-○:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施○▼☆◆☆★。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者••-▼。请勿对本资料进行任何形式的转发◆●☆。若您非国盛证券客户中的专业投资者★□=•◆,为保证服务质量▲▪▽■…、控制投资风险☆▲▷•□,请取消关注▪●◇▽◆,请勿订阅▷•=、接受或使用本资料中的任何信息◆▼▪。因本订阅号难以设置访问权限★☆,若给您造成不便◆=◁▲•□,烦请谅解■▼◆!感谢您给予的理解和配合○◇•-。
重要声明◇★▲••:本订阅号是国盛证券计算机团队设立的■◇◁▪□。本订阅号不是国盛计算机团队研究报告的发布平台•★▪。本订阅号所载的信息仅面向专业投资机构○▪▲★★,仅供在新媒体背景下研究观点的及时交流=•○★。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读•★…◆,若因对报告的摘编而产生歧义△•▷★,应以报告发布当日的完整内容为准◇•○。本资料仅代表报告发布当日的判断•▲▲•★☆,相关的分析意见及推测可在不发出通知的情形下做出更改□•=■●▽,读者参考时还须及时跟踪后续最新的研究进展□•。
本资料不构成对具体证券在具体价位▼◆、具体时点●◇◁◆、具体市场表现的判断或投资建议=▲□★,不能够等同于指导具体投资的操作性意见△=■☆-,普通的个人投资者若使用本资料★☆-,有可能会因缺乏解读服务而对报告中的关键假设○=◁、评级•◆、目标价等内容产生理解上的歧义○…,进而造成投资损失◇…▷☆=。因此个人投资者还须寻求专业投资顾问的指导◇=□•▪▽。本资料仅供参考之用■□☆,接收人不应单纯依靠本资料的信息而取代自身的独立判断•◆•☆★▽,应自主作出投资决策并自行承担投资风险◁•◁◇★☆。
豆包手机助手引发了作App的抗拒▽◁•▪。据上观报道□◁☆○,12月3日☆△▽=▲◁,多位网友在社交平台上反馈★▽△-●,搭载豆包助手的努比亚M153工程机登录微信时★▷•••,页面弹出-▲◁“登录环境异常•○•☆▲,需更换设备重新登录◇★◁”的警告■◁△•○■。部分用户更换账号后虽能临时登录=△☆•●,但传输聊天记录时再次被强制下线•▪○◇△◇。更关键的是▲▲△▽,若通过豆包助手操作微信功能(如发送消息)◆=,系统直接提示△▲▷☆◆▽“任务失败•○▪●○”▽☆●●▷○,并标注◆…○•“实验室功能暂不支持微信操作◁△▷▽○◆”▪◇▲•▽▽。此外★▷•▽△•,12月3日上午…▷-△◆…,还有部分使用…•□“豆包AI手机▷◇▷…”的用户反馈◁☆◆△,因使用豆包手机助手操作微信▽•◁◁,微信账号被封禁了▪▼▲•★△。中午12时左右=▷◇▲▷▲,被封禁的微信陆续被解封•▽△◁,可以正常登陆▪△,但无法使用豆包助手进行微信上的自动化操作•☆=▪。另据网友在社交媒体上反馈-▼,自己在使用豆包AI手机助手的时候遭到了农行-▼▲◁●▼、建行等APP内的强弹窗提醒■▼□▲☆○,要求关闭豆包AI手机助手后再进行使用◆=•▪。
行业竞争加剧风险▼▼□=:若相关企业加快技术迭代和应用布局■•▽◁…▲,整体行业竞争程度加剧▪●•◇▼,将会对目前行业内企业的增长产生威胁…▷◇◆□。
API范式◁=…□●:建立标准化的语义接口◇○•••□。操作系统或平台厂商定义一套通用的意图接口(如▷▼•“订票○▽”●▼、…☆▪“发送消息△•…■…◇”)▷●▼…☆,App开发者主动适配并暴露相应功能•▷◆■。Agent通过结构化的API调用来指挥App执行任务▼••◆。这一路线以苹果的Apple Intelligence及其App Intents框架为典型代表▼▪◁,强调生态的有序整合与隐私安全•……★。
今年10月谷歌在安卓开发者博客表示-▷•◇=○,开发者可以利用新的Prompt API构建自己的自定义生成式AI功能▼-▲=。今年五月的I/O大会上○▽•□,谷歌推出了基于Gemini Nano模型的设备生成式人工智能API▲…△★★★,通过简单的API简化了摘要◇△、校对和图片描述等任务■▷◇=,使常见任务变得更简单●◆△。
API Agent=▪•-:腾讯控股•△△★、阿里巴巴★=▲▲☆▽、谷歌算力■…:寒武纪◇◇○…▷◁、海光信息●▲◁、东阳光▽●•□☆、神州数码•▷▽=、新易盛•◆▲•-、中际旭创☆•、中芯国际▷=☆…○◁、华虹半导体△□…○●•、胜宏科技◆▲◇▷◁、品高股份▷▲☆▼、鸿腾精密▷★…=、有方科技●☆▪…•、协创数据★…★■、沪电股份▲△◆•、兴森科技△□•●•、中科曙光●•■、浪潮信息▽☆…•☆、东山精密▼◇--★、云天励飞◇•●、伟仕佳杰▷■◆▼、宏景科技☆▲、中芯国际▽●●▷、奥飞数据-◁、云赛智联□▷◇•、科华数据◆△、禾盛新材□◆、潍柴重机•◆、金山云■▪-、浙数文化▪◁、青云▼★▪▽◇、大位科技◁◁、玉柴国际★◇△-★、亿田智能☆▽▲○★•、弘信电子▪…、圣阳股份…☆、润泽科技-☆、润建股份◆☆▽•、深桑达▪☆、优刻得…★◇▪、云从科技=■□、太极股份▽▲•■、数据港▲●…☆□、首都在线●◆▲▽。
GUI Agent首先需要☆△▷“理解▼★●”屏幕▽•▪◇。这主要依赖于大模型的多模态理解能力▲▷▲,这方面能力上领先模型厂商不断突破•◆•▽,近期谷歌发布的Gemini 3 Pro的多模态理解能力就大幅进步▪=▽: 模型能够处理和理解文本▼◁●■■-、图像☆○、视频▽•▽◆◇、音频乃至代码等多种模态的数据▪•◁○◇△,并在这些复杂数据之间进行推理▼☆○★•☆,达到了前所未有的细致程度▲○。Gemini 3 Pro在Screen UnderStanding任务方面表现尤其出色=◆,在ScreenShot-Pro评测基准得分72▷◆□.7%★○◁▪,大幅领先Claude Sonnet 4=•△□.5(36-○▼.2%)和GPT 5○◁•◇.1(3•☆.5%)◆◁。
根据以上对API Agent和GUI Agent技术路线的分析◇◆,我们对比了两种范式的差异□□,GUI Agent的核心优势在于通用性高★◆▼▼◁◇,在可靠性=•▪○○、性能=☆▪▼○、隐私风险角度则是API Agent更胜一筹●★★。除了技术问题○••,商业阻力上我们认为GUI Agent更容易受到应用厂商的抵触•△○◆◁=。


合纵连横◇◆……:为了获得系统级权限▪▼◇•□,自触控屏幕开启移动互联网黄金时代以来•□=△,大模型厂商积极寻求与二线手机厂商合作▽▲◆。用户只需通过自然语言表达想做什么•-▽★●▼,应用厂商…▲•◇:数据护城河的保卫战移动交互范式正处于跃迁的前夜◇△▷:从GUI交互向Agentic交互演进▷-△☆☆。试图以通用的视觉能力★…●◆•◆“暴力★▽▽•”打通所有应用▲△●☆○。




