更新时间:2026-01-21 05:43 来源:牛马见闻
支付宝GUI Agent在简GUI Agent绕过了应用对AI许可授权的过程
<p> </p> <p></p> <p> </p> <p>回看移动互联网?的爆发原点,苹)果的伟大之处不止于iPhone的硬件参数,更在于它通过App Store建立了一套契合用户需求的移动互联网的软件生态。</p> <p>借用历史视角回望,我们或能窥见未来“iPhone”的雏形。</p> <p>其软件价值是一种能繁荣Agent生态的聚合能力,其硬件形态也未必是手机,甚至可能是眼镜、头显、手表等其他智能终端。</p> <p>作者|妍旭</p> <p>出品|产业家</p> <p>从最初的“AI是不是噱头”,到“AI只是多了个语音助手”,再到“AI功能很酷,但并不常用”……在定义何为“真正的AI手机”这件事上,行业始终争论不休。</p> <p>但最近发生的几件事,把<strong>“AI手机未来该往哪走”</strong>这一问题推到了台前。</p> <p>一边是终端厂商的系统级融合。如字节豆包与中兴合作推出AI手机,试图将大模型作为底层原力注入硬件。再如向来奉行封闭生态的苹果,开始在系统级AI上向外“借脑”,和谷歌、微软等外部大模型合作,用于升级Siri及Apple Intelligence功能。</p> <p>另一边是应用巨头的“生态自建”。在腾讯2025年Q3财报电话会上,腾讯总裁刘炽平明确表示,微信会推出一个AI智能体(Agent),使它成为每位微信用户的个性化私人助理。</p> <p>1月15日,阿里旗下千问APP宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,用户通过语音或文字指令即可30秒完成跨平台复杂任务如点外卖、买东西、订机酒等。</p> <p>看似分散的诸多事件,共同指向一个极具张力的宏大猜想:手机这个终端,正在从一个“装满APP的屏幕”,进化为一个有自主性和感知决策能力的“AI入口”。</p> <p><strong>一、AI手机,路径分野</strong></p> <p>2023年10月,高通发布骁龙8Gen3,联发科推出天玑9300,NPU性能的暴涨让手机+AI大模型成为现实。Deepseek爆火带动生成式AI应用全面开花,C端用户的AI需求被彻底点燃。</p> <p>技术条件成熟,应用需求得到验证,AI手机也从概念走向规模化。IDC中国区总裁霍锦洁表示,2024年全球新一代AI手机出货量将达到1.7亿部,占智能手机整体出货量的15%。行业预计2026年全球AI手机渗透率将突破38%。</p> <p></p> <p>时至今日,围绕AI手机,业内已然分化出两条截然不同的演进路径。</p> <p><strong>一条是由操作系统或终端厂商主导的AI原生化,也就是我们常说的GUI Agent。</strong>它并不要求应用本身为AI做出改造,而是试图让AI像人一样理解、操作界面。</p> <p>豆包AI手机是GUI最为典型的落地样本。去年12月,豆包手机助手技术预览版发布,首次将“AI接管决策”这一设想在终端完整呈现。用户只需一句「帮我比价下单」,手机页面开始自动跳转、识别界面、点击按钮、领券、结算,全程不依赖任何官方接口。这种近乎拟人化的操作拓展了AI手机的想象边界,迅速在科技圈引发热烈讨论。</p> <p>魅族也是GUI路线的推崇者,它是国内最早提出“视觉一体化”概念的厂商之一。在去年5月最新发布的Flyme AIOS 2操作系统中,其搭载的“Task Robot”便是旨在由AI模拟人工在GUI界面上进行点击和操作。</p> <p></p> <p><strong>另一条是由应用巨头主导的业务AI化。</strong>它不依赖对人类操作行为的模拟,而是通过A2A(Agent to Agent)的方式,在应用内部拆解出可被调用的能力模块。各Agent之间通过统一协议直接交换数据、调用功能,从底层完成任务协作,绕过“看屏幕、点按钮”这一中间环节。</p> <p>阿里千问和未来将要推出的腾讯微信Agent便是这一路线的践行者。前者通过MCP+A2A的通用Agent体系,把淘宝、飞猪、支付宝、高德等拆成大量原子能力,接入“任务助理”;后者则被业界普遍预期,会把微信、企业微信、小程序等生态能力全面Agent化。</p> <p>对用户来说,只需一句自然语言指令,便可以触发跨搜索、社交、支付、出行等多业务协作,<strong>真正体现出“任务拆解+跨服务调用”的A2A精髓。</strong></p> <p>在刚刚结束的千问发布会上,这一路线的落地效果有了更直观的呈现。用户只需一句「帮我点40杯霸王茶姬的伯牙绝弦」,千问即可在不跳转页面的情况下完成选品、下单和支付,几分钟后奶茶送达;输入「春节带家人去三亚」或「帮我规划云南旅行」,千问则会联动飞猪和高德完成机票、酒店、行程规划及必要电话确认,实现“一句话,整套行程自动排好”;在政务和民生服务中,如用户问「杭州户口如何办理护照」,千问不仅能讲清政策和材料清单,还可直接给出线上办理入口,帮助用户少跑冤枉路。</p> <p>如千问C端事业群总裁吴嘉在发布会上所言,<strong>“AI在拥有超强大脑之后,开始长出了能够触达真实世界的手和脚,在生活中实实在在地替用户干活。”</strong></p> <p></p> <p>两条路线各有所长。GUI路线最大优势在于“无感兼容”,理论上,AI只要能看懂屏幕,就能直接完成操作,A2A由于是通过协议直接调用APP,其执行的精准度与响应速度远高于模拟点击,在效率和准确性上更优,也更适合交易、支付、履约等高价值、高风险场景。</p> <p>目前来看,两条路线虽然都撞上了既有APP生态的“柏林墙”,<strong>但GUI路线下,由于涉及更多系统级权限与隐私数据,相关风险更早暴露,落地过程中的摩擦与阻力也更加明显。</strong></p> <p>豆包手机限量发售后仅2-3天,微信、支付宝、美团、以及建行、农行等主流银行APP,便已经对豆包式的自动化操作做了不同程度的技术和风控限制:有的触发安全风控导致登录异常,有的直接识别并屏蔽此类“代操作”行为。</p> <p><strong>系统级AI的控制权,几乎是所有手机厂商都不愿外放的底牌</strong>,必须握在自己手中。这也导致豆包手机虽然在交互创新上给出了积极的探索,但短期内还是很难进入国内头部手机厂商的合作视野。</p> <p>所以我们会看到,华为、荣耀、小米等头部手机厂商一边对豆包助手在OS做系统层掐断(如权限拒绝),一边力推自家AI助手。华为升级“小艺”把智能体深度绑定进鸿蒙生态,小米以“超级小爱”承接系统级多模态交互与跨应用执行,荣耀则在发布会上让YOYO上演“一口气点2000杯咖啡”的花活儿,向用户展示出“系统级会动手”。</p> <p>某种程度上,这是手机厂商们在用“自有智能体”替代“外来总管”,展示出其既要占住AI入口,又要守住生态主导权的决心。</p> <p></p> <p>相比之下,虽然能预见的是,A2A同样绕不开不同应用厂商“商业授权”这道坎,却已是目前在局部范围内展现出的“最优解”。</p> <p>阿里千问系Agent或微信Agent,通过自有生态内的高频、高价值场景,验证A2A路线的技术可靠性,实现“小原生”,再以统一协议和成熟范式为样板,逐步对外开放接口,吸引更多第三方服务以“接入Agent网络”的方式走向“更大的原生”。</p> <p>据了解,吴嘉还在千问发布会后的采访中透露,<strong>“除了接入阿里生态,千问会在未来接入第三方的产品,这件事已在讨论中。”</strong></p> <p>至少在现阶段,这种从内部生长出来的秩序,比强行接管外部APP的GUI路线面临的阻力要更小。</p> <p><strong>二、可控性进化:</strong></p> <p><strong>AI手机的第一要义</strong></p> <p>从演进方向来看,GUI更像从更高一级调度层出发,“自上而下”统筹各类应用,A2A则像由业务自身先完成智能体改造,再逐步形成协作网络的“自下而上”。</p> <p>若论体验感,GUI路线明显更优,因为它更“未来”,用户很容易在演示场景中发现“Aha moment”。若论成熟度和稳定性,A2A路线有更大概率发展成可持续的基础能力,也符合AI手机的演进方向。</p> <p></p> <p>(豆包手机演示图)</p> <p>但这并不意味着两条路线必然走向对立。OPPO ColorOS智慧产品研发负责人姜昱辰就曾在采访中提到,“OPPO将采取差异化策略,针对社交、支付等高频使用场景,优先构建智能体间的直接通信协议;而对于低频长尾需求,则保留图形界面交互作为补充方案。”</p> <p>这背后,其实对应着两种截然不同的技术范式:AI是“模拟人做事”,还是“直接调用能力”。GUI Agent在简单场景下尚可奏效,但一旦涉及多步骤、多分支的复杂任务,稳定性就会下降。</p> <p>相比之下,当AI是从应用本身出发,完成从APP到Agent的升级,其基于工作流的进化和理解是循序渐进的,与之对应的是复杂任务成功率也会显著提升。由此可见,<strong>AI Agent竞争的核心,不止在于“能力有多强”,更在于“是否足够可控”。</strong></p> <p>真正的分水岭,出现在合规与责任界定。中国信通院牵头发布的《端云协同智能体交互双重授权安全指引》,重点提到了“构建由用户和应用双重授权的安全机制”,明确智能体AI<strong>“需同时获得应用授权与用户授权,才能合法访问第三方应用”。</strong></p> <p></p> <p>GUI Agent<strong>绕过了应用对AI许可授权的过程,</strong>一旦在支付、游戏、金融等场景出现损失或争议,就会面临责任归属的难题:这是用户“自作主张”的后果?是AI服务提供方的责任?还是应用方没有做好防护?<strong>在没有“用户+应用双重授权”的前提下,很难建立一套各方都认可的责任与合规框架。</strong></p> <p>隐私与数据安全,进一步放大了GUI路线的风险。为了跨APP代操作,GUI Agent 往往需要使用诸如READ_FRAME_BUFFER、INJECT_EVENTS 这类系统级敏感权限,直接读取屏幕画面、模拟点击与输入。</p> <p>对普通用户而言,这等价于把自己的聊天记录、支付页面、验证码输入、银行余额,一次性暴露给一个“看不见的助手”。即便产品方声称“数据不上云”“截图不存储”,用户也很难真正理解数据在本地和云端之间的流动路径,信任门槛非常高。</p> <p><strong>这种担忧并非用户的“技术焦虑”,而是已经在行业内部被反复讨论的现实风险。</strong>中国信通院数安智库专家曾令平接受媒体采访时坦言,系统级AI确实存在多重风险。</p> <p>“顶格的系统权限如同开‘后门’,可读取屏幕上的所有信息,包括各种隐私数据;模拟点击功能可能被恶意利用,威胁资金安全;部分厂商权限开通不透明,责任划分模糊,也会放大安全隐患。”</p> <p>从现实反馈来看,监管与头部平台对这种可能“越权”的系统级能力始终保持高度警惕。一旦允许某个外部智能体在屏幕层面对金融操作、登录验证进行自动化处理,从技术上就必须假设:<strong>只要有权限,就存在被恶意滥用、被中间人攻击或被其他恶意程序劫持的可能。</strong>这也是为何在豆包手机助手的测试阶段,银行、支付类应用的自动化能力很快就被主动收缩和下线。</p> <p></p> <p>(OWASP(开放全球应用安全项目)发布的《2026年智能体应用安全十大风险》“身份与权限滥用”是十大风险之一)</p> <p>与之对应,A2A路线在设计之初便明确区分了角色边界:<strong>人是决策主体,AI负责执行和优化。</strong>用户负责给出目标与偏好,主Agent拆解任务并规划步骤,子Agent则在各自业务域内,调用经过应用方授权和封装的能力,在可控边界内协同完成任务。</p> <p><strong>在这一过程中,“用户授权”和“应用授权”被天然地绑定在一起</strong>:应用方通过协议公开哪些能力可以被智能体调用、调用频率如何限制、涉及哪些数据字段,这构成了“应用授权”的硬边界,也让用户更容易理解AI的能力范围。</p> <p>与此同时,用户会在具体场景里授权某个Agent代表自己调用这些能力,并在关键决策节点给予确认。</p> <p><strong>AI提出建议,人来拍板,最终由业务方按照协议执行。</strong>既降低了对系统级高权限的依赖,也将隐私与责任问题拆解到更细粒度的接口与交互之中,更易被监管接受,也便于平台审计。</p> <p>如果再把时间周期拉长,<strong>A2A更等同于搭建了一个有APP安全和数据安全协议底层的“超级Agent”。</strong></p> <p>它的进化方式并非推翻现有生态,而是基于既有的用户行为逻辑,在保留现阶段软件生态、APP生态基础和商业价值生态的基础之上,向AI迈出一步,为C端用户提供一种有真实体感的“体验附加项”。</p> <p>这也更符合近两年被频繁提及的“人本智能(Human-Centered AI)”理念,即<strong>AI的核心价值并非取代人,</strong>而是在安全、可控的边界内,承接人的目标与责任,把技术能力转化为对教育、医疗等普惠场景的真实改善。</p> <p></p> <p>当然,A2A路线也并非全无挑战,随着千问、微信等超级Agent继续向前演进,超级Agent之间如何打通协作,不同生态中谁作为主Agent、谁作为子Agent,以及底层模型之间的语义差异等等,都是绕不开的问题。</p> <p>试想一下,未来的某一天,你让淘宝Agent负责采购野餐装备,同时调用美团Agent订附近的下午茶。但在两个Agent的“对话”中,两者对“即时送达”的理解并不一致——淘宝认为是“当天可送”,而美团默认的是“30分钟内送达”。</p> <p>结果在协商配送时间时,系统给出了一个双方都无法兑现的承诺:本该“无货”的商品,被包装成了“换个口味即可立刻送达”,最终导致订单失败,用户白等一场。</p> <p>但博弈往往是新秩序的前奏,就像过去二十年,互联网依赖HTTP、TCP/IP这样的底层共识运行,随着技术革新的深化,不排除未来政策或行业层面可能出现“超级Agent to超级Agent”的公共协议。到那时,<strong>AI手机才真正推开了通往全能交互的大门。</strong></p> <p><strong>三、终极猜想:寻找AI时代的「iPhone」</strong></p> <p>如果说移动互联网时代的核心产品逻辑,是“以APP为中心组织服务”,那么AI时代正在浮现的,是一个以Agent为中心重构产品、生态与用户体验的新范式。</p> <p>回看移动互联网的爆发原点,苹果的伟大之处不止于iPhone的硬件参数,更在于它通过App Store建立了一套契合用户需求的移动互联网的软件生态。</p> <p>借用历史视角回望,我们或能窥见未来“iPhone”的雏形。</p> <p><strong>其软件价值是一种能繁荣Agent生态的聚合能力,其硬件形态也未必是手机,甚至可能是眼镜、头显、手表等其他智能终端。</strong></p> <p>当应用不再是静止的图标,而是以Agent的形式流动起来时,AI的角色也随之发生改变。它不再只是提升点击效率的辅助工具,而是开始真正介入并重塑价值创造的核心环节。</p> <p>当AI Agent成为连接用户与服务的核心入口,竞争的焦点也不再是“谁占据了用户更多时间”,而是谁更高效地完成了用户的真实需求——<strong>“流量”从“时间占有”升级为“需求满足”</strong>。</p> <p>事实上,Agent从“工具”进化为“服务主体”已逐渐成为业内共识。微软CEO萨提亚·纳德拉在微软Build 2025开发者大会上提到,AI不只是协作工具,更是可被信赖的数字同事,能够独立思考、执行任务。</p> <p>OpenAI CEO萨姆·奥特曼也在2025年的访谈中提到,AI正在经历从“推理引擎”到“个人代理(Personal Agent)”的跨越。</p> <p>当用户选择某个Agent,本质上是在选择一个能代替自己做决策的“智能服务商”。这也对未来的AI终端提出了更高要求:它不仅要理解指令,更要理解用户背后的利益边界、风险偏好与决策底线。</p> <p>因此,无论是AI手机,还是未来可能出现的其他AI终端,本质上都是AI Agent的硬件载体,而非Agent本身。其核心演进逻辑,都应遵循“人本位”原则,<strong>即AI不应越俎代庖代替人类做决策。</strong></p> <p>这一判断,也与另一个正在显现的大趋势相呼应——AI时代,价值将更加集中地体现为企业可被Agent调用和放大的核心能力,比如阿里、京东的电商履约,比如腾讯的社交关系链等等,都被转化为一个明确的AI价值符号,最终这些符号进行排列组合,企业之间不断聚合协同,<strong>形成更极致的终极AGI产品。</strong></p> <p>近期国家市场监管总局对外卖行业巨头及携程的约谈,释放出一个清晰信号:协同聚合是符合社会价值的,平台“通吃”单打独斗反而会带来更大的用户和商业风险。</p> <p>这意味着,未来的“终端霸主”,需在商业变现、生态公平之间找到最优用户需求价值,和最优社会稳定价值的平衡点。</p> <p>虽道阻且长,但沸腾推动进步,我们或许仍无法准确描绘AI时代「iPhone」的最终形态,但可以确信的是——它一定诞生于Agent生态真正繁荣、协同而非通吃成为共识的那一刻。</p> <p></p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901