Google发布了一篇研究论文,阐述了如何从用户交互中提取用户意图,并将其用于自主代理。他们发现的方法使用设备端小型模型,无需将数据发送回Google,从而保护用户隐私。
Google研究人员发现可以通过将该问题拆分为两个任务来解决问题,解决方案甚至超越了大型数据中心中多模态大型语言模型 (MLLM) 的基础性能。
1、浏览器和设备上的小型模型
Google此项研究的重点在于通过用户在移动设备或浏览器上执行的一系列操作来识别用户意图,同时将这些信息保留在设备上,避免任何信息被发送回Google,并且处理过程必须在设备上进行。
分两个阶段实现了这一目标。
- 第一阶段,设备上的模型总结用户正在执行的操作;
- 第二阶段,将一系列总结结果发送给第二个模型,以识别用户意图。
研究人员解释说(译):
“……我们的两阶段方法在性能上优于小型模型和最先进的大型多模态语言模型 (MLLM),且不受数据集和模型类型的影响。
我们的方法还能自然地处理传统监督式微调方法难以应对的噪声数据场景。”
2、从用户界面交互中提取意图
从用户交互的屏幕截图和文本描述中提取意图是 2025 年提出的一种使用多模态大型语言模型 (MLLM) 的技术。Google研究人员表示,他们采用了类似的方法来解决这个问题,但使用了改进的提示。
Google研究人员解释说,提取用户意图并非易事,而且在提取过程中可能会出现多种错误。他们用“轨迹”一词来描述用户在移动或网页应用中的操作路径,即一系列交互。
用户路径(轨迹)被转化为一个公式,其中每个交互步骤都包含两部分:
- 观察(Observation):用户在该步骤中屏幕的视觉状态(屏幕截图);
- 操作(Action):用户在该屏幕上执行的具体操作(例如点击按钮、输入文本或点击链接)。
描述了成功提取意图的三个特点:
- 忠实:仅描述轨迹中实际发生的情况;
- 全面:提供重现用户路径所需的所有信息;
- 相关:不包含超出全面性所需的无关信息。
3、评估提取意图面临的问题
Google研究人员解释说,评估提取的意图非常困难,因为用户意图包含复杂的细节(例如日期或交易数据),而且用户意图本身具有主观性,存在歧义,这是一个难以解决的问题。用户轨迹之所以具有主观性,是因为其背后的动机是模糊的。
例如,用户选择某个产品是因为价格还是功能?用户的行为是可见的,但其动机却不可见。先前的研究表明,用户在网页上的意图匹配度为 80%,在移动端上的意图匹配度为 76%,因此并非一条特定的轨迹就能始终指示一个具体的意图。
4、两阶段方法
在排除了诸如“思维链”(CoT)推理等其他方法(因为小型语言模型难以处理这种推理)之后,他们选择了一种模拟“思维链”推理的两阶段方法。
Google研究人员解释了他们的两阶段方法(译):
“首先,我们使用提示为轨迹中的每次交互生成摘要(包含屏幕截图和文本操作描述)。由于目前没有带有单个交互摘要标签的训练数据,因此该阶段基于提示。
其次,我们将所有交互级别的摘要输入到第二阶段模型中,以生成整体意图描述。我们在第二阶段应用微调……”
第一阶段:屏幕截图摘要
对于交互的屏幕截图将摘要分为3个部分。
屏幕内容的描述
- 用户操作的描述
- 消除对用户意图的推测,避免模型对用户行为的猜测
第三部分被标记为“推测意图”,实际上他们只是将其剔除。允许模型进行推测,然后再消除这些推测,反而能得到更高质量的结果。研究人员尝试了多种提示策略,最终发现这种方法效果最佳。
第二阶段:生成整体意图描述
在第二阶段,研究人员对用于生成整体意图描述的模型进行了微调,使用由两部分组成的训练数据对模型进行微调:
- 代表轨迹中所有交互的摘要
- 描述每条轨迹整体意图的匹配真实值。
由于第一部分(输入摘要)可能不完整,而“目标意图”是完整的,因此模型最初容易出现错误。这导致模型学习填充缺失的部分,以使输入摘要与目标意图相匹配。通过“提炼”目标意图解决了这个问题,即移除输入摘要中未反映的细节。这使得模型能够仅根据输入推断意图。
作者也承认该研究存在一些局限性,可能会限制结果的普适性。例如,测试仅在 Android 和 Web 环境下进行,说明了结果可能无法推广到 Apple 设备。另一个局限性是,该研究仅限于美国英语用户。
相关推荐:
《Google对Search Console中的“Phantom Noindex”错误作出回应(附排查方法)》
(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)
微信扫码加好友进群
主机优惠码及时掌握
QQ群号:938255063
主机优惠发布与交流



