AWS代付、代实名
阿里云国际 | 腾讯云国际

Browser Use与AgentCore Browser Tool集成实践指南

核心摘要

  • Browser Use作为开源浏览器代理框架,支持多轮自主规划,适合处理动态复杂测试场景
  • Nova Act侧重精确的命令执行模式,适合步骤明确的自动化任务
  • 两种方案与AgentCore Browser Tool集成时各有优势,可根据测试复杂度灵活选择
  • Browser Use支持自定义工具扩展和多种LLM后端,提供更高的架构灵活性

Browser Use与AgentCore Browser Tool集成实践指南

从指令执行到智能自治的演进

在智能体驱动测试的实践中,我们已经了解了Amazon Nova ActAgentCore Browser Tool的结合方式。这种组合能够理解自然语言并在浏览器中自动执行操作,有效降低了测试脚本的编写与维护成本。

然而,实际测试场景往往更加复杂:测试流程可能跨越多个系统、页面和数据源,步骤之间存在依赖关系和不确定性。这类场景要求智能体具备更强的自主判断和动态适应能力。

在这种背景下,Browser UseAgentCore Browser Tool的组合展现出独特价值。与Nova Act的固定步骤执行模式不同,Browser Use让智能体能够在浏览器环境中自主规划操作路径、调用工具、分析反馈并修正策略。测试人员只需定义目标与约束,智能体便能在目标范围内完成探索、判断与执行。

技术架构与模块集成方式对比

Nova Act架构特点

Nova Act是亚马逊推出的浏览器自动化SDK,依赖于AWS提供的Nova Act服务和Playwright浏览器引擎。其典型使用流程如下:

  • 创建AgentCore浏览器会话
  • 通过tools.browser_client获取CDP(Chrome DevTools Protocol)的WebSocket URL和授权头信息
  • 在NovaAct构造器中传入这些参数、API密钥以及起始页面
with NovaAct(
    cdp_endpoint_url=ws_url,
    cdp_headers=headers,
    nova_act_api_key=NOVA_ACT_API_KEY,
    starting_page="https://www.amazon.com"
) as nova_act:
    result = nova_act.act("搜索咖啡机,并获取首页最低价格的详情")

执行时,SDK将自然语言指令和当前网页状态发送给Nova模型,模型返回一系列可执行的低级浏览器操作(点击、输入、滚动等),由Playwright在AgentCore浏览器实例上执行。整个流程由开发者在Python代码中显式编排。

Browser Use架构特点

Browser Use是一个开源的浏览器代理框架,设计定位为通用AI Agent。它可与AgentCore浏览器无缝集成,通过LLM(如Claude)来规划和执行网页任务。集成流程如下:

  • 启动BrowserClient,生成CDP WebSocket地址和授权头
  • 使用BrowserSession连接到该浏览器会话
  • 构造BrowserUseAgent,传入任务描述、LLM实例以及浏览器会话对象
client = BrowserClient(region=region)
client.start()
ws_url, headers = client.generate_ws_headers()

browser_session = BrowserSession(
    cdp_url=ws_url,
    browser_profile=BrowserProfile(headers=headers),
    keep_alive=True
)
await browser_session.start()

browser_use_agent = BrowserUseAgent(
    task=instruction,
    llm=bedrock_chat,
    browser_session=browser_session
)
result = await browser_use_agent.run()

Browser Use内置了多轮Agent环境,使用LLM进行任务规划,并提供丰富的工具(actions)驱动浏览器或调用API。它解耦了自然语言处理LLM决策浏览器执行三个层面,开发者可通过配置和注册自定义工具来扩展Agent能力。

设计理念的核心差异

从架构设计角度分析,两种方案存在本质区别:

  • Nova Act着眼于可靠性和可预测性,要求用户将复杂流程拆分成具体的操作步骤,以”命令-执行”方式引导AI聚焦于当前步骤,降低歧义。它提供基于Pydantic模型的结构化信息提取功能。
  • Browser Use定位为通用浏览器代理Agent,支持多轮会话和自定义工具。它提供开放的工具架构,允许通过@tools.action注解注册函数来扩展新功能。

在LLM选择方面,Nova Act目前固定使用亚马逊Nova系列模型;而Browser Use作为开源框架,支持Claude、GPT等多种LLM,可根据实际需求灵活配置。

复杂任务支持能力分析

任务推理与多轮交互

Nova Act擅长处理开发者预先定义好的多步任务:每次调用act()执行一个逻辑明确的动作,由用户代码控制何时继续下一步。它要求指令尽量具化,复杂目标需要手动分解为多个子目标。这种设计使其更偏向于有限受控的自动化工具,而非完全自主推理的Agent。

Browser Use则集成了真正的多轮Agent机制:给定高层目标后,它可以在后台通过LLM迭代规划执行步骤。一个任务可以由单个初始提示词触发,Browser Use Agent会”自我对话”,使用工具不断与浏览器交互直至完成。它支持持久会话、多标签浏览和错误处理策略,能够在执行中询问用户或调用备用工具。

从实践角度看,Browser Use更适合处理需要综合推理的任务。例如,通过Strands和Browser Use在AgentCore平台上提出”如何创建S3生命周期策略”问题,Agent会自动搜索并汇总官方文档的关键信息,给出详尽答案。这种高度自动化的多步研究任务若使用Nova Act实现,需要编写大量逐步调用代码。

高维指令处理能力

Nova Act的交互主要围绕元素级操作,通过精细提示控制页面元素,支持将页面内容提取到Pydantic模型中用于后续数据处理。但它不内置复合指令的推理功能,所有复杂逻辑需由开发者代码管理。

Browser Use则可以让LLM负责分解高维目标,并在必要时通过工具链调用外部能力(如文件操作、Web API调用等)。其丰富的工具扩展机制使其在处理结构化或多步骤任务时更加灵活。

插件生态与扩展能力

目前Nova Act SDK以封闭形式提供。它允许开发者在脚本中插入Python代码(如并行线程、API调用、调试断点等),并用Pydantic模型定义网页数据提取结构。但在插件层面,目前没有公开的第三方插件系统。Nova Act可以与其他AWS Agent API(如搜索、语音文本转换等)配合使用。

Browser Use作为开源项目,提供了更开放的扩展机制。开发者可以通过注册自定义Action来扩展Agent能力,这种设计使其能够更灵活地适应不同的测试场景需求。

方案选择建议

基于上述分析,我建议根据以下原则选择合适的方案:

  • 选择Nova Act:当测试流程相对固定、步骤明确、需要高可靠性和可预测性时
  • 选择Browser Use:当测试场景复杂多变、需要自主推理和动态适应、或需要集成多种LLM时
  • 组合使用:在大型测试体系中,可以将两种方案结合使用,让它们在各自擅长的场景中发挥优势

需要优化您的 AWS 架构? 如果您正在构建智能体驱动的测试体系,欢迎联系我们获取Browser Use与AgentCore Browser Tool集成的最佳实践方案,帮助您选择最适合业务场景的自动化测试架构。

点击联系客服Telegram
赞(0)
未经允许不得转载:AWS USDT代付 | Payment 解决方案 » Browser Use与AgentCore Browser Tool集成实践指南

AWS代付、代充值免实名

联系我们阿里云国际免实名