核心摘要

Browser Use作为开源浏览器代理框架，支持多轮自主规划，适合处理动态复杂测试场景
Nova Act侧重精确的命令执行模式，适合步骤明确的自动化任务
两种方案与AgentCore Browser Tool集成时各有优势，可根据测试复杂度灵活选择
Browser Use支持自定义工具扩展和多种LLM后端，提供更高的架构灵活性

Browser Use与AgentCore Browser Tool集成实践指南

从指令执行到智能自治的演进

在智能体驱动测试的实践中，我们已经了解了Amazon Nova Act与AgentCore Browser Tool的结合方式。这种组合能够理解自然语言并在浏览器中自动执行操作，有效降低了测试脚本的编写与维护成本。

然而，实际测试场景往往更加复杂：测试流程可能跨越多个系统、页面和数据源，步骤之间存在依赖关系和不确定性。这类场景要求智能体具备更强的自主判断和动态适应能力。

在这种背景下，Browser Use与AgentCore Browser Tool的组合展现出独特价值。与Nova Act的固定步骤执行模式不同，Browser Use让智能体能够在浏览器环境中自主规划操作路径、调用工具、分析反馈并修正策略。测试人员只需定义目标与约束，智能体便能在目标范围内完成探索、判断与执行。

技术架构与模块集成方式对比

Nova Act架构特点

Nova Act是亚马逊推出的浏览器自动化SDK，依赖于AWS提供的Nova Act服务和Playwright浏览器引擎。其典型使用流程如下：

创建AgentCore浏览器会话
通过tools.browser_client获取CDP（Chrome DevTools Protocol）的WebSocket URL和授权头信息
在NovaAct构造器中传入这些参数、API密钥以及起始页面

with NovaAct(
    cdp_endpoint_url=ws_url,
    cdp_headers=headers,
    nova_act_api_key=NOVA_ACT_API_KEY,
    starting_page="https://www.amazon.com"
) as nova_act:
    result = nova_act.act("搜索咖啡机，并获取首页最低价格的详情")

执行时，SDK将自然语言指令和当前网页状态发送给Nova模型，模型返回一系列可执行的低级浏览器操作（点击、输入、滚动等），由Playwright在AgentCore浏览器实例上执行。整个流程由开发者在Python代码中显式编排。

Browser Use架构特点

Browser Use是一个开源的浏览器代理框架，设计定位为通用AI Agent。它可与AgentCore浏览器无缝集成，通过LLM（如Claude）来规划和执行网页任务。集成流程如下：

启动BrowserClient，生成CDP WebSocket地址和授权头
使用BrowserSession连接到该浏览器会话
构造BrowserUseAgent，传入任务描述、LLM实例以及浏览器会话对象

client = BrowserClient(region=region)
client.start()
ws_url, headers = client.generate_ws_headers()

browser_session = BrowserSession(
    cdp_url=ws_url,
    browser_profile=BrowserProfile(headers=headers),
    keep_alive=True
)
await browser_session.start()

browser_use_agent = BrowserUseAgent(
    task=instruction,
    llm=bedrock_chat,
    browser_session=browser_session
)
result = await browser_use_agent.run()

Browser Use内置了多轮Agent环境，使用LLM进行任务规划，并提供丰富的工具（actions）驱动浏览器或调用API。它解耦了自然语言处理、LLM决策和浏览器执行三个层面，开发者可通过配置和注册自定义工具来扩展Agent能力。

设计理念的核心差异

从架构设计角度分析，两种方案存在本质区别：

Nova Act着眼于可靠性和可预测性，要求用户将复杂流程拆分成具体的操作步骤，以”命令-执行”方式引导AI聚焦于当前步骤，降低歧义。它提供基于Pydantic模型的结构化信息提取功能。
Browser Use定位为通用浏览器代理Agent，支持多轮会话和自定义工具。它提供开放的工具架构，允许通过@tools.action注解注册函数来扩展新功能。

在LLM选择方面，Nova Act目前固定使用亚马逊Nova系列模型；而Browser Use作为开源框架，支持Claude、GPT等多种LLM，可根据实际需求灵活配置。

复杂任务支持能力分析

任务推理与多轮交互

Nova Act擅长处理开发者预先定义好的多步任务：每次调用act()执行一个逻辑明确的动作，由用户代码控制何时继续下一步。它要求指令尽量具化，复杂目标需要手动分解为多个子目标。这种设计使其更偏向于有限受控的自动化工具，而非完全自主推理的Agent。

Browser Use则集成了真正的多轮Agent机制：给定高层目标后，它可以在后台通过LLM迭代规划执行步骤。一个任务可以由单个初始提示词触发，Browser Use Agent会”自我对话”，使用工具不断与浏览器交互直至完成。它支持持久会话、多标签浏览和错误处理策略，能够在执行中询问用户或调用备用工具。

从实践角度看，Browser Use更适合处理需要综合推理的任务。例如，通过Strands和Browser Use在AgentCore平台上提出”如何创建S3生命周期策略”问题，Agent会自动搜索并汇总官方文档的关键信息，给出详尽答案。这种高度自动化的多步研究任务若使用Nova Act实现，需要编写大量逐步调用代码。

高维指令处理能力

Nova Act的交互主要围绕元素级操作，通过精细提示控制页面元素，支持将页面内容提取到Pydantic模型中用于后续数据处理。但它不内置复合指令的推理功能，所有复杂逻辑需由开发者代码管理。

Browser Use则可以让LLM负责分解高维目标，并在必要时通过工具链调用外部能力（如文件操作、Web API调用等）。其丰富的工具扩展机制使其在处理结构化或多步骤任务时更加灵活。

插件生态与扩展能力

目前Nova Act SDK以封闭形式提供。它允许开发者在脚本中插入Python代码（如并行线程、API调用、调试断点等），并用Pydantic模型定义网页数据提取结构。但在插件层面，目前没有公开的第三方插件系统。Nova Act可以与其他AWS Agent API（如搜索、语音文本转换等）配合使用。

Browser Use作为开源项目，提供了更开放的扩展机制。开发者可以通过注册自定义Action来扩展Agent能力，这种设计使其能够更灵活地适应不同的测试场景需求。

方案选择建议

基于上述分析，我建议根据以下原则选择合适的方案：

选择Nova Act：当测试流程相对固定、步骤明确、需要高可靠性和可预测性时
选择Browser Use：当测试场景复杂多变、需要自主推理和动态适应、或需要集成多种LLM时
组合使用：在大型测试体系中，可以将两种方案结合使用，让它们在各自擅长的场景中发挥优势

需要优化您的 AWS 架构？ 如果您正在构建智能体驱动的测试体系，欢迎联系我们获取Browser Use与AgentCore Browser Tool集成的最佳实践方案，帮助您选择最适合业务场景的自动化测试架构。

点击联系客服Telegram

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Browser Use与AgentCore Browser Tool集成实践指南

核心摘要

Browser Use与AgentCore Browser Tool集成实践指南

从指令执行到智能自治的演进

技术架构与模块集成方式对比

Nova Act架构特点

Browser Use架构特点

设计理念的核心差异

复杂任务支持能力分析

任务推理与多轮交互

高维指令处理能力

插件生态与扩展能力

方案选择建议

相关推荐

详情咨询客服Telegram

AWS代付、代充值免实名