4月1日,亚马逊云科技正式宣布推出Amazon Nova Act及其SDK研究预览版,此产品主要涉及AI领域,目的是让开发者能够构建在网页浏览器中完成任务的Agents。下文将结合官网发布内容展开介绍。
一、背景介绍
自从大语言模型(LLM)开始被广泛关注,所谓的“Agent”一般指的是那些能够用自然语言回应用户、或者通过检索增强生成(RAG)技术利用知识库的系统。但现在,Agent的概念已经有所扩展,变得更加智能,能够在各种数字和物理环境中代表用户完成任务。虽然这类系统发展迅速,但大多数应用场景还是依赖于有限的API调用,且仅覆盖一些简单的任务。
亚马逊云科技主要提供具有实际价值的生成式AI解决方案,以简化购物者、卖家、广告商和企业的生活,此前已经推出的包括Alexa+、Amazon Q和Rufus等生成式AI应用。
亚马逊通用人工通用智能高级副总裁Rohit Prasad表示:“nova.amazon.com为每位开发者和技术爱好者打开了掌握亚马逊前沿智能的大门,使探索Amazon Nova的功能更简便。我们构建这个渠道,旨在激发构建者的灵感,让大家能够迅速使用Amazon Nova模型测试其创意,并在Amazon Bedrock中大规模应用。这标志着AI快速探索的又一激动人心的进步,包括Amazon Nova Act SDK等顶尖功能,用于构建能在网络上执行操作的Agents。我们期待见证大家的创新成果,并听取宝贵的反馈意见。”
相关阅读:《亚马逊云科技Amazon Bedrock全面上线多Agents协作功能 轻松构建AI Agents》
在re:Invent 2024大会上,首次推出了Amazon Nova基础模型系列,包括:
1、Amazon Nova Micro、Lite和Pro用于文本生成;
2、Amazon Nova Canvas用于图像生成;
3、Amazon Nova Reel用于视频生成。
Amazon Nova Act SDK可以帮助开发者将复杂的工作流程分解成简单、可靠的命令,比如搜索、结账、回答界面问题等。这个SDK还支持在需要时为这些命令添加更详细的指令,比如“不要接受保险追加销售”;甚至支持调用API,或者通过Playwright直接在浏览器里执行操作(比如输入密码)来增强执行的可靠性。此外,开发者还可以使用Python代码进行测试、断点调试、断言,甚至通过线程池进行并行处理,因为即便是最快的Agent也会受到网页加载时间的影响。
亚马逊通用人工智能团队已经进行了基准测试。在测试过程中,开发者使用简单的命令(比如“点击<元素>”)进行测试,结果表明,即使更换提示词并没有显著提升性能,但仍有改进的空间。这些测试使用了Bedrock API,并对Claude 3.7 Sonnet进行了测试。
1、应用场景
Amazon Nova Act注重的是可靠性。一旦系统运行稳定,你就可以进入无监管模式,Agent可以像API一样直接集成到产品中,甚至支持异步运行。
目前,Amazon Nova Act已经在多个领域展示了其强大的潜力。比如在一个寻找公寓的示例中,开发者通过Pydantic类提取结构化数据,并结合Python的其他工具来增强功能。其官方示例展示了如何寻找雷德伍德城的两居室公寓,并计算每个房源到最近火车站的骑行距离。
官方还展示了另一个例子展示了Nova Act的自动化调度功能。在这个外卖订餐示例中,通过设置Cron作业,系统可以在每周二自动搜索指定的餐品、添加到购物车并完成结账,实现“无人值守”的自动化操作。
2、未来展望
Amazon Nova Act是亚马逊构建大规模、实用Agent系统的第一步。我们正在使用Amazon Nova模型开展一项大规模的培训项目,这是早期的一个重要里程碑。为了让Agent能够处理越来越复杂的任务,我们不仅需要通过简单的示范微调大语言模型,还需要通过强化学习不断训练Agent,在实际应用中提升其智能和可靠性。
3、体验入口
目前,Agent的潜力仍然未被完全挖掘,未来最有价值的应用场景将由最优秀的开发者和设计师发现。通过发布Amazon Nova Act SDK的研究预览版,亚马逊希望与开发者一起,利用快速原型设计和反馈机制,不断优化这一工具。
如果你在美国并且有亚马逊账户,可以访问nova.amazon.com,开始体验这一新工具,或者下载Amazon Nova Act SDK来构建自己的Agent。如果还未注册为亚马逊云科技用户,请点击——“亚马逊云科技官网注册入口”进行注册,新用户还可享100+免费云产品,包括云计算、云存储、数据库等等。
相关阅读:
(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

微信扫码加好友进群
主机优惠码及时掌握

QQ群号:938255063
主机优惠发布与交流