人工智能(AI)Agent正成为当下科技领域最热门的话题之一,但围绕其定义的争论也愈演愈烈。尽管年初以来,从OpenAI到Glean等多家公司纷纷推出与Agent相关的产品,但人们对Agent究竟能做什么,以及它的本质属性仍存在诸多疑问。
什么是AI Agent?
通常来说,Agent被定义为能够自主完成任务的虚拟助手。它们能够分解问题,制定行动计划,并在无需用户直接干预的情况下执行任务。人们对Agent的期待在于,它们或许是通往“无人工干预”世界的第一步,在这个世界里,人类可以高枕无忧,坐享AI完成一切工作。
今年1月,OpenAI发布了Operator,这款Agent能够浏览网页、预订机票、甚至制作表情包。从Glean到Cohere,许多企业技术公司也纷纷推出了允许员工构建和部署Agent的平台。本月早些时候,中国初创公司Butterfly Effect发布了名为Manus的AI Agent(仅限受邀用户),它能够分析股票、从网络上抓取数据,甚至创建交互式网站,引发了堪比DeepSeek的轰动。
定义之争:不只是执行任务,更重要的是推理与解决问题
然而,与Agent系统打交道的AI专家表示,这项技术远比想象的更为复杂。“我对Agent的定义是,只有执行动作的东西才能被称为Agent,”Contextual AI的联合创始人兼首席执行官Douwe Kiela表示。Contextual AI致力于帮助公司构建和部署RAG Agent。Kiela此前曾在Meta领导团队开发了检索增强生成(RAG)技术,该技术旨在增强大型语言模型的输出。
Kiela以OpenAI、Perplexity和Google开发的Deep Research Agent为例,这些Agent能够将数百个在线资源综合成详细报告。“它们除了搜索之外,不一定会采取任何行动。这算不算Agent?我认为算,但很多人认为不算;它必须采取能够以某种方式影响Agent运行状态或环境的行动。”
Kiela认为,Agent的正确定义是能够“积极推理”的东西。“也就是说,如果它犯了错误,那么它能够发现这个错误并再次尝试。”
Emergence AI是一家专注于多Agent系统的公司,其首席执行官兼自然语言专家Satya Nitta表示,Agent的设计目的是在不断变化的环境中进行故障排除。“Agent超越了自动化,它能够展示情境推理,适应不可预见的挑战,并动态调整计划以在复杂环境中取得成功。”
Agent vs. 大型语言模型
另一种理解Agent的方式是将它与大型语言模型(LLM)联系起来,后者是ChatGPT等流行聊天机器人的基础。“大型语言模型其实是一种用词不当。它应该被称为神经序列模型,它适用于任何序列数据:自然语言、编程语言、像素序列和生物序列(蛋白质),”You.com的创始人兼首席执行官Richard Socher表示。You.com是一个面向知识工作者的AI驱动搜索引擎。另一方面,Agent是“一种能够为你采取行动的神经序列模型,它从人类行为模式中学习,从而自动执行多个领域的复杂任务。”
Agent的未来:工作流程设计者还是团队成员?
随着Agent在工作场所的日益普及,人们可能会开始将它们视为团队成员或权威助手。但LILT是一家AI驱动的翻译公司,其首席执行官Spence Green在自然语言处理方面拥有多年经验。他认为,“我认为它们是工作流程的设计者。”
无论如何定义,无论它们做什么,AI公司都在大力投资Agent,以期推动回报增长。据The Information本月报道,OpenAI计划以每月2万美元的价格出售博士级别的Agent,并最终希望20%到25%的收入来自Agent。
Insight Partners的董事总经理Praveen Akkiraju此前表示,“如果说2024年是LLM之年,那么我们相信2025年将是Agent AI之年。”
总而言之,尽管AI Agent的定义仍存在争议,但这并不妨碍其成为未来科技发展的重要方向。随着技术的不断进步,AI Agent将在各行各业发挥越来越重要的作用,为人类带来更智能、更便捷的生活体验。