观点：Web 4.0 将至，由 AI 构建以智能体为中心的交互网络

2024年11月04日 04:24

微信扫一扫
分享到朋友或朋友圈

智能体网络不仅仅是技术上的进步，更是对数字时代人类潜力的一次根本性重新想象。

作者：Azi.eth.sol | zo.me | *acc

编译：深潮TechFlow

人工智能和区块链技术是两股正在改变世界的强大力量。AI 通过机器学习和神经网络增强了人类的智力，而区块链则带来了可验证的数字稀缺性和新的无信任协作方式。随着这两种技术的融合，它们为新一代互联网奠定了基础——一个自主智能体与去中心化系统交互的时代。这个“智能体网络”引入了一类新的数字居民：AI 智能体，它们能够自主导航、协商和交易。这一转型重新分配了数字世界的权力，让个人重新掌控自己的数据，同时促进了人类与人工智能前所未有的合作。

网络的演变

为了理解未来的发展方向，我们需要回顾网络的演变历程及其主要阶段，每个阶段都有其独特的能力和架构模式：

前两代网络主要关注信息传播，而后两代则注重信息增强。Web 3.0 通过 Token 实现了数据所有权，而 Web 4.0 则通过大语言模型 (LLMs) 赋予了智能。

从 LLMs 到智能体：自然的演变

大语言模型在机器智能方面实现了飞跃，作为动态的模式匹配系统，它们通过概率计算将海量知识转化为上下文理解。然而，当这些模型被设计成智能体时，其真正的潜力才得以释放——从单纯的信息处理器发展为能够感知、推理和行动的目标导向实体。这种转变创造了一种新兴智能，能够通过语言和行动进行持续而有意义的合作。

“智能体”概念为人机交互带来了新视角，超越了传统聊天机器人的局限和负面印象。这不仅是术语上的变化，更是对 AI 系统如何自主运作并与人类保持有效合作的全新思考。智能体工作流程能够围绕特定用户需求形成市场。

智能体网络不仅仅是增加了一层智能，它从根本上改变了我们与数字系统的交互方式。以往的网络依赖静态界面和预设的用户路径，而智能体网络则引入动态运行时架构，使计算和界面能够实时适应用户的需求和意图。

传统网站是当前互联网的基本单元，提供固定的界面，用户通过预设路径进行阅读、写作和信息交互。这种模式虽然有效，但限制了用户只能使用为一般情况设计的界面，而非个性化需求。智能体网络通过上下文感知计算、自适应界面生成，以及 RAG 等技术实现的实时信息检索，突破了这些限制。

想想 TikTok 如何通过实时调整用户偏好的个性化内容流来改变内容消费方式。智能体网络将这一理念扩展到整个界面生成。用户不再浏览固定的网页布局，而是与动态生成的界面互动，这些界面能够预测并引导用户的下一步操作。这种从静态网站到动态、智能体驱动界面的转变，标志着我们与数字系统交互方式的根本性演变——从基于导航的模式转向基于意图的互动模式。

智能体的构成

智能体架构是研究人员和开发者们积极探索的领域。为了增强智能体的推理和解决问题的能力，新的方法不断涌现。例如，Chain-of-Thought (CoT)、Tree-of-Thought (ToT) 和 Graph-of-Thought (GoT) 技术就是通过模拟更细致、更接近人类的认知过程，来提升大语言模型 (LLMs) 处理复杂任务的创新。

Chain-of-Thought (CoT) 提示通过将复杂任务分解为更小的步骤来帮助大语言模型进行逻辑推理。这种方法特别适用于逻辑推理的问题，如编写 Python 脚本或解决数学方程。

Tree-of-Thoughts (ToT) 在 CoT 的基础上增加了树状结构，使得能够探索多条独立的思维路径。这种增强使 LLMs 能够应对更复杂的任务。在 ToT 中，每个“思维”仅与其前后相邻的思维相连，虽然比 CoT 更灵活，但仍限制了思想之间的交流。

Graph-of-Thought (GoT) 进一步扩展了这一概念，将经典的数据结构与 LLMs 结合，允许任何“思维”在图结构中与其他思维相连。这个互联的思维网络更接近人类的认知方式。

GoT 的图结构在大多数情况下比 CoT 或 ToT 更能准确反映人类的思维方式。虽然在某些情况下，例如制定应急计划或标准操作程序时，我们的思维模式可能类似于链或树，但这些只是个别情况。人类的思维通常是跨越不同想法的，而不是线性顺序的，因此更符合图结构的表现。

GoT 的图形化方法使得对思想的探索更加动态和灵活，这可能使大语言模型 (LLMs) 在解决问题时更具创造性和全面性。这

些基于递归图的操作只是迈向智能体工作流程的一步。接下来的演变是协调多个具有特定专长的智能体来实现特定目标。智能体的优势在于它们的组合能力。

智能体使得 LLMs 可以通过多智能体协调实现模块化和并行化。

多代理系统

多智能体系统的概念由来已久。它可以追溯到 Marvin Minsky 的“心智社会”理论，该理论认为多个模块化的心智协作可以超过单一的整体心智。ChatGPT 和 Claude 是单一智能体，而 Mistral 则推广了专家混合。我们相信，将这一理念扩展到智能体网络架构，是这种智能拓扑的最终形态。

从仿生学的角度来看，人类大脑（实际上是一个有意识的机器）在器官和细胞层面上表现出极大的异质性，与 AI 模型中数十亿个相同神经元以统一、可预测方式连接的情况不同。神经元通过复杂的信号进行交流，涉及神经递质梯度、细胞内级联和各种调节系统，使其功能比简单的二进制状态复杂得多。

这表明，在生物学中，智能并不仅仅依赖于组件的数量或训练数据集的规模。相反，它源于多样化和专业化单元之间复杂的互动，这是一种本质上模拟的过程。因此，开发数百万个小型模型并协调它们之间的合作，比起仅依赖几个大型模型，更可能在认知架构上带来创新，类似于多智能体系统。

多智能体系统设计相比单智能体系统具有多个优势：更易维护、易于理解且便于扩展。即使在只需单一智能体接口的情况下，将其置于多智能体框架中也能提高系统的模块化，简化开发人员根据需求添加或移除组件的过程。值得注意的是，多智能体架构甚至可以是构建单一智能体系统的有效方法。

尽管大语言模型 (LLMs) 展现了卓越的能力，如生成类人文本、解决复杂问题和处理多种任务，但单个 LLM 智能体在实际应用中可能会受到限制。

下面，我们将探讨与智能体系统相关的五个关键挑战

通过交叉验证减少幻觉：单个 LLM 智能体常常会产生错误或无意义的信息，即使经过大量训练也是如此，因为输出可能看似合理但缺乏事实依据。多智能体系统可以通过交叉验证信息来降低错误风险，不同领域的专业化智能体能提供更可靠和准确的回答。
利用分布式处理扩展上下文窗口：LLMs 的上下文窗口有限，难以处理长文档或对话。在多智能体框架下，智能体可以分担处理任务，各自负责一部分上下文。通过相互交流，智能体能够在整个文本中保持连贯性，从而有效地扩展上下文窗口。
并行处理提升效率：单个 LLM 通常需要逐个处理任务，导致响应时间较慢。多智能体系统支持并行处理，允许多个智能体同时完成不同任务，从而提高效率，加快响应速度，使企业能够快速应对多个查询。
促进复杂问题解决的协作：单一的 LLM 在解决需要多种专业知识的复杂问题时可能会遇到困难。多智能体系统通过协作，每个智能体贡献其独特的技能和视角，能够更有效地应对复杂挑战，提供更全面和创新的解决方案。
通过资源优化提高可访问性：高级 LLM 需要大量计算资源，成本高昂且难以普及。多智能体框架通过任务分配优化资源使用，降低整体计算成本，使 AI 技术更加经济实惠，更容易为更多组织所用。

虽然多智能体系统在分布式问题解决和资源优化上有明显优势，但它们在网络边缘的应用才真正展现了其潜力。随着 AI 的不断进步，多智能体架构与边缘计算的结合形成了强大的协同效应，不仅实现了协作智能，还在众多设备上实现了本地化和高效处理。这种分布式的 AI 部署方式自然地扩展了多智能体系统的优势，使专业化和合作的智能更贴近终端用户。

边缘智能

AI 在数字世界的普及正在推动计算架构的根本变化。随着智能融入我们日常数字互动的方方面面，我们看到计算的自然分化：专用数据中心负责复杂推理和特定领域的任务，而边缘设备则本地处理个性化和上下文敏感的查询。这种向边缘推理的转变不仅是架构上的选择，而是由多种关键因素推动的必然趋势。

首先，AI 驱动的庞大交互量会使集中式推理提供商不堪重负，带来无法承受的带宽需求和延迟问题。

其次，边缘处理能够实现实时响应，这是自动驾驶、增强现实和物联网设备等应用的关键。

第三，本地推理通过将敏感数据保存在个人设备上来保护用户隐私。

第四，边缘计算通过减少跨网络的数据传输显著降低了能耗和碳排放。

最后，边缘推理支持离线功能和弹性，确保即使在网络连接不佳时 AI 功能仍然可用。

这种分布式智能模式不仅是对现有系统的优化，更是对我们在日益互联的世界中如何部署和使用 AI 的全新构想。

此外，我们正在经历大语言模型 (LLMs) 计算需求的重大转变。过去十年中，训练大语言模型所需的庞大计算资源一直是重点，而现在我们进入了推理计算成为核心的时代。这种变化在智能 AI 系统的兴起中尤为明显，例如 OpenAI 的 Q* 突破，展示了动态推理需要大量实时计算资源。

不同于训练时计算，它是模型开发的一次性投入，而推理时计算是智能体进行推理、规划和适应新环境所需的持续计算过程。这种从静态模型训练到动态智能体推理的转变，要求我们重新思考计算基础设施，此时边缘计算不仅有利而且必不可少。

随着这一变化的推进，我们看到点对点边缘推理市场的兴起，数十亿连接设备——从智能手机到智能家居系统——形成了动态计算网络。这些设备可以无缝交易推理能力，形成一个有机市场，计算资源得以流向最需要的地方。闲置设备的多余计算能力成为一种有价值的资源，可以实时交易，构建出比传统集中系统更高效、更具弹性的基础设施。

推理计算的这种民主化不仅优化了资源利用，还在数字生态系统中创造了新的经济机会，每个连接设备都可能成为 AI 能力的微型提供者。因此，AI 的未来不仅依赖于单个模型的能力，还依赖于由互联边缘设备构成的全球化、民主化的推理市场，这类似于一个基于供需的实时推理现货市场。

智能体为中心的交互

大语言模型 (LLMs) 使我们能够通过对话而非传统的浏览方式来获取大量信息。这种对话方式将迅速变得更加个性化和本地化，因为互联网正在转变为一个为 AI 智能体服务的平台，而非仅仅服务于人类用户。

从用户的角度来看，重点将从寻找“最佳模型”转向获取最个性化的答案。实现更好答案的关键在于结合用户的个人数据与互联网的普遍知识。起初，更大的上下文窗口和检索增强生成 (RAG) 技术将帮助整合个人数据，但最终，个人数据的重要性将超过普通互联网数据。

这预示着一个未来：每个人都将拥有与互联网专家模型互动的个人 AI 模型。个性化起初会依赖远程模型，但随着对隐私和响应速度的关注增加，更多交互将转移到本地设备。这将形成新的界限——不再是人与机器之间，而是个人模型与互联网专家模型之间。

传统的互联网访问原始数据的模式将逐渐被淘汰。取而代之的是，您的本地模型将与远程专家模型交流以获取信息，然后以最个性化和高效的方式呈现给您。随着这些个人模型对您的偏好和习惯的了解加深，它们将变得不可或缺。

互联网将演变为由互联模型组成的生态系统：本地的高上下文个人模型和远程的高知识专家模型。这将涉及到新技术，例如联邦学习，用于更新这些模型之间的信息。随着机器经济的发展，我们需要重新构想支撑这一切的计算基础设施，特别是在计算能力、可扩展性和支付方面。这将导致信息空间的重新组织，使其以智能体为中心、主权独立、高度可组合、自我学习并不断发展。

智能体协议的架构

在智能体网络中，人机交互演变为复杂的智能体间通信网络。这种架构重新构想了互联网的结构，使主权智能体成为数字交互的主要接口。以下是智能体协议所需的核心要素。

主权身份

数字身份从传统的 IP 地址转变为由智能体控制的加密公钥对
基于区块链的命名系统取代传统的 DNS，消除集中控制
信誉系统用于跟踪智能体的可靠性和能力
零知识证明用于实现隐私保护的身份验证
身份可组合性允许智能体管理多个上下文和角色

自主智能体

自主智能体具备以下能力：
- 理解自然语言和解析意图
- 多步骤规划和任务分解
- 资源管理与优化
- 从互动和反馈中学习
- 在设定的参数内自主决策
针对特定功能的智能体专业化和市场
内置安全机制和对齐协议以确保安全

数据基础设施

具备实时数据摄取和处理能力
分布式数据验证和校验机制
混合系统结合以下技术：
- zkTLS
- 传统训练数据集
- 实时网络抓取和数据合成
- 协作学习网络
人类反馈强化学习 (RLHF) 网络
- 分布式反馈收集系统
- 质量加权的共识机制
- 动态模型调整协议

计算层

可验证的推理协议确保：
- 计算完整性
- 结果可重复性
- 资源利用效率
去中心化的计算基础设施，包括：
- 点对点计算市场
- 计算证明系统
- 动态资源分配
- 边缘计算的集成

模型生态系统

分层模型架构：
- 针对特定任务的小型语言模型 (SLMs)
- 通用的大型语言模型 (LLMs)
- 专业的多模态模型
- 多模态大型动作模型 (LAMs)
模型的组合和编排
持续学习和适应能力
标准化的模型接口和协议

协调框架

用于安全智能体交互的加密协议
数字产权管理系统
经济激励结构
用于以下方面的治理机制：
- 争议解决
- 资源分配
- 协议更新
并行执行环境支持：
- 并发任务处理
- 资源隔离
- 状态管理
- 冲突解决

智能体市场

基于链上的身份原语 (如 Gnosis 和 Squad 多重签名)
智能体间的经济和交易
智能体拥有部分流动性
- 智能体在创始时拥有其 Token 供应的一部分
- 通过流动性支付的聚合推理市场
链上密钥控制链下账户
智能体成为收益资产
- 通过智能体去中心化自治组织 (DAOs) 实现治理和分红

构建智能的超结构

现代分布式系统设计为开发智能体协议提供了独特的灵感和基础，尤其是在事件驱动架构和计算的 Actor 模型方面。

Actor 模型为构建智能体系统提供了一个优雅的理论框架。这种计算模型将“actor”视为计算过程中的基本单元，每个 actor 可以：

处理消息
做出本地决策
创建新的 actor
向其他 actor 发送消息
决定如何响应接收到的下一条消息

Actor 模型在智能体系统中的主要优势包括：

隔离性：每个 actor 独立运行，维护自身的状态和控制流程
异步通信：actor 之间的消息传递是非阻塞的，从而支持高效的并行处理
位置透明性：actor 能够在网络中任何位置进行通信
故障容错：通过 actor 的隔离和监督层次增强系统的弹性
可扩展性：天然支持分布式系统和并行计算

我们提出了 Neuron，这是一种通过多层分布式架构实现的实际智能体协议，结合了区块链命名空间、联邦网络、CRDTs 和 DHTs，每一层在协议栈中都有其特定的功能。我们借鉴了 Urbit 和 Holochain，这些早期的点对点操作系统设计的理念。

在 Neuron 中，区块链层提供可验证的命名空间和身份，支持确定性地寻址和发现智能体，同时提供能力和信誉的加密证明。在此基础上，DHT 层帮助实现高效的智能体和节点发现以及内容路由，查找时间为 O(log n)，减少了链上操作，同时支持本地化的对等查找。联邦节点之间的状态同步通过 CRDTs 进行，允许智能体和节点在不需要每次交互都达成全球共识的情况下保持一致的共享状态视图。

这种架构自然适用于联邦网络，在这个网络中，自主智能体作为独立节点在设备上运行，并通过本地边缘推理实现 Actor 模型。联邦域可以根据智能体的能力进行组织，DHT 提供域内和跨域的高效路由和发现。每个智能体作为独立的 actor 运行，拥有自己的状态，而 CRDT 层确保整个联邦的一致性。这个多层次的方法实现了几个关键功能：

去中心化协调

区块链用于提供可验证的身份和全球命名空间
DHT 用于高效的节点发现和内容路由，查找时间为 O(log n)
CRDTs 用于并发状态同步和多智能体协调

可扩展的操作

基于区域的联邦拓扑
分层存储策略（热/温/冷）
本地化请求路由
基于能力的负载分配

系统弹性

无单点故障
分区期间的持续操作
自动状态协调
故障容错的监督层次结构

这种实现方法为构建复杂的智能体系统提供了坚实的基础，同时保持了主权、可扩展性和弹性这些有效智能体交互所需的关键属性。

最终的思考

智能体网络标志着人机交互的一个重要演变，超越了之前的逐步发展，建立了一种全新的数字存在模式。与以往仅仅改变信息消费或拥有方式的演变不同，智能体网络将互联网从一个以人为中心的平台转变为一个智能基质，在这里自主智能体成为主要参与者。这一转变由边缘计算、大语言模型和去中心化协议的融合推动，创造了一个生态系统，在这个生态系统中，个人 AI 模型与专业专家系统无缝对接

随着我们迈向以智能体为中心的未来，人类与机器智能之间的界限逐渐模糊，取而代之的是一种共生关系。在这种关系中，个性化的 AI 智能体成为我们的数字延伸，能够理解我们的背景，预见我们的需求，并自主地在广阔的分布式智能网络中运作。因此，智能体网络不仅仅是技术上的进步，更是对数字时代人类潜力的一次根本性重新想象。在这个网络中，每次交互都是增强智能的机会，每个设备都是全球协作 AI 系统中的一个节点。

正如人类在空间和时间的物理维度中活动，自主智能体也在自己的基本维度中运作：区块空间代表其存在，推理时间代表其思考。这种数字本体论反映了我们的物理现实——在人类穿越空间和体验时间流动的同时，智能体通过加密证明和计算周期在算法世界中行动，创造了一个平行的数字宇宙。

在去中心化的区块空间中运作将成为潜在空间中实体的必然趋势。