Sora涌现:2024年会是AI Web3革命年吗
作者:Zeke,YBB Capital;翻译:0xjs@金色财经
前言
2 月 16 日,OpenAI 宣布推出名为“Sora”的最新文生视频生成式扩散模型,凭借其在各种视觉数据类型上生成高质量视频的能力,标志着生成式AI的另一个里程碑。与 Pika 等从多个图像生成几秒钟视频的 AI 视频生成工具不同,Sora 在视频和图像的压缩潜在空间中进行训练,将它们分解为时空补丁,以生成可扩展的视频。此外,该模型展示了模拟物理和数字世界的能力,其 60 秒的演示被描述为“物理世界的通用模拟器”。
Sora延续了以往GPT模型中“源数据-Transformer-Diffusion-emergence”的技术路径,表明其发展成熟度也依赖于算力。鉴于视频训练所需的数据量比文本更大,其对计算能力的需求预计将进一步增加。然而,正如我们之前的文章《潜力行业前瞻:去中心化算力市场》中所讨论的那样,算力在AI时代的重要性已经被探讨,随着AI的日益普及,众多算力项目应运而生,惠及DePIN项目(存储、计算能力等),它们的价值激增。除了 DePIN之外,本文旨在更新和完善过去的讨论,思考Web3和AI交织可能产生的火花以及AI时代这一赛道中的机会。
AI发展的三大方向
AI是一门旨在模拟、延伸和增强人类智能的新兴科学技术。自20世纪50年代和60年代诞生以来,AI已经发展了半个多世纪,现已成为推动社会生活和各行业变革的关键技术。在此过程中,符号主义、联结主义、行为主义三大研究方向的交织发展,为当今人工智能的快速发展奠定了基础。
符号主义
符号主义也称为逻辑主义或基于规则的推理,认为通过符号的处理来模拟人类智能是可行的。这种方法使用符号来表示和操纵问题域内的对象、概念及其关系,并采用逻辑推理来解决问题。符号主义取得了巨大的成功,特别是在专家系统和知识表示方面。符号主义的核心思想是智能行为可以通过符号的操纵和逻辑推理来实现,其中符号代表了现实世界的高级抽象。
联结主义
或称为神经网络方法,旨在通过模仿人脑的结构和功能来实现智能。该方法构建由许多简单处理单元(类似于神经元)组成的网络,并调整这些单元(类似于突触)之间的连接强度以促进学习。连接主义强调从数据中学习和概括的能力,使其特别适合模式识别、分类和连续输入输出映射问题。深度学习作为联结主义的演变,在图像识别、语音识别、自然语言处理等领域取得了突破。
行为主义
行为主义与仿生机器人和自主智能系统的研究密切相关,强调智能体可以通过与环境的交互来学习。与前两者不同,行为主义并不注重模拟内部表征或思维过程,而是通过感知和行动的循环来实现适应性行为。行为主义认为,智能是通过与环境的动态交互和学习来体现的,这使得它对于在复杂和不可预测的环境中运行的移动机器人和自适应控制系统特别有效。
这三个研究方向虽然存在根本差异,但在AI的实际研究和应用中可以相互作用、相互融合,共同推动人工智能领域的发展。
AIGC的原则
AIGC的爆炸性发展领域代表了联结主义的演变和应用,能够通过模仿人类创造力来生成新颖的内容。这些模型使用大型数据集和深度学习算法进行训练,学习数据中的底层结构、关系和模式。根据用户提示,它们生成独特的输出,包括图像、视频、代码、音乐、设计、翻译、问题答案和文本。目前,AIGC基本上由三个要素组成:深度学习、大数据和海量计算能力。
深度学习
深度学习是机器学习的一个子领域,它采用模仿人脑神经网络的算法。例如,人脑由数百万个相互连接的神经元组成,它们一起工作来学习和处理信息。同样,深度学习神经网络(或人工神经网络)由在计算机内协同工作的多层人工神经元组成。这些人工神经元(称为节点)使用数学计算来处理数据。人工神经网络利用这些节点通过深度学习算法解决复杂问题。
神经网络分为层:输入层、隐藏层和输出层,参数连接不同层。
输入层:神经网络的第一层,负责接收外部输入数据。输入层中的每个神经元对应于输入数据的一个特征。例如,在处理图像数据时,每个神经元可能对应于图像的一个像素值。
隐藏层:输入层处理数据并将其进一步传递到网络中。这些隐藏层在不同级别处理信息,在接收新信息时调整其行为。深度学习网络有数百个隐藏层,可以从多个角度分析问题。例如,当呈现需要分类的未知动物的图像时,你可以通过检查耳朵形状、腿数量、瞳孔大小等将其与你已经知道的动物进行比较。深度神经网络中的隐藏层以类似的方式工作方式。如果深度学习算法尝试对动物图像进行分类,每个隐藏层都会处理动物的不同特征并尝试对其进行准确分类。
输出层:神经网络的最后一层,负责生成网络的输出。输出层中的每个神经元代表一个可能的输出类别或值。例如,在分类问题中,每个输出层神经元可能对应一个类别,而在回归问题中,输出层可能只有一个神经元,其值代表预测结果。
参数:在神经网络中,不同层之间的连接由权重和偏差表示,它们在训练过程中进行优化,以使网络能够准确识别数据中的模式并做出预测。增加参数可以增强神经网络的模型能力,即学习和表示数据中复杂模式的能力。然而,这也增加了对计算能力的需求。
大数据
为了进行有效的训练,神经网络通常需要大量、多样化、高质量和多源的数据。它构成了训练和验证机器学习模型的基础。通过分析大数据,机器学习模型可以学习数据中的模式和关系,从而实现预测或分类。
海量计算能力
神经网络多层结构复杂,参数众多,大数据处理要求,迭代训练方式(训练时模型需要反复迭代,涉及到每一层的前向和后向传播计算,包括激活函数计算、损失函数计算、梯度计算和权重更新)、高精度计算需求、并行计算能力、优化和正则化技术以及模型评估和验证过程共同导致了高计算能力的需求。
Sora
作为 OpenAI 最新的视频生成 AI 模型,Sora 代表了人工智能处理和理解多样化视觉数据的能力的重大进步。通过采用视频压缩网络和时空补丁技术,Sora 可以将全球范围内不同设备捕获的海量视觉数据转换为统一的表示形式,从而实现对复杂视觉内容的高效处理和理解。利用文本条件扩散模型,Sora 可以生成与文本提示高度匹配的视频或图像,展现出高度的创造力和适应性。
然而,尽管Sora在视频生成和模拟现实世界交互方面取得了突破,但它仍然面临一些局限性,包括物理世界模拟的准确性、生成长视频的一致性、理解复杂的文本指令以及训练和生成的效率。本质上,Sora通过OpenAI的垄断算力和先发优势,延续了“大数据-Transformer-Diffusion-emergence”的老技术路径,实现了一种蛮力美学。其他人工智能公司仍然有通过技术创新实现超越的潜力。
虽然Sora与区块链的关系并不大,但相信未来一两年,由于Sora的影响力,其他优质的AI生成工具将会出现并迅速发展,冲击各个Web3领域如GameFi、社交平台、创意平台、Depin等。因此,对Sora有一个大致的了解是必要的,未来AI如何与Web3有效结合是一个重点考虑的问题。
AI x Web3融合的四种途径
正如前面所讨论的,我们可以理解生成式AI所需的基本要素本质上有三重:算法、数据和计算能力。另一方面,考虑到其普遍性和产出效果,AI是一种彻底改变生产方式的工具。同时,区块链最大的影响是双重的:重组生产关系和去中心化。
因此,我认为这两种技术的碰撞可以产生以下四种路径:
去中心化算力
如前所述,本节旨在更新计算能力格局的状态。谈到AI,计算能力是不可或缺的一个方面。Sora的出现,让原本难以想象的AI对算力的需求凸显出来。近日,在2024年瑞士达沃斯世界经济论坛期间,OpenAI首席执行官Sam Altman公开表示,算力和能源是当前最大的制约因素,暗示它们未来的重要性甚至可能等同于货币。随后,2月10日,Sam Altman在推特上宣布了一项令人震惊的计划,将筹集7万亿美元(相当于2023年中国GDP的40%)来彻底改革当前的全球半导体产业,旨在打造一个半导体帝国。我之前对算力的思考仅限于国家封锁和企业垄断;一家公司想要主宰全球半导体行业的想法确实很疯狂。
因此,去中心化计算能力的重要性是不言而喻的。区块链的特性确实可以解决当前计算能力极度垄断的问题,以及与获取专用 GPU 相关的昂贵成本的问题。从AI需求的角度来看,算力的使用可以分为推理和训练两个方向。专注于训练的项目还很少,因为去中心化网络需要集成神经网络设计,对硬件要求极高,是一个门槛较高、实施难度较大的方向。相比之下,推理相对简单,因为去中心化网络设计没有那么复杂,对硬件和带宽的要求也较低,是更主流的方向。
中心化算力市场想象空间广阔,常常与“万亿级”关键词联系在一起,也是AI时代最容易炒作的话题。然而,纵观最近出现的众多项目,大多数似乎都是利用趋势的考虑不周的尝试。他们经常高举去中心化的旗帜,但却避免讨论去中心化网络的低效率。另外,设计同质化程度很高,很多项目非常相似(一键L2加挖矿设计),最终可能会导致失败,很难在传统AI竞赛中占据一席之地。
算法与模型协同系统
机器学习算法是那些可以从数据中学习模式和规则,并根据它们做出预测或决策的算法。算法是技术密集型的,因为其设计和优化需要深厚的专业知识和技术创新。算法是训练人工智能模型的核心,定义了如何将数据转化为有用的见解或决策。常见的生成式 AI 算法包括生成对抗网络 (GAN)、变分自编码器 (VAE) 和 Transformers,每种算法都是针对特定领域(例如绘画、语言识别、翻译、视频生成)或目的而设计的,然后用于训练专门的 AI模型。
那么,这么多的算法和模型,各有千秋,是否有可能将它们整合成一个通用的模型呢?Bittensor是最近备受关注的一个项目,它通过激励不同的AI模型和算法相互协作和学习,从而创建更高效 、更有能力的AI模型,从而引领了这个方向。其他专注于这个方向的项目包括Commune AI(代码协作),但算法和模型对于AI公司来说是严格保密的,不容易共享。
因此,AI协作生态系统的叙述新颖而有趣。协作生态系统利用区块链的优势来整合孤立的AI算法的劣势,但是否能够创造相应的价值还有待观察。毕竟,拥有自主算法和模型的领先AI公司,拥有强大的更新、迭代和集成能力。例如,OpenAI 在不到两年的时间内从早期的文本生成模型发展到多领域生成模型。像 Bittensor 这样的项目可能需要在其模型和算法目标领域探索新路径。
去中心化大数据
从简单的角度来看,利用隐私数据来喂养AI和注释数据是与区块链技术非常吻合的方向,主要考虑的是如何防止垃圾数据和恶意行为。此外,数据存储可以使 FIL 和 AR 等 DePIN项目受益。从更复杂的角度来看,使用区块链数据进行机器学习来解决区块链数据的可访问性是另一个有趣的方向(Giza 的探索之一)。
理论上,区块链数据是随时可访问的,反映了整个区块链的状态。然而,对于区块链生态系统之外的人来说,访问这些大量数据并不简单。存储整个区块链需要丰富的专业知识和大量的专业硬件资源。为了克服访问区块链数据的挑战,行业内出现了多种解决方案。例如,RPC 提供商通过 API 提供节点访问,索引服务使通过 SQL 和 GraphQL 进行数据检索成为可能,在解决该问题方面发挥了至关重要的作用。然而,这些方法都有其局限性。RPC服务不适合需要大量数据查询的高密度用例,往往无法满足需求。同时,尽管索引服务提供了一种更加结构化的数据检索方式,但 Web3 协议的复杂性使得构造高效查询变得极其困难,有时需要数百甚至数千行复杂代码。这种复杂性对于一般数据从业者和那些对 Web3 细节了解有限的人来说是一个重大障碍。这些限制的累积效应凸显了需要一种更易于访问和利用的方法来获取和利用区块链数据,这可以促进该领域更广泛的应用和创新。
因此,将ZKML(零知识证明机器学习,减轻链上机器学习的负担)与高质量的区块链数据相结合,可能会创建解决区块链数据可访问性的数据集。AI可以显着降低区块链数据的访问障碍。随着时间的推移,开发人员、研究人员和机器学习爱好者可以访问更多高质量、相关的数据集,以构建有效和创新的解决方案。
AI赋能Dapp
自2023年ChatGPT3爆发以来,AI对Dapp的赋能已经成为一个非常普遍的方向。广泛适用的生成式人工智能可以通过API集成,从而简化和智能化数据平台、交易机器人、区块链百科全书和其他应用程序。另一方面,它还可以充当聊天机器人(如 Myshell)或 AI 伴侣(Sleepless AI),甚至可以使用生成式 AI 在区块链游戏中创建 NPC。但由于技术门槛较低,大多数只是集成API后的调整,与项目本身的集成并不完善,因此很少被提及。
但随着Sora的到来,我个人认为AI对GameFi(包括元宇宙)和创意平台的赋能将是未来的重点。鉴于Web3领域自下而上的性质,它不太可能生产出可以与传统游戏或创意公司竞争的产品。然而,Sora的出现可能会打破这一僵局(也许只需两到三年)。从Sora的演示来看,它有与短剧公司竞争的潜力。Web3活跃的社区文化还可以催生出大量有趣的想法,当唯一的限制就是想象力时,自下而上的行业与自上而下的传统行业之间的壁垒将被打破。
结论
随着生成式人工智能工具的不断发展,未来我们将见证更多突破性的“iPhone时刻”。尽管人们对AI与Web3的整合持怀疑态度,但我相信目前的方向基本上是正确的,只需要解决三个主要痛点:必要性、效率和契合度。虽然这两者的融合还处于探索阶段,但并不妨碍这条路径成为下一次牛市的主流。
对新事物保持足够的好奇心和开放的态度是我们的基本心态。从历史上看,从马车到汽车的转变是瞬间解决的,正如铭文和过去的 NFT 所显示的那样。持有太多偏见只会导致错失机会。