区块链:AI 需要 Web3_人工智能

作者:cointime

直到最近,初创企业一直引领技术创新的道路,因为它们具有速度快、敏捷、创业文化以及摆脱组织惯性的自由。然而,在快速增长的 AI 时代中,情况发生了变化。到目前为止,像微软旗下的 OpenAI、英伟达、谷歌甚至是 Meta 这样的大型科技巨头一直主导着突破性的 AI 产品。

那么出了什么问题?为什么这一次“Goliaths”胜过了“Davids”?虽然初创企业可以编写出很棒的代码,但由于几个挑战,它们往往无法与大型科技巨头竞争:

1、计算成本仍然极高;

2、AI 存在一个叫做“反向阻塞”(reverse salient)的问题:缺乏必要的监管措施,会因对社会影响的担忧和不确定性而阻碍创新;

3、AI 是黑盒子;

4、已经扩展的参与者(大型科技公司)的数据鸿沟为新兴竞争对手设置了障碍。

那么,这与区块链技术有什么关系,它在何处与人工智能相交?虽然不是万能的,但在 Web3中,DePIN(去中心化物理基础网络)可以通过解决上述挑战来提高 AI 技术。在本文中,我将解释如何利用 DePIN 背后的技术,从四个维度增强人工智能:

1、降低基础设施成本;

2、验证制作者身份和人性;

3、注入民主和透明度到 AI 中;

4、为数据贡献安装激励机制。

在本文的语境中,

1、“Web3”被定义为下一代互联网,其中区块链技术是其中的一个重要部分,还包括其他现有技术;

2、“区块链”是指分散和分布式账本技术;

3、“加密货币”是指使用代币作为一种激励和分散机制。

第一,降低基础设施成本(计算和存储)

基础设施可负担性的重要性(在 AI 的语境下,是计算、传递和存储数据的硬件成本)在卡洛塔·佩雷斯(Carlota Perez)的“技术革命”框架中得到了突出体现。该框架提出,每一次技术突破都有两个阶段:

1)安装阶段以大量 VC 投资、基础设施建立和“推动”上市(GTM)方法为特征,因为客户对新技术的价值主张还不清晰。

2)部署阶段以基础设施供应的迅速增加为特征,这降低了新进入者的门槛,同时以“拉动”GTM 方法为特征,表明客户渴望更多尚未建立的产品并且存在强烈的产品-市场契合度。

虽然 ChatGPT 已经有了明确的产品——市场契合度和巨大的客户需求,人们可能认为 AI已经进入了部署阶段。

然而,仍然缺少一件事情:过剩的基础设施供应,使其价格便宜到足以满足价格敏感型的初创企业进行构建和实验。

1、问题

问题在于,物理基础设施领域当前的市场动态主要是垂直一体化寡头垄断,其中像 AWS、GCP、Azure、Nvidia、Cloudflare 和 Akamai 这样的公司享有高额利润。例如,AWS 在商品化计算硬件上估计有 61% 的毛利润。

对于 AI 新进入者来说,计算成本过高,尤其是在 LLM 方面。

ChatGPT 的训练成本约为 4 百万美元,硬件推理成本每天约为 70 万美元。

Bloom 的第二版预计将需要花费 1000 万美元进行训练和重新训练。

如果 ChatGPT 被部署到 Google 搜索中,将导致谷歌营收减少 360 亿美元,这是从软件平台(谷歌)到硬件供应商(Nvidia)的巨大盈利转移。

2、解决方案

1)推高供应曲线,创造更具竞争性的市场

DePIN 使硬件供应商能够成为服务提供商,民主化了硬件供应商的准入。它通过创建一个市场,让任何人都可以加入网络作为“矿工”,提供他们的 CPU/GPU 或存储能力以换取财务奖励,从而给这些既得利益者带来竞争。

虽然像AWS这样的公司在用户界面、操作卓越性和垂直整合方面无疑享有 17 年的领先优势,但 DePIN 解锁了一个以前被中央化提供商定价过高的新客户群体。就像 Ebay 不会直接与 Bloomingdale 竞争,而是引入更经济实惠的替代品来满足类似的需求一样,DePIN 网络不会取代中央化提供商,而是旨在为更注重价格的用户群体服务。

2)通过加密经济设计平衡这些市场的经济

DePIN 创建了一种补贴机制,以引导硬件供应商参与网络,从而降低终端用户的成本。为了理解它的工作原理,让我们首先比较一下 AWS 和 Filecoin 中存储供应商的成本和收入。

A、DePIN 网络可以为客户降低费用:DePIN 网络创建了竞争性市场,引入 Bertrand-style的竞争,从而为客户降低费用。相比之下,AWS EC2 需要中间 50% 的利润率和 31% 的总利润率来维持运营。

B、通过发行代币奖励/区块奖励作为新的收入来源,DePIN 网络可以提供更多优惠。在Filecoin 的上下文中,托管更多实际数据意味着存储提供商赚取更多的区块奖励(代币)。因此,存储提供商有动力吸引更多客户和赢得更多的交易以最大化收入。几个新兴计算 DePIN 网络的代币结构仍然保密,但可能会遵循类似的模式。这些网络的示例包括:

Bacalhau:一种协调层,将计算带到数据存储的地方,而无需移动大量数据

ExaBITS:一种专门针对人工智能和计算密集型应用程序的分散计算网络

3)降低开销成本:

DePIN 网络,如 Bacalhau 和 ExaBITS 以及 IPFS/内容寻址存储的好处包括:

A、从潜在数据中创建可用性:由于传输大型数据集的高带宽成本,存在大量未开发的数据。例如,体育场馆产生大量事件数据,目前未被使用。DePIN 项目通过在现场处理数据并仅传输有意义的输出来解锁此类潜在数据的可用性。

B、通过本地摄入数据降低运营成本,如数据输入、传输和进口/出口。

C、最小化共享敏感数据的手动过程:例如,如果医院 A 和 B 需要合并各自的敏感患者数据进行分析,他们可以使用 Bacalhau 协调 GPU 功率直接在本地处理敏感数据,而不是通过繁琐的行政程序与对方处理 PII(个人可识别信息)交换。

D、消除重新计算基础数据集的需求:IPFS/内容寻址存储具有内置属性,可以去重、跟踪血统并验证数据。以下是有关IPFS带来的功能和成本效益的进一步阅读。

3、总结

AI 需要 DePIN 以获取负担得起的基础设施,而当前市场上由垂直一体化寡头垄断。DePIN网络如 Filecoin、Bacalhau、Render Network 和 ExaBits 通过民主化硬件供应商的准入并引入竞争、通过加密经济设计平衡市场经济以及降低开销成本等方式,可以提供 75%-90%+ 的成本节省。

第二,Creatorship & Humanity 验证

最近的一项调查显示,50% 的人工智能科学家认为,人工智能导致人类毁灭的可能性至少有 10%。

这是一个令人警醒的想法。人工智能已经引起了社会混乱,我们目前缺乏监管或技术保障架构——所谓的“反向跳板”。

不幸的是,人工智能的社会影响远不止于假的播客辩论和图像:

1)2024 年的总统选举周期将是其中之一,这是一个由深度伪造的人工智能生成的竞选活动,很难与真实的竞选活动区分开来。

2)对参议员伊丽莎白·沃伦进行修改的视频,使其看起来像沃伦在说共和党人不应该被允许投票(已被揭穿)。

3)仿冒拜登批评跨性别女性的声音克隆。

4)一群艺术家对 Midjourney 和 Stability AI 提起集体诉讼,指控未经授权使用艺术家的作品来训练侵犯这些艺术家商标并威胁他们生计的 AI 图像。

5)一首名为“Heart on My Sleeve”的深度伪造人工智能生成的原声带,由 The Weeknd 和Drake 演唱,在被流媒体服务下架之前广受关注。围绕版权侵犯的争议是一个预示,当一项新技术进入主流意识之前没有必要的规则时,可能会出现的复杂情况。换句话说,这是一个反向跳板问题。

如果我们可以在 Web3 中通过加密证明对 AI 进行一些保护怎么样?

1)通过区块链上的加密源头证明,证明创作者身份和人类身份。

这就是我们可以利用区块链技术的地方——作为包含区块链上不可篡改记录的分布式账本。这使得可以通过检查其加密证明来验证数字内容的真实性。

2)数字签名证明创作者身份和人性

为了防止深度伪造,可以使用数字签名生成加密证明,该数字签名是唯一的原始内容创建者的签名。此签名可以使用私钥创建,只有创建者知道,可以使用公钥验证,所有人都可以使用。通过将此签名附加到内容上,可以证明内容是由原始创作者创建的,无论他们是人还是 AI,并且对此内容进行了授权/未经授权的更改。

3)使用 IPFS 和 Merkle 树证明真实性

IPFS 是一种去中心化协议,使用内容寻址和 Merkle 树引用大型数据集。为了证明文件内容的更改,将生成 Merkle 证明,该证明是显示特定数据块在 Merkle 树中的哈希列表。每次更改时,会生成一个新的哈希并更新 Merkle 树,提供文件修改的证明。

这样的加密解决方案可能会面临激励与奖励的问题:

毕竟捕捉深度伪造生成器不会产生像减少负面社会外部性那样多的财务代价。责任很可能落在主要的媒体分发平台,如 Twitter、Meta、Google 等身上,他们已经在进行标记。

那么为什么我们需要区块链呢?

答案是这些加密签名和真实性证明更有效、可验证和确定性。今天,检测深度伪造的过程主要是通过机器学习算法(例如 Meta 的“Deepfake Detection Challenge”、“Google 的不对称数字系统”(ANS)和 c2pa)来识别视觉内容中的模式和异常,这有时不准确,并且正在落后于越来越复杂的深度假货。通常需要人工审核的干预来评估真实性,这既低效又昂贵。

想象一个世界,在这个世界中,每个内容都有其加密签名,以便每个人都能可验证地证明创作的来源并标记操纵或伪造——一个新的勇敢世界。

人工智能对社会构成了重大威胁,深度伪造和未经授权使用内容是主要问题。Web3 技术,如数字签名证明创作者身份和人性和使用 IPFS 和 Merkle 树证明真实性,可以通过验证数字内容的真实性和防止未经授权的更改来为 AI 提供保障。

第三,AI 中注入民主

如今,人工智能是由专有数据和专有算法组成的黑匣子。这种大型科技公司的封闭性导致了“AI 民主”的不可能性,即每个开发者甚至用户都应该能够为 LLM 模型贡献算法和数据,并从模型的未来利润中获得一部分(如本文所讨论的)。

AI 民主=可见性(能够看到输入到模型中的数据和算法)+贡献(能够为模型贡献数据或算法)。

AI 民主旨在使生成式 AI 模型对每个人都可访问、相关且拥有。下表比较了今天可能的情况和区块链技术在 Web3 中将可能实现的情况。

1)如今

A、对于消费者:

B、对于开发者:

很少可重复性,因为没有数据上执行过的 ETL 的可追溯性

80% 的数据科学家时间被浪费在执行低级别数据清理工作上,因为缺乏可验证共享数据输出的能力

2)区块链将会使之成为可能:

用户可以提供反馈(例如关于偏见、内容审查、输出的细粒度反馈)作为连续微调的输入

去中心化数据策划层:众包繁琐和耗时的数据准备过程,如数据标注

可见性和能力来组合和微调算法,具有可验证且基于血统(即他们可以看到过去所有变化的防篡改历史记录)

数据主权(通过内容寻址/IPFS 实现)和算法主权(例如 Urbit 实现数据和算法的点对点组合性和可移植性)

从开源模型的基本变体中不断涌现出的创新 LLM 产生了加速创新的推动

通过区块链不可变记录过去 ETL 操作和查询的可重复性训练数据输出(例如 Kamu)

可能会有人认为 Web2 的开源平台是一个折中方案,但由于本文所述的原因,它仍然远未达到最优状态。

大型科技公司的封闭性导致了“AI 民主”的不可能性,即每个开发者或用户都应该能够为 LLM 模型贡献算法和数据,并从模型的未来利润中获得一部分。AI 应该对每个人都可访问、相关且拥有。区块链网络将使用户能够提供反馈,为模型变现贡献数据,并使开发者具有可见性和能力来组合和微调算法,并具有可验证和基于血统的特点。Web3 创新,如内容寻址/IPFS 和 Urbit,将实现数据和算法的主权。通过区块链的不可变记录过去 ETL 操作和查询的可重复性训练数据输出也将成为可能。

第四,设置数据贡献激励

如今,最有价值的消费者数据是大型科技平台的专有业务鸿沟。技术巨头没有太多的激励去将这些数据与外部方共享。

那么,为什么不直接从数据原始发起人/用户获取这些数据呢?为什么不能通过贡献我们的数据并开源它供有才华的数据科学家使用,使数据成为公共物?

简而言之,没有激励或协调机制可以实现这一点。维护数据和执行 ETL(提取、转换和加载)的任务会产生显著的开销。事实上,仅数据存储行业就将在 2030 年成为价值 7770 亿美元的行业,还没有计算计算成本。为什么有人会在没有任何回报的情况下承担数据管道工作和成本呢?

例如,OpenAI 最初是开源和非盈利性的,但由于赚钱不易,陷入了困境。最终,在 2019年,它不得不接受微软的注资,并关闭了其算法对公众的开放性。到 2024 年,OpenAI 预计将创造 10 亿美元的收入。

Web3 引入了一种称为 dataDAO 的新机制,促进了从 AI 模型所有者到数据贡献者的收入再分配,为众包数据贡献创建了激励层。

结语

总之,DePIN 是一个令人兴奋的新类别,在硬件上提供了一种替代燃料,以推动 Web3 和AI 创新的复兴。

虽然大型科技公司主导了 AI 行业,但利用区块链技术竞争的新兴参与者也有潜力:

DePIN 网络降低了计算成本的门槛;区块链的可验证和分散特性使真正的开放式 AI 成为可能;创新机制,如 dataDAO,激励数据贡献;区块链的不可变和防篡改属性提供了创作者身份的证明,以应对有关 AI 的负面社会影响的担忧。

金色财经

企业专栏

阅读更多

金色早8点

Odaily星球日报

Block unicorn

DAOrayaki

曼昆区块链法律

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

大币网

[0:15ms0-7:626ms