采访 Alexandr Wang

Founder and CEO @ Scale.ai

采访者 20VC with Harry Stebbings2024-06-12

Alexandr Wang

在与 Harry Stebbings 在 20VC 进行的一场引人入胜且坦诚的对话中,Scale AI CEO Alexandr Wang 深入剖析了当前 AI 领域的现状,挑战了传统观念,并揭示了下一代模型性能的真正瓶颈。当世界痴迷于算力时,Wang 认为真正的竞争——以及潜在的差异化优势——不在于芯片,而在于数据。

数据之墙:为什么算力不再足够

采访直接切入了一个尖锐的问题:我们是否正在看到 AI 模型性能的边际效益递减,即更多的算力不再保证更好的结果?Wang 的回答是斩钉截铁的“是”。他指出,尽管自 2022 年末以来,Nvidia GPU 的支出呈指数级增长(从每季度 50 亿美元增至超过 200 亿美元),但我们尚未看到比 GPT-4 “令人惊叹地更出色”的基础模型,而 GPT-4 却早于这次大规模算力投入的爆发。

Wang 解释说,AI 的进步建立在三大支柱之上:算力、算法和数据。尽管算力已显著提升,但另外两者却未能跟上步伐。他认为,关键在于行业已经撞上了“数据之墙”。“易得数据”——即开放互联网上随处可见、从通用爬虫或种子文件刮取的数据——已基本被消耗殆尽。这些模型现在“非常擅长模仿互联网”,但这对于真正的 AGI 或高效 AI 代理所需的复杂任务和推理来说是远远不够的。

关键洞察:

  • AI 进步依赖于算力、数据和算法的同步推进。
  • GPT-4 之后对算力的大规模投入,并未带来基础模型性能相应的飞跃。
  • 行业已基本耗尽“易得数据”(互联网数据),导致性能趋于停滞。

开拓前沿:培育数据富饶

为了克服这堵数据之墙,Wang 引入了“前沿数据”(Frontier data)的概念。他强调,驱动当今经济的许多复杂推理和问题解决能力——例如欺诈分析师的演绎推理过程——并不会在线上被记录下来。这意味着仅依赖互联网数据训练的模型,缺乏从这种更深层次的人类智能中学习的能力。

那么,我们如何获取这些难以捉摸的前沿数据呢?Wang 提出了两条主要途径。首先,企业内部锁定了巨大的专有数据宝库。他举例称,JPMorgan 拥有 150 拍字节(petabytes)的内部数据,与 GPT-4 不足一个拍字节的互联网数据集相比,规模巨大。然而,这些数据高度敏感,需要企业为其 自身 的 AI 系统进行挖掘和提炼,这很可能是在本地部署(on-prem)或提供强有力的外部使用保障。其次,对于通用突破而言更为关键的是“前向数据生产”。这不仅仅是收集现有数据,而是 创造 全新的、高度复杂的数据。这涉及一个“人机混合过程”,即 AI 生成数据,而人类专家则扮演“安全驾驶员”的角色,指导 AI、纠正错误,并在模型卡壳时提供关键输入。Wang 认为,这些“AI 训练师”或“贡献者”的工作,具有对社会产生最大影响力的杠杆作用。他指出:“作为人类专家,你能够通过生产数据来帮助改进这些模型,从而对全社会产生影响。”

关键转变:

  • 从易得的“简单数据”向“前沿数据”的转变,对于高级 AI 至关重要。
  • 前沿数据涵盖了开放互联网上未见的复杂推理链、工具使用和代理行为。
  • 数据富饶将通过挖掘企业专有数据和积极生产新的高质量数据来实现。
  • 将出现新的人类角色,负责指导和纠正 AI 系统生成合成数据,类似于自动驾驶汽车的安全驾驶员。

地缘政治数据竞赛:一场新的冷战?

对话转向了 AI 深远的地缘政治影响这一话题,Wang 认为这一话题被讨论得不够充分。他直言不讳地指出:“从本质上讲,这项 AI 技术有可能成为人类有史以来最强大的军事资产之一,甚至可能比核武器更具军事价值。”他描绘了一个令人不寒而栗的场景:一个拥有 AGI 的极权主义政权可能会征服没有 AGI 的国家。

Wang 对中国 AI 发展的迅速进展表示了严重关切。他指出,两年前,中国在 AI 能力上可能“远不及”GPT-4,但最近来自 0101 的中国模型 Yi-Large 已跻身世界最佳之列,仅次于 GPT-4o、Gemini 和 Claude 3 Opus。他将此归因于中共实施“极具侵略性的集中行动和集中产业政策以推动关键产业发展”的卓越能力。他表示,这种在太阳能和电动汽车领域已有所体现的模式,表明中国“有明确的机会超越我们、跑在我们前面”。鉴于此,Wang 认为必须出现一种“二元性”:尖端、真正强大的 AI 系统应出于军事和地缘政治原因保持封闭,而较不先进的开源模型可以继续推动经济价值。

主要学习:

  • AI,特别是 AGI,可能成为人类最强大的军事资产,具有深远的地缘政治影响。
  • 中国的集中式产业政策使其能够快速推进 AI 发展,迅速缩小与西方能力的差距。
  • 对开放和封闭 AI 系统进行战略区分至关重要:尖端模型可能需要出于安全考虑保持封闭,而较不强大的模型则可以保持开放以实现广泛的经济效益。

重新定义竞争:数据作为终极护城河

在基础模型竞争激烈的世界中,Wang 坚信数据将是最终的差异化因素。他指出,算法最终可以被逆向工程或成为常识,而算力则可以简单地购买。他断言:“数据是少数几个能够真正产生长期可持续竞争优势的领域之一。”他援引 Open AI 与 Financial Times 和 Axel Springer 的合作,作为这一转变的早期迹象。

Wang 大胆预测了一个未来:AI 领导者将不再吹嘘他们的 GPU 数量,而是“他们能够访问什么数据以及他们对不同数据源拥有哪些独特的权利。”这种对独特、专有数据的强调将推动市场差异化。此外,他预计软件领域将发生重大转变,从“围墙花园”式 SaaS 转向为企业量身定制、专门构建的应用程序,这让人联想到 Palantir 早期的做法。这将由 AI 大幅降低软件创建成本所推动,从而迎来个性化软件解决方案的新时代。因此,长期以来的按席位(per-seat)计费模式可能会让位于基于消费量的计费模式,这反映了人类员工和 AI 代理共同完成的工作。

关键洞察:

  • 数据正在成为基础模型竞争中首要且最持久的竞争优势。
  • 未来的竞争将围绕专有数据访问、所有权以及生产独特数据集的能力展开。
  • 软件创建的商品化将导致企业获得定制化的专属应用程序,超越通用 SaaS。
  • 软件定价模式将从按席位计费演变为基于消费量计费,与人类和 AI 代理共同交付的价值保持一致。

驾驭喧嚣:直接渠道与信任

谈及公司建设,Wang 分享了他对公共关系(PR)的非传统看法:“最好的公关就是没有公关。”他认为,传统媒体往往受点击量驱动,倾向于煽动和扭曲叙事,为了吸引眼球而捧杀或棒杀公司。他透露了一个令人惊讶的个人经历:“我在国会作证时受到的公正对待,比多年来从各种媒体获得的还要多。”

这种观点使 Scale AI 优先选择播客和公司博客等直接渠道,以便真实且不加修改地传递他们的信息。这种对叙事的掌控确保他们的故事“最纯粹”、不被玷污,从而培养与受众的信任和清晰度。

关键实践:

  • 采取“不公关”或尽量减少与传统媒体接触的策略,以避免煽动性和叙事扭曲。
  • 优先使用直接沟通渠道(播客、公司内容),以实现真实且不加修改的信息传递。
  • 在日益喧嚣的信息环境中,创始人与公司必须积极掌控并管理自己的叙事。

“从本质上讲,这项 AI 技术有可能成为人类有史以来最强大的军事资产之一,甚至可能比核武器更具军事价值。”—— Alexandr Wang