採訪 Alexandr Wang

Founder and CEO @ Scale.ai

採訪者 20VC with Harry Stebbings2024-06-12

Alexandr Wang

在 Harry Stebbings 的 20VC 節目中,Scale AI 的 CEO Alexandr Wang 進行了一場引人入勝且坦誠的對談,剖析了當前的 AI 格局,挑戰了傳統觀念,並點出下一代模型性能的真正瓶頸。當全世界都痴迷於算力時,Wang 先生卻認為,真正的競爭——以及潛在的區隔因素——不在於晶片,而在於數據。

數據之牆:為何算力不再足夠

這次訪談直接切入一個尖銳的問題:我們是否正在看到 AI 模型性能出現邊際效益遞減,即更多算力不再保證更好的結果?Wang 先生的答案是響亮的「是的」。他指出,儘管自 2022 年底以來 Nvidia GPU 的支出呈指數級增長(從每季度 50 億美元增至超過 200 億美元),我們卻沒有看到比 GPT-4「令人驚嘆的更優」基礎模型,而 GPT-4 早於這波巨大的算力拐點。

Wang 先生解釋說,AI 的進步基於三大支柱:算力、演算法和數據。雖然算力已顯著提升,但其他兩者未能跟上。關鍵是,他認為業界已撞上「數據之牆」。「唾手可得的數據」——即在開放網路上隨處可得、從常見的網路爬蟲或種子文件中抓取的一切數據——已大致消耗殆盡。這些模型現在「非常擅長模擬網路內容」,但對於真正 AGI 或有效 AI 代理所需的複雜任務和推理能力來說,這還遠遠不夠。

關鍵洞察:

  • AI 的進步有賴於算力、數據和演算法的同步發展。
  • GPT-4 之後對算力的大規模投資,並未帶來基礎模型性能的相應飛躍。
  • 業界已大致耗盡「唾手可得的數據」(網路數據),導致性能陷入瓶頸。

開拓前沿:培育數據豐饒

為了克服這道數據之牆,Wang 先生引入了「前沿數據」(Frontier data) 的概念。他強調,推動當今經濟發展的許多複雜推理和解決問題能力——例如詐欺分析師的推論過程——並未被記錄在網路上。這意味著僅憑網路數據訓練的模型缺乏從這種更深層次的人類智慧中學習的能力。

那麼,我們如何獲取這些難以捉摸的前沿數據呢?Wang 先生提出了兩大主要途徑。首先,企業內部鎖著大量的專有數據。他提到 JPMorgan 擁有 150 PB 的內部數據,遠超過 GPT-4 不到一個 PB 的網路數據集。然而,這些數據高度敏感,將需要企業為其自身的 AI 系統挖掘和提煉,可能在內部部署 (on-prem) 或提供強有力的保證,防止外部使用。其次,對於普適性突破更為關鍵的是「前瞻性數據生產」。這不僅是收集現有數據,更是創造新的、高度複雜的數據。這涉及一種「人機混合式流程」,其中 AI 生成數據,而人類專家扮演「安全駕駛」的角色,引導 AI、糾正錯誤,並在模型卡關時提供關鍵輸入。Wang 先生認為這些「AI 訓練師」或「貢獻者」承擔著對社會影響力最大的工作。他指出:「作為人類專家,透過生產數據來幫助改進這些模型,你就有能力對全社會產生影響。」

關鍵轉變:

  • 從唾手可得的「簡單數據」過渡到「前沿數據」,對於進階 AI 至關重要。
  • 前沿數據涵蓋了在開放網路上找不到的複雜推理鏈、工具使用和代理行為。
  • 數據豐饒將透過挖掘專有企業數據和積極生產新的高品質數據來實現。
  • 將出現新的人類角色,引導和糾正 AI 系統生成合成數據,類似於自動駕駛汽車的安全駕駛員。

地緣政治數據競賽:新冷戰?

這次對談轉向了 AI 深遠的地緣政治影響,這也是 Wang 先生認為討論不足的議題。他直言不諱地指出:「從根本上說,這項 AI 技術有潛力成為人類有史以來最偉大的軍事資產之一,甚至可能比核武器更具軍事價值。」他描繪了一個令人不寒而慄的場景:擁有 AGI 的極權主義政權可能征服沒有 AGI 的國家。

Wang 先生對中國 AI 快速發展表達了極大擔憂。兩年前,他們可能還「遠遠不及」GPT-4 的能力,而最近來自 0101 的中國模型 Yi-Large,現已位居世界頂尖之列,僅次於 GPT-4o、Gemini 和 Claude 3 Opus。他將此歸因於中共實施「極為積極的集中行動和集中產業政策,以推動關鍵產業發展」的卓越能力。這種在太陽能和電動車領域可見的模式,表明中國「有明確機會超前我們」。鑑於此,Wang 先生認為「必須出現的二分法」:尖端、真正強大的 AI 系統應基於軍事和地緣政治原因而保持封閉,而較不先進的開放模型則可繼續推動經濟價值。

關鍵學習:

  • AI,尤其是 AGI,可能是人類有史以來最強大的軍事資產,並帶來深遠的地緣政治影響。
  • 中國的集中式產業政策使其 AI 快速發展,迅速縮小與西方能力的差距。
  • 區分開放和封閉 AI 系統具有戰略重要性:尖端模型可能需要為安全而保持封閉,而較不強大的模型則可保持開放以實現廣泛的經濟效益。

重新定義競爭:數據作為終極護城河

在基礎模型激烈競爭的世界中,Wang 先生堅信數據將是最終的區分因素。他指出,演算法最終會被逆向工程或成為常識,算力則可以簡單地購買。他斷言:「數據是少數幾個可以真正產生長期可持續競爭優勢的領域之一。」他引用 OpenAI 與 Financial Times 和 Axel Springer 的合作作為這種轉變的早期跡象。

Wang 先生大膽預測了一個未來,AI 領導者將不再吹噓他們的 GPU 數量,而是「他們能存取哪些數據,以及他們對不同數據來源擁有什麼樣的獨特權利」。對獨特專有數據的強調將推動市場差異化。此外,他預期軟體領域將發生重大轉變,從「圍牆花園」式的 SaaS 轉向為企業高度客製化、專門打造的應用程式,這讓人想起 Palantir 早期的做法。這將由 AI 大幅降低軟體開發成本所推動,引領個人化軟體解決方案的新時代。因此,長期的按座位計費模式可能會讓位給基於消費的計費模式,反映人類員工和 AI 代理所完成的工作。

關鍵洞察:

  • 數據正在成為基礎模型競爭中最主要、最持久的競爭優勢。
  • 未來的競爭將圍繞專有數據的存取權、所有權以及生產獨特數據集的能力。
  • 軟體開發的商品化將導致為企業提供量身定制的客製化應用程式,超越通用的 SaaS 模式。
  • 軟體定價模式將從按座位計費演變為基於消費的模式,與人類和 AI 代理所創造的價值保持一致。

駕馭喧囂:直接管道與信任

談到公司建設,Wang 先生分享了他對公關的非傳統做法:「最好的公關就是沒有公關」。他認為,傳統媒體,通常受點擊率驅動,傾向於誇大和扭曲敘事,為了吸引眼球而捧高和貶低公司。他透露了一個令人驚訝的個人經歷:「多年來,我在國會作證時受到的公平待遇,比我從各種媒體那裡得到的還要多。」

這種觀點使得 Scale AI 優先採用直接管道,例如播客和公司部落格,以便真實且不經修改地傳達他們的訊息。對其敘事的掌控確保了他們的故事是「最純粹」且未受污染的,增進與受眾之間的信任和清晰度。

關鍵實踐:

  • 採取「不公關」策略,或盡量減少與傳統媒體的互動,以避免譁眾取寵和敘事扭曲。
  • 優先使用直接溝通管道(播客、公司內容)來傳達真實且未經修改的訊息。
  • 在日益嘈雜的資訊環境中,創始人和公司必須積極掌控並管理他們的敘事。

「從根本上說,這項 AI 技術有潛力成為人類有史以來最偉大的軍事資產之一,甚至可能比核武器更具軍事價值。」- Alexandr Wang