とのインタビュー Alexandr Wang
Founder and CEO @ Scale.ai
インタビュアー 20VC with Harry Stebbings • 2024-06-12

20VCでのハリー・ステビングス氏との魅力的な率直な対談で、Scale AIのCEOであるアレクサンドル・ワン氏は、現在のAI業界の現状を深く掘り下げ、これまでの常識に異を唱え、次世代モデルのパフォーマンスにおける真のボトルネックを浮き彫りにしました。世間は計算能力(コンピュート)に熱狂していますが、ワン氏は、真の競争、そして差別化の可能性は、シリコン(ハードウェア)ではなく、データにあると主張しています。
データ障壁:なぜ計算能力だけでは不十分なのか
インタビューでは、ある挑発的な質問が投げかけられました。AIモデルの性能は頭打ちになり、計算能力を増やしても必ずしも良い結果に繋がらなくなっているのではないか? ワン氏の答えは「イエス」という明確なものでした。2022年後半以降、NvidiaのGPUへの支出が(四半期あたり50億ドルから200億ドル以上へと)指数関数的に急増しているにもかかわらず、この莫大な計算能力の転換点よりも前に登場したGPT-4を、「目を見張るほど」上回るような基盤モデルは現れていないと指摘しました。
ワン氏は、AIの進歩は計算能力、アルゴリズム、そしてデータの3つの柱に基づいていると説明しました。計算能力は劇的に向上した一方で、他の2つはそのペースに追いついていないと述べました。決定的に重要な点として、業界は「データの壁」に直面していると彼は考えています。オープンインターネット上で容易に入手でき、一般的なクロールやトレントから収集された「簡単なデータ」は、ほぼ使い尽くされています。これらのモデルは現在、「インターネットを模倣することには非常に優れています」が、真のAGIや効果的なAIエージェントに必要な複雑なタスクや推論には、それだけでは不十分です。
Key Insights:
- AIの進歩は、計算能力、データ、アルゴリズムが同時に進歩することにかかっている。
- GPT-4以降の計算能力への大規模な投資は、基盤モデルの性能にそれに見合う飛躍をもたらしていない。
- 業界は「簡単なデータ」(インターネット上のデータ)をほぼ使い果たし、性能の頭打ちにつながっている。
フロンティアデータの開拓:データ豊富さの醸成
このデータの壁を乗り越えるため、ワン氏は「フロンティアデータ」という概念を導入しました。彼は、今日の経済を動かす複雑な推論や問題解決の多く、例えば不正アナリストの演繹的なプロセスなどは、オンライン上に書き記されることがないと強調しました。これは、インターネットデータのみで学習されたモデルでは、このより深い人間的な知性から学ぶ能力が欠如していることを意味します。
では、この捉えにくいフロンティアデータをどのように捉えるのか? ワン氏は主に2つの方法を挙げました。まず、企業内に閉じ込められた膨大な量の独自のデータがあります。彼は、JPMorganが持つ150ペタバイトもの社内データを挙げ、GPT-4の1ペタバイト未満のインターネットデータセットを圧倒する規模だと述べました。しかし、このデータは非常に機密性が高く、企業が自社のAIシステムのために採掘・精製する必要があり、おそらくオンプレミス環境で、または外部利用に対する厳格な保証のもとで行われるでしょう。第二に、そして汎用的なブレイクスルーにとってより重要なのは、「フォワードデータ生成」です。これは既存のデータを収集するだけでなく、新しい非常に複雑なデータを作り出すことです。これには、「人間と合成のハイブリッドプロセス」が関わります。AIがデータを生成し、人間の専門家が「セーフティドライバー」としてAIを誘導し、エラーを修正し、モデルが行き詰まったときに決定的な入力を行います。ワン氏は、これらの「AIトレーナー」や「貢献者」が、社会に大きな影響を与える最も重要な仕事の一つであると考えています。「人間である専門家として、これらのモデルを改善するデータを作成することで、社会全体に影響を与えることができるのです」と彼は述べました。
Key Changes:
- 容易に入手できる「簡単なデータ」から「フロンティアデータ」への移行が、高度なAIには不可欠である。
- フロンティアデータには、オープンインターネット上には見られない複雑な推論連鎖、ツール使用、エージェント的な振る舞いが含まれる。
- データ豊富さは、企業の独自データを採掘することと、新しい高品質なデータを積極的に生成することによって達成される。
- 合成データの生成においてAIシステムを誘導・修正するための新たな人間の役割が登場するだろう。これは自動運転車のセーフティドライバーに似ている。
地政学的なデータ競争:新たな冷戦か?
会話はAIの深遠な地政学的影響へと移り、これはワン氏が十分に議論されていないと考えるテーマです。彼は、「このAI技術はその本質において、人類がこれまで目にしたことのない最も偉大な軍事資産の一つとなる可能性があり、核兵器よりも強力な軍事資産となる可能性さえある」と手厳しく述べました。AGIを持つ全体主義国家が、それを持たない国家を征服する恐ろしいシナリオを描きました。
ワン氏は中国の急速なAIの進歩に大きな懸念を表明しました。2年前にはGPT-4の能力に「全く及ばなかった」かもしれませんが、0101の最新の中国製モデル「Yi-Large」は、現在、GPT-4o、Gemini、Claude 3 Opusに次ぐ世界最高水準の一つにランクされています。彼はこれを、中国共産党(CCP)が「非常に積極的な中央集権的行動と中央集権的産業政策」を実行し、基幹産業を推進する並外れた能力があるためだとしました。太陽光発電やEVで見られたこのパターンは、中国が「我々を追い抜き、先を行く明確な機会を持っている」ことを示唆しています。この状況を踏まえ、ワン氏は「出現すべき二分法」があると考えています。最先端の真に強力なAIシステムは軍事的・地政学的理由からクローズドに保つべきであり、一方、それほど高度でないオープンモデルは経済的価値を創出し続けることができる、というものです。
Key Learnings:
- AI、特にAGIは、人類にとって最も強力な軍事資産となり、深刻な地政学的影響をもたらす可能性がある。
- 中国の中央集権的産業政策は、急速なAIの進歩を可能にし、西側諸国との差を急速に縮めている。
- オープンAIシステムとクローズドAIシステムを戦略的に区別することが重要である。最先端モデルは安全保障上の理由からクローズドにする必要があるかもしれないが、それほど強力でないモデルは広範な経済的利益のためにオープンに保つことができる。
競争の再定義:究極の参入障壁としてのデータ
基盤モデルの激しい競争において、ワン氏はデータが究極の差別化要因になると強く信じています。アルゴリズムはいずれリバースエンジニアリングされたり、共通の知識になったりする可能性があり、計算能力は単純に購入できると説明しました。彼は、「データは、長期的に持続可能な競争優位性を実際に生み出せる数少ない分野の一つだ」と断言しました。この変化の初期の兆候として、Open AIがFinancial TimesやAxel Springerと提携したことを挙げました。
ワン氏は大胆にも、AIのリーダー企業がGPUの数を自慢するのではなく、「どのようなデータにアクセスできるか、そして異なるデータソースに対してどのような独自の権利を持っているか」について語る未来を予測しました。この独自の、専有データへの重点が市場の差別化を推進するでしょう。さらに彼は、ソフトウェアに大きな変化が起こると予測しています。「囲い込み型(walled garden)」のSaaSから、Palantirの初期のアプローチを彷彿とさせるような、企業向けの高度にカスタマイズされた目的特化型アプリケーションへと移行するだろうと。これは、AIがソフトウェア開発コストを劇的に引き下げることで加速され、パーソナライズされたソフトウェアソリューションの新たな時代を導くでしょう。その結果、長年続いてきたシートあたりの料金モデルは、人間の従業員とAIエージェントの両方が行った作業を反映した、利用量に応じた料金体系に取って代わられる可能性が高いです。
Key Insights:
- 基盤モデル競争において、データが主要かつ最も持続可能な競争優位性として台頭している。
- 将来の競争は、独自データへのアクセス、所有権、そしてユニークなデータセットを生成する能力を中心に展開するだろう。
- ソフトウェア作成のコモディティ化は、汎用的なSaaSを超え、企業向けのオーダーメイドのカスタマイズアプリケーションへと繋がる。
- ソフトウェアの料金モデルは、シート単位から利用量ベースへと進化し、人間とAIエージェントの両方によって提供される価値と一致するようになるだろう。
ノイズの中を進む:ダイレクトチャネルと信頼
会社設立に話題を移し、ワン氏は広報に対する自身の型破りなアプローチを共有しました。「最高のPRはPRしないことだ」と。彼は、従来のメディアはクリックに煽られがちで、エンゲージメントのために企業を盛り上げたり、引きずり下ろしたりすることで、物語をセンセーショナルにしたり歪めたりする傾向があると主張しました。彼は驚くべき個人的な経験を明かしました。「長年にわたる様々なメディアよりも、議会の前で証言する方が公平な扱いを受けました」。
この考え方から、Scale AIはポッドキャストや企業ブログのようなダイレクトチャネルを優先しています。そこでは、彼らがメッセージを本物らしく、改変することなく伝えることができます。このナラティブの所有権が、彼らのストーリーが「最も純粋」で汚されていないことを保証し、聴衆との信頼と明確さを育んでいます。
Key Practices:
- センセーショナリズムやナラティブの歪みを避けるため、「PRしない」戦略、または従来のメディアとの関与を最小限に抑える戦略を採用する。
- 本物で改変されていないメッセージを発信するために、ダイレクトなコミュニケーションチャネル(ポッドキャスト、企業コンテンツ)を優先する。
- 創業者や企業は、ますますノイズの多い情報環境において、自社のナラティブを積極的に所有し、管理しなければならない。
「このAI技術はその本質において、人類がこれまで目にしたことのない最も偉大な軍事資産の一つとなる可能性があり、核兵器よりも強力な軍事資産となる可能性さえある。」 – アレクサンドル・ワン


