Panayam kay Alexandr Wang

Founder and CEO @ Scale.ai

ni 20VC with Harry Stebbings2024-06-12

Alexandr Wang

Sa isang nakakaakit at prangkang pag-uusap kay Harry Stebbings sa 20VC, binusisi ni Alexandr Wang, CEO ng Scale AI, ang kasalukuyang kalagayan ng AI, hinahamon ang nakasanayang paniniwala at itinatampok ang tunay na sagabal sa pagganap ng mga susunod na henerasyong modelo. Habang abala ang mundo sa compute, iginigiit ni Wang na ang tunay na labanan—at posibleng maging pampaiba—ay wala sa silicon, kundi sa data.

Ang Data Wall: Bakit Hindi na Sapat ang Compute Ngayon

Direktang tinalakay sa panayam ang isang mapaghamong tanong: nakikita ba natin ang nababawasan nang pakinabang (diminishing returns) sa pagganap ng modelo ng AI, kung saan ang mas maraming compute ay hindi na garantiyang magbibigay ng mas mahusay na resulta? Ang sagot ni Wang ay isang malakas na "oo." Itinuro niya na sa kabila ng napakabilis na pagtaas ng gastos sa Nvidia GPU mula noong huling bahagi ng 2022 (mula $5 bilyon hanggang mahigit $20 bilyon kada quarter), wala pa tayong nakitang "nakamamanghang mas mahusay" na base model kaysa sa GPT-4, na nauna pa sa malawakang pagbabagong ito sa compute.

Ipinaliwanag ni Wang na ang pag-unlad ng AI ay nakasalalay sa tatlong haligi: compute, algorithms, at data. Habang mabilis na lumaki ang compute, ang dalawa pang haligi ay hindi nakasabay. Higit sa lahat, naniniwala siya na naabot na ng industriya ang isang "data wall" o limitasyon sa data. Ang "madaling data"—lahat ng madaling mahanap sa internet, na kinukuha mula sa mga common crawl o torrent—ay halos naubos na. Ang mga modelong ito ay "napakahusay na sa paggaya ng internet," ngunit hindi iyon sapat para sa mga kumplikadong gawain at pangangatwiran na kailangan para sa totoong AGI o epektibong AI agents.

Key Insights:

  • Ang pag-unlad ng AI ay nakasalalay sa sabay-sabay na pagsulong ng compute, data, at algorithms.
  • Ang malawakang pamumuhunan sa compute pagkatapos ng GPT-4 ay hindi nagdulot ng katumbas na pagtalon sa pagganap ng base model.
  • Malawak nang naubos ng industriya ang "madaling data" (data mula sa internet), na nagresulta sa paghinto ng pagtaas ng pagganap.

Paggawa ng Frontier: Paglinang ng Kasaganaan ng Data

Upang malampasan ang limitasyong ito sa data, ipinakilala ni Wang ang konsepto ng "Frontier data." Binigyang-diin niya na marami sa kumplikadong pangangatwiran at paglutas ng problema na nagpapagana sa ekonomiya ngayon – tulad ng proseso ng paghihinuha ng isang fraud analyst – ay hindi isinusulat online. Ibig sabihin, ang mga modelong sinanay lamang sa data mula sa internet ay kulang sa kakayahang matuto mula sa mas malalim na katalinuhang pantao.

Kaya, paano natin makukuha ang mailap na Frontier data na ito? Binanggit ni Wang ang dalawang pangunahing paraan. Una, mayroong napakalaking koleksyon ng eksklusibong data na nakakulong sa loob ng mga negosyo. Binanggit niya ang 150 petabytes ng panloob na data ng JPMorgan, na malayong mas malaki kaysa sa wala pang isang petabyte na dataset ng internet ng GPT-4. Gayunpaman, ang data na ito ay lubhang sensitibo at mangangailangan ng mga negosyo na kunin at pinuhin ito para sa sarili nilang mga AI system, malamang na on-prem o may matibay na garantiya laban sa panlabas na paggamit. Ikalawa, at mas kritikal para sa mga pangkalahatang tagumpay, ay ang "forward data production" o pagsulong sa paglikha ng data. Hindi lamang ito tungkol sa pagkolekta ng umiiral na data kundi ang paglikha ng bago at lubhang kumplikadong data. Ito ay nagsasangkot ng isang "human-synthetic hybrid process" kung saan ang AI ay gumagawa ng data, at ang mga eksperto ng tao ay nagsisilbing "safety drivers," gumagabay sa AI, nagtatama ng mga pagkakamali, at nagbibigay ng mahalagang input kapag nahihirapan ang mga modelo. Tinitingnan ni Wang ang mga "AI trainers" o "contributors" na ito bilang may hawak ng ilan sa mga pinakamahalagang trabaho para sa epekto sa lipunan. "Bilang isang dalubhasa," sabi niya, "may kakayahan kang magkaroon ng malawakang epekto sa lipunan sa pamamagitan ng paggawa ng data upang makatulong na mapabuti ang mga modelong ito."

Key Changes:

  • Ang paglipat mula sa madaling magagamit na "madaling data" patungo sa "Frontier data" ay mahalaga para sa advanced na AI.
  • Saklaw ng Frontier data ang mga kumplikadong kadena ng pangangatwiran, paggamit ng tool, at agentic behavior na hindi matatagpuan sa bukas na internet.
  • Makakamit ang kasaganaan ng data sa pamamagitan ng pagmimina ng eksklusibong data ng mga negosyo at aktibong paggawa ng bago, mataas na kalidad na data.
  • Lilitaw ang mga bagong tungkulin ng tao upang gabayan at itama ang mga AI system sa pagbuo ng synthetic data, tulad ng mga safety driver ng autonomous vehicle.

Ang Heopolitikal na Karera sa Data: Isang Bagong Cold War?

Ang pag-uusap ay lumiko sa malalim na implikasyong heopolitikal ng AI, isang paksa na naniniwala si Wang na hindi gaanong tinatalakay. Direkta niyang sinabi, "Sa pinakabuod nito, ang teknolohiyang AI na ito ay may potensyal na maging isa sa pinakadakilang ari-arian ng militar na nakita kailanman ng Sangkatauhan, posibleng mas higit pa sa ari-arian ng militar kaysa sa nukes." Nagpinta siya ng isang nakakakilabot na senaryo kung saan ang isang rehimeng totalitarian na may AGI ay maaaring sumakop sa isang bansa na wala nito.

Ipinahayag ni Wang ang malaking pagkabahala sa mabilis na pag-unlad ng AI ng China. Habang dalawang taon na ang nakakaraan ay "malayo pa" sila sa kakayahan ng GPT-4, isang kamakailang modelong Tsino, ang Yi-Large mula sa 0101, ay kasalukuyang nasa hanay ng pinakamahusay sa mundo, kasunod lamang ng GPT-4o, Gemini, at Claude 3 Opus. Ibinigay niya ang dahilan nito sa pambihirang kakayahan ng CCP na magpatupad ng "napakasiglang sentralisadong aksyon at sentralisadong patakarang pang-industriya upang isulong ang mga kritikal na industriya." Ang pattern na ito, na nakita sa solar at EVs, ay nagpapahiwatig na ang China ay may "malinaw na pagkakataong umarangkada at manguna sa atin." Dahil dito, naniniwala si Wang na mayroong "paghahati na dapat lumitaw": ang mga cutting-edge, tunay na makapangyarihang AI system ay dapat panatilihing sarado para sa mga kadahilanang militar at heopolitikal, habang ang hindi gaanong advanced, open models ay maaaring magpatuloy na magdulot ng halaga sa ekonomiya.

Key Learnings:

  • Ang AI, lalo na ang AGI, ay maaaring maging pinakamabisang ari-arian ng militar ng sangkatauhan, na may malalim na implikasyong heopolitikal.
  • Ang sentralisadong patakarang pang-industriya ng China ay nagpapahintulot sa mabilis na pagsulong ng AI, mabilis na isinara ang agwat sa kakayahan ng Kanluran.
  • Mahalaga ang isang estratehikong pagkakaiba sa pagitan ng open at closed AI system: ang mga cutting-edge na modelo ay maaaring kailanganing sarado para sa seguridad, habang ang hindi gaanong makapangyarihan ay maaaring manatiling bukas para sa malawakang benepisyong pang-ekonomiya.

Muling Pagtukoy sa Kumpetisyon: Data Bilang Ang Pinakahuling Pananggalang

Sa matinding kompetisyon sa mundo ng foundation models, matibay ang paniniwala ni Wang na ang data ang magiging pinakahuling pampaiba. Ipinaliwanag niya na ang mga algorithm ay maaaring ma-reverse-engineer o maging karaniwang kaalaman kalaunan, at ang compute ay madali lamang mabibili. "Ang data ay isa sa iilang larangan," diin niya, "kung saan maaari kang talagang makagawa ng pangmatagalang at napapanatiling competitive advantage." Binanggit niya ang pakikipagtulungan ng Open AI sa Financial Times at Axel Springer bilang mga maagang indikasyon ng pagbabagong ito.

Buong tapang na hinulaan ni Wang ang isang hinaharap kung saan ang mga lider ng AI ay hindi magyayabang tungkol sa dami ng kanilang GPU, kundi "kung anong data ang kanilang naa-access at kung ano ang kanilang mga natatanging karapatan sa iba't ibang pinagmumulan ng data." Ang pagbibigay-diin na ito sa natatangi, eksklusibong data ang magtutulak sa pagkakaiba sa merkado. Dagdag pa, inaasahan niya ang isang malaking pagbabago sa software, mula sa "walled garden" na SaaS patungo sa lubos na customized, purpose-built na mga aplikasyon para sa mga negosyo, na nagpapaalala sa maagang diskarte ng Palantir. Ito ay papalakasin ng AI na lubhang magpapababa sa gastos sa paggawa ng software, na magbubunsod ng isang bagong panahon ng mga personalized na solusyon sa software. Dahil dito, ang matagal nang per-seat pricing model ay malamang na mapapalitan ng consumption-based pricing, na sumasalamin sa gawaing ginawa ng parehong empleyado at AI agents.

Key Insights:

  • Ang data ay lumalabas bilang pangunahin at pinakamatibay na competitive advantage sa labanan ng foundation model.
  • Ang kumpetisyon sa hinaharap ay iikot sa pag-access, pagmamay-ari ng eksklusibong data, at ang kakayahang gumawa ng natatanging dataset.
  • Ang pagiging karaniwan ng paggawa ng software ay hahantong sa mga bespoke, customized na aplikasyon para sa mga negosyo, na lampas sa generic na SaaS.
  • Ang mga modelo ng pagpepresyo ng software ay magbabago mula per-seat patungo sa consumption-based, na naaayon sa halagang ibinibigay ng parehong tao at AI agents.

Pagharap sa Ingay: Direktang mga Channel at Tiwala

Lumipat sa pagtatayo ng kumpanya, ibinahagi ni Wang ang kanyang di-nakasanayang diskarte sa public relations: "ang pinakamahusay na PR ay walang PR." Iginigiit niya na ang tradisyunal na media, na madalas na nahuhumaling sa clicks, ay may tendensiyang magpabulagtong at baluktutin ang mga salaysay, bumubuo at nagpapabagsak ng mga kumpanya para sa engagement. Ibinunyag niya ang isang nakakagulat na personal na karanasan: "Mas nakatanggap ako ng patas na pagtrato sa pagbibigay ng testimonya sa harap ng Kongreso kaysa sa iba't ibang media outlets sa paglipas ng mga taon."

Ang pananaw na ito ang nagtulak sa Scale AI na unahin ang direktang mga channel, tulad ng mga podcast at blog ng kumpanya, kung saan maipaparating nila ang kanilang mensahe nang totoo at walang pagbabago. Ang pagmamay-ari na ito sa kanilang salaysay ay nagsisigurong "purong-puro" at walang bahid ang kanilang kuwento, na nagpapatibay ng tiwala at kalinawan sa kanilang audience.

Key Practices:

  • Magpatibay ng estratehiya ng "walang PR" o minimal na pakikipag-ugnayan sa tradisyonal na media upang maiwasan ang sensationalism at pagbaluktot ng salaysay.
  • Unahin ang direktang mga channel ng komunikasyon (mga podcast, nilalaman ng kumpanya) para sa totoo at walang pagbabagong mensahe.
  • Ang mga nagtatag at kumpanya ay dapat aktibong magmay-ari at pamahalaan ang kanilang salaysay sa isang lalong maingay na landscape ng impormasyon.

"Sa pinakabuod nito, ang teknolohiyang AI na ito ay may potensyal na maging isa sa pinakadakilang ari-arian ng militar na nakita kailanman ng Sangkatauhan, posibleng mas higit pa sa ari-arian ng militar kaysa sa nukes." - Alexandr Wang