Intervju med Alexandr Wang
Founder and CEO @ Scale.ai
av 20VC with Harry Stebbings • 2024-06-12

I ett fängslande och öppenhjärtigt samtal med Harry Stebbings på 20VC, gav Alexandr Wang, VD för Scale AI, en djupare inblick i det nuvarande AI-landskapet. Han utmanade konventionella uppfattningar och framhöll den verkliga flaskhalsen för nästa generations modellers prestanda. Medan världen är besatt av beräkningskraft, menar Wang att den verkliga tävlingen – och potentiella särskiljande faktorn – inte ligger i kisel, utan i data.
Dataväggen: Varför beräkningskraft inte längre räcker till
Intervjun gick rakt in på en provokativ fråga: ser vi avtagande avkastning i AI-modellers prestanda, där mer beräkningskraft inte längre garanterar bättre resultat? Wangs svar var ett rungande "ja". Han påpekade att trots en exponentiell ökning i utgifter för Nvidia GPU:er sedan slutet av 2022 (från 5 miljarder dollar till över 20 miljarder dollar per kvartal), har vi inte sett en "häpnadsväckande bättre" basmodell än GPT-4, som föregår denna massiva brytpunkt för beräkningskraft.
Wang förklarade att AI-framsteg vilar på tre pelare: beräkningskraft, algoritmer och data. Medan beräkningskraft har skalats upp dramatiskt, har de andra två inte hållit jämna steg. Avgörande är att han tror att branschen har nått en "datavägg". Den "lättillgängliga datan" – allt som är lätt tillgängligt på det öppna internet, skrapats från vanliga genomsökningar eller torrenter – har i stort sett konsumerats. Dessa modeller är nu "exceptionellt bra på att emulera internet", men det räcker inte för de komplexa uppgifter och resonemang som krävs för sann AGI eller effektiva AI-agenter.
Nyckelinsikter:
- AI-framsteg bygger på att beräkningskraft, data och algoritmer utvecklas i tandem.
- Massiva investeringar i beräkningskraft efter GPT-4 har inte gett motsvarande språng i basmodellprestanda.
- Branschen har i stort sett uttömt "lättillgänglig data" (internetdata), vilket har lett till en prestandaplatå.
Banbrytande framåt: Odla dataöverflöd
För att övervinna denna datavägg introducerade Wang konceptet "Frontier-data". Han framhöll att mycket av det komplexa resonemanget och problemlösningen som driver dagens ekonomi – som en bedrägerianalytikers deduktiva process – inte skrivs ner online. Detta innebär att modeller som enbart tränas på internetdata saknar förmågan att lära sig av denna djupare mänskliga intelligens.
Så, hur fångar vi denna svårfångade Frontier-data? Wang skisserade två huvudsakliga vägar. För det första finns det en kolossal skattkista av egenutvecklad data låst inom företag. Han nämnde JPMorgan:s 150 petabytes interna data, som förminskar GPT-4:s mindre än en petabyte stora internetdatauppsättning. Denna data är dock högkänslig och skulle kräva att företag bearbetar och förädlar den för sina egna AI-system, sannolikt lokalt ("on-prem") eller med starka garantier mot extern användning. För det andra, och mer avgörande för generaliserade genombrott, är "framåtriktad dataproduktion". Detta handlar inte bara om att samla in befintlig data utan om att skapa ny, mycket komplex data. Detta involverar en "mänskligt-syntetisk hybridprocess" där AI genererar data, och mänskliga experter agerar som "säkerhetsförare", vägleder AI:n, korrigerar fel och ger avgörande input när modeller kör fast. Wang ser dessa "AI-tränare" eller "bidragsgivare" som innehar några av de mest inflytelserika jobben för samhällelig påverkan. "Som mänsklig expert," noterade han, "har du förmågan att påverka hela samhället genom att producera data för att förbättra dessa modeller."
Nyckelförändringar:
- Övergången från lättillgänglig "enkel data" till "Frontier-data" är avgörande för avancerad AI.
- Frontier-data omfattar komplexa resonemangskedjor, verktygsanvändning och agentbeteenden som inte finns på det öppna internet.
- Dataöverflöd kommer att uppnås genom att utvinna egenutvecklad företagsdata och aktivt producera ny, högkvalitativ data.
- Nya mänskliga roller kommer att uppstå för att vägleda och korrigera AI-system vid generering av syntetisk data, liknande säkerhetsförare för autonoma fordon.
Den geopolitiska datakapplöpningen: Ett nytt kallt krig?
Samtalet tog en vändning mot de djupgående geopolitiska implikationerna av AI, ett ämne som Wang anser är underdiskuterat. Han konstaterade skarpt: "I grunden har denna AI-teknik potentialen att vara en av de största militära tillgångar mänskligheten någonsin har sett, potentiellt till och med en större militär tillgång än kärnvapen." Han målade upp ett skrämmande scenario där en totalitär regim med AGI skulle kunna erövra en nation utan den.
Wang uttryckte betydande oro över Kinas snabba AI-framsteg. Medan de för två år sedan kanske var "ingenstans i närheten av" GPT-4:s kapacitet, rankas en nyligen lanserad kinesisk modell, Yi-Large från 0101, nu bland världens bästa, strax efter GPT-4o, Gemini och Claude 3 Opus. Han tillskrev detta KKP:s exceptionella förmåga att implementera "mycket aggressiv centraliserad handling och centraliserad industripolitik för att driva fram kritiska industrier." Detta mönster, sett inom solenergi och elbilar, tyder på att Kina har "en tydlig chans att rusa framåt och springa om oss." Med tanke på detta, anser Wang att det finns en "dikotomi som måste uppstå": banbrytande, verkligt kraftfulla AI-system bör hållas stängda av militära och geopolitiska skäl, medan mindre avancerade, öppna modeller kan fortsätta att driva ekonomiskt värde.
Nyckelläror:
- AI, särskilt AGI, skulle kunna vara mänsklighetens mest potenta militära tillgång, med djupgående geopolitiska konsekvenser.
- Kinas centraliserade industripolitik möjliggör snabba AI-framsteg, vilket snabbt minskar klyftan till västerländska förmågor.
- En strategisk åtskillnad mellan öppna och stängda AI-system är avgörande: banbrytande modeller kan behöva vara stängda av säkerhetsskäl, medan mindre kraftfulla kan förbli öppna för bred ekonomisk nytta.
Omdefiniera konkurrens: Data som den ultimata vallgraven
I den hårt konkurrensutsatta världen av grundmodeller, tror Wang starkt att data kommer att vara den ultimata särskiljande faktorn. Han skisserade att algoritmer så småningom kan omvändkonstrueras eller bli allmän kunskap, och beräkningskraft helt enkelt kan köpas. "Data är ett av få områden," hävdade han, "där du faktiskt kan skapa en långsiktig hållbar konkurrensfördel." Han nämnde Open AI:s partnerskap med Financial Times och Axel Springer som tidiga indikatorer på denna förändring.
Wang förutspådde djärvt en framtid där AI-ledare inte kommer att skryta om sitt antal GPU:er, utan om "vilken data de har tillgång till och vilka deras unika rättigheter är till olika datakällor." Denna betoning på unik, egenutvecklad data kommer att driva marknadsdifferentiering. Vidare förväntar han sig en betydande förändring inom mjukvara, bort från "walled garden"-SaaS till mycket anpassade, specialbyggda applikationer för företag, som påminner om Palantirs tidiga strategi. Detta kommer att drivas av att AI dramatiskt sänker kostnaderna för mjukvaruutveckling, vilket leder till en ny era av personaliserade mjukvarulösningar. Följaktligen kommer den långvariga prismodellen per användare sannolikt att ge vika för konsumtionsbaserad prissättning, som återspeglar det arbete som utförs av både mänskliga anställda och AI-agenter.
Nyckelinsikter:
- Data framstår som den primära och mest hållbara konkurrensfördelen i kapplöpningen om grundmodeller.
- Framtida konkurrens kommer att kretsa kring tillgång till, ägande av, och förmågan att producera unika datamängder.
- Kommodifieringen av mjukvaruutveckling kommer att leda till skräddarsydda, anpassade applikationer för företag, bortom generisk SaaS.
- Mjukvaruprismodeller kommer att utvecklas från per-användare till konsumtionsbaserade, i linje med det värde som levereras av både människor och AI-agenter.
Navigera bruset: Direkta kanaler och förtroende
När samtalet svängde till företagsbyggande, delade Wang med sig av sin okonventionella inställning till public relations: "den bästa PR:en är ingen PR." Han hävdade att traditionella medier, ofta drivna av klick, tenderar att sensationalisera och förvränga narrativ, bygga upp och riva ner företag för att skapa engagemang. Han avslöjade en överraskande personlig erfarenhet: "Jag har fått mer rättvis behandling när jag vittnat inför kongressen än vad jag har fått från olika mediekanaler under åren."
Detta perspektiv har lett Scale AI att prioritera direkta kanaler, som podcaster och företagsbloggar, där de kan överföra sitt budskap autentiskt och utan ändringar. Ägarskapet av deras berättelse säkerställer att deras historia är "renast" och oförvanskad, vilket bygger förtroende och klarhet hos deras publik.
Nyckelpraktiker:
- Anta en strategi med "ingen PR" eller minimalt engagemang med traditionella medier för att undvika sensationalism och narrativ förvrängning.
- Prioritera direkta kommunikationskanaler (podcaster, företagets eget innehåll) för autentisk och oförändrad budskapsförmedling.
- Grundare och företag måste aktivt äga och hantera sin berättelse i ett alltmer brusigt informationslandskap.
"I grunden har denna AI-teknik potentialen att vara en av de största militära tillgångar mänskligheten någonsin har sett, potentiellt till och med en större militär tillgång än kärnvapen." - Alexandr Wang


