Interview met Alexandr Wang
Founder and CEO @ Scale.ai
door 20VC with Harry Stebbings • 2024-06-12

In een boeiend en openhartig gesprek met Harry Stebbings op 20VC legde Alexandr Wang, CEO van Scale AI, de lagen van het huidige AI-landschap bloot, daagde hij de conventionele wijsheid uit en belichtte hij de ware bottleneck voor de prestaties van de volgende generatie modellen. Terwijl de wereld geobsedeerd is door compute (rekencapaciteit), betoogt Wang dat de echte race – en potentiële onderscheidende factor – niet in silicium ligt, maar in data.
De Data Muur: Waarom Compute Niet Langer Genoeg Is
Het interview dook direct in een provocerende vraag: zien we afnemende meeropbrengsten in de prestaties van AI-modellen, waarbij meer compute niet langer betere resultaten garandeert? Wang's antwoord was een klinkend "ja". Hij wees erop dat ondanks een exponentiële stijging van de uitgaven aan Nvidia GPU's sinds eind 2022 (van $5 miljard naar meer dan $20 miljard per kwartaal), we geen "verbijsterend veel beter" basismodel hebben gezien dan GPT-4, dat dateert van vóór deze enorme toename in compute.
Wang legde uit dat AI-vooruitgang rust op drie pijlers: compute, algoritmes en data. Hoewel compute dramatisch is opgeschaald, hebben de andere twee geen gelijke tred gehouden. Cruciaal is dat hij gelooft dat de industrie een "data muur" heeft geraakt. De "gemakkelijke data" – alles wat direct beschikbaar is op het open internet, geschraapt van common crawls of torrents – is grotendeels verbruikt. Deze modellen zijn nu "uitzonderlijk goed in het emuleren van het internet", maar dat is niet genoeg voor de complexe taken en redeneringen die nodig zijn voor echte AGI of effectieve AI-agents.
Key Insights:
- AI-vooruitgang is afhankelijk van compute, data en algoritmes die hand in hand vorderen.
- Massale investeringen in compute na GPT-4 hebben geen evenredige sprongen in de prestaties van basismodellen opgeleverd.
- De industrie heeft de "gemakkelijke data" (internetdata) grotendeels uitgeput, wat leidt tot een prestatieplateau.
De Grens Verleggen: Data Overvloed Cultiveren
Om deze datamuur te doorbreken, introduceerde Wang het concept van "Frontier data". Hij benadrukte dat veel van de complexe redeneringen en probleemoplossingen die de huidige economie aandrijven – zoals het deductieve proces van een fraudeanalist – niet online worden vastgelegd. Dit betekent dat modellen die uitsluitend op internetdata zijn getraind, niet in staat zijn om te leren van deze diepere menselijke intelligentie.
Hoe vangen we deze ongrijpbare Frontier data dan op? Wang schetste twee hoofdwegen. Ten eerste is er een kolossale schat aan propriëtaire data opgesloten binnen bedrijven. Hij noemde de 150 petabytes aan interne data van JPMorgan, wat het minder dan één petabyte internetdataset van GPT-4 in het niet doet vallen. Deze data is echter zeer gevoelig en zou vereisen dat bedrijven deze ontginnen en verfijnen voor hun eigen AI-systemen, waarschijnlijk on-premise of met sterke garanties tegen extern gebruik. Ten tweede, en crucialer voor algemene doorbraken, is "voorwaartse dataproductie". Dit gaat niet alleen over het verzamelen van bestaande data, maar over het creëren van nieuwe, zeer complexe data. Dit omvat een "mens-synthetisch hybride proces" waarbij AI data genereert, en menselijke experts fungeren als "safety drivers" (veiligheidsbestuurders), die de AI begeleiden, fouten corrigeren en cruciale input leveren wanneer modellen vastlopen. Wang beschouwt deze "AI-trainers" of "bijdragers" als banen met de grootste impact voor de samenleving. "Als menselijke expert," merkte hij op, "heb je de mogelijkheid om een maatschappijbrede impact te hebben door data te produceren die deze modellen helpen verbeteren."
Key Changes:
- De overgang van direct beschikbare "gemakkelijke data" naar "Frontier data" is essentieel voor geavanceerde AI.
- Frontier data omvat complexe redeneringsketens, het gebruik van tools en agentisch gedrag dat niet op het open internet te vinden is.
- Data-overvloed zal worden bereikt door het ontginnen van propriëtaire bedrijfsdata en het actief produceren van nieuwe, hoogwaardige data.
- Nieuwe menselijke rollen zullen ontstaan om AI-systemen te begeleiden en te corrigeren bij het genereren van synthetische data, vergelijkbaar met veiligheidsbestuurders van autonome voertuigen.
De Geopolitieke Datarace: Een Nieuwe Koude Oorlog?
Het gesprek nam een wending naar de ingrijpende geopolitieke implicaties van AI, een onderwerp dat volgens Wang te weinig wordt besproken. Hij stelde onomwonden: "In de kern heeft deze AI-technologie het potentieel om een van de grootste militaire activa te zijn die de mensheid ooit heeft gezien, potentieel zelfs een groter militair activum dan kernwapens." Hij schetste een huiveringwekkend scenario waarin een totalitair regime met AGI een natie zonder AGI zou kunnen veroveren.
Wang uitte aanzienlijke bezorgdheid over de snelle AI-vooruitgang van China. Terwijl ze twee jaar geleden "lang niet in de buurt" kwamen van de mogelijkheden van GPT-4, behoort een recent Chinees model, Yi-Large van 0101, nu tot de beste ter wereld, net achter GPT-4o, Gemini en Claude 3 Opus. Hij schreef dit toe aan het uitzonderlijke vermogen van de CCP om "zeer agressieve gecentraliseerde actie en gecentraliseerd industriebeleid te implementeren om cruciale industrieën vooruit te stuwen". Dit patroon, zichtbaar in zonne-energie en EV's, suggereert dat China "een duidelijke kans heeft om vooruit te snellen en ons voorbij te streven". Gezien dit, gelooft Wang dat er een "dichotomie moet ontstaan": geavanceerde, werkelijk krachtige AI-systemen moeten gesloten worden gehouden om militaire en geopolitieke redenen, terwijl minder geavanceerde, open modellen economische waarde kunnen blijven genereren.
Key Learnings:
- AI, met name AGI, zou het meest krachtige militaire middel van de mensheid kunnen zijn, met ingrijpende geopolitieke gevolgen.
- China's gecentraliseerde industriële beleid maakt snelle AI-vooruitgang mogelijk, waardoor de kloof met westerse capaciteiten snel wordt gedicht.
- Een strategisch onderscheid tussen open en gesloten AI-systemen is cruciaal: geavanceerde modellen moeten mogelijk gesloten blijven voor veiligheid, terwijl minder krachtige open kunnen blijven voor breed economisch voordeel.
Concurrentie Herdefiniëren: Data als de Ultieme Voorsprong
In de fel concurrerende wereld van fundamentele modellen gelooft Wang stellig dat data de ultieme onderscheidende factor zal zijn. Hij schetste dat algoritmes uiteindelijk kunnen worden 'reverse-engineered' (terug-ontworpen) of algemene kennis kunnen worden, en compute kan eenvoudigweg worden aangekocht. "Data is een van de weinige gebieden," beweerde hij, "waar je daadwerkelijk een langetermijn duurzaam concurrentievoordeel kunt creëren." Hij noemde de partnerschappen van OpenAI met de Financial Times en Axel Springer als vroege indicatoren van deze verschuiving.
Wang voorspelde stoutmoedig een toekomst waarin AI-leiders niet zullen opscheppen over hun GPU-aantal, maar over "welke data ze toegang toe hebben en wat hun unieke rechten zijn op verschillende databronnen". Deze nadruk op unieke, propriëtaire data zal de marktdifferentiatie aansturen. Bovendien anticipeert hij op een aanzienlijke verschuiving in software, weg van 'walled garden' SaaS naar sterk aangepaste, speciaal gebouwde applicaties voor bedrijven, die doen denken aan de vroege aanpak van Palantir. Dit zal worden aangewakkerd doordat AI de kosten voor softwarecreatie drastisch verlaagt, wat leidt tot een nieuw tijdperk van gepersonaliseerde softwareoplossingen. Dientengevolge zal het langdurige 'per-seat' prijsmodel waarschijnlijk plaatsmaken voor prijsmodellen op basis van verbruik, wat het werk van zowel menselijke werknemers als AI-agents weerspiegelt.
Key Insights:
- Data ontpopt zich als het primaire en meest duurzame concurrentievoordeel in de race om fundamentele modellen.
- Toekomstige concurrentie zal draaien om toegang tot propriëtaire data, eigendom en het vermogen om unieke datasets te produceren.
- De commoditisering van softwarecreatie zal leiden tot maatwerk, aangepaste applicaties voor bedrijven, verdergaand dan generieke SaaS.
- Softwareprijsmodellen zullen evolueren van 'per-seat' naar verbruiksgebaseerd, in lijn met de waarde geleverd door zowel mensen als AI-agents.
Door de Ruist Navigeren: Directe Kanalen en Vertrouwen
Overstappend naar bedrijfsopbouw deelde Wang zijn onconventionele benadering van public relations: "de beste PR is geen PR". Hij betoogde dat traditionele media, vaak gedreven door clicks, de neiging hebben om verhalen te sensationaliseren en te verdraaien, bedrijven op te bouwen en weer af te breken voor engagement. Hij onthulde een verrassende persoonlijke ervaring: "Ik heb meer eerlijke behandeling gekregen tijdens getuigenissen voor het Congres dan van verschillende media-uitgevers door de jaren heen."
Dit perspectief heeft Scale AI ertoe gebracht directe kanalen te prioriteren, zoals podcasts en bedrijfsblogs, waar ze hun boodschap authentiek en zonder wijziging kunnen overbrengen. Dit eigenaarschap van hun narratief zorgt ervoor dat hun verhaal "het puurst" en onbezoedeld is, wat vertrouwen en duidelijkheid schept bij hun publiek.
Key Practices:
- Kies voor een strategie van "geen PR" of minimale betrokkenheid bij traditionele media om sensationalisme en verdraaiing van het narratief te voorkomen.
- Geef prioriteit aan directe communicatiekanalen (podcasts, bedrijfsinhoud) voor authentieke en ongewijzigde berichtgeving.
- Oprichters en bedrijven moeten actief eigenaar zijn van en hun narratief beheren in een steeds rumoeriger informatielandschap.
"In de kern heeft deze AI-technologie het potentieel om een van de grootste militaire activa te zijn die de mensheid ooit heeft gezien, potentieel zelfs een groter militair activum dan kernwapens." - Alexandr Wang


