Entrevista con Alexandr Wang
Founder and CEO @ Scale.ai
por 20VC with Harry Stebbings • 2024-06-12

En una conversación cautivadora y sincera con Harry Stebbings en 20VC, Alexandr Wang, CEO de Scale AI, desgranó las complejidades del panorama actual de la IA, desafiando la sabiduría convencional y señalando el verdadero cuello de botella para el rendimiento de los modelos de próxima generación. Mientras el mundo se obsesiona con la capacidad de cómputo, Wang argumenta que la verdadera carrera —y el posible factor diferenciador— no reside en el silicio, sino en los datos.
El Muro de los Datos: Por qué la Capacidad de Cómputo Ya No Es Suficiente
La entrevista abordó directamente una pregunta provocadora: ¿estamos viendo rendimientos decrecientes en el rendimiento de los modelos de IA, donde más capacidad de cómputo ya no garantiza mejores resultados? La respuesta de Wang fue un rotundo "sí". Señaló que, a pesar de un aumento exponencial en el gasto en GPU de Nvidia desde finales de 2022 (de $5 mil millones a más de $20 mil millones por trimestre), no hemos visto un modelo base "asombrosamente superior" a GPT-4, que es anterior a esta masiva inflexión en la capacidad de cómputo.
Wang explicó que el progreso de la IA se asienta sobre tres pilares: capacidad de cómputo, algoritmos y datos. Si bien la capacidad de cómputo ha escalado drásticamente, los otros dos no han mantenido el ritmo. Crucialmente, cree que la industria ha chocado con un "muro de datos". Los "datos fáciles" —todo lo que está fácilmente disponible en internet abierto, extraído de rastreos web comunes o torrents— ya ha sido consumido en gran medida. Estos modelos son ahora "excepcionalmente buenos emulando internet", pero eso no es suficiente para las tareas complejas y el razonamiento requerido para una verdadera AGI (Inteligencia Artificial General) o agentes de IA efectivos.
Key Insights:
- El progreso de la IA depende de que el cómputo, los datos y los algoritmos avancen en conjunto.
- Las inversiones masivas en capacidad de cómputo después de GPT-4 no han producido saltos proporcionales en el rendimiento de los modelos base.
- La industria ha agotado en gran medida los "datos fáciles" (datos de internet), lo que ha llevado a una meseta de rendimiento.
Forjando la Frontera: Cultivando la Abundancia de Datos
Para superar este muro de datos, Wang introdujo el concepto de "datos de Frontera". Destacó que gran parte del razonamiento complejo y la resolución de problemas que impulsan la economía actual —como el proceso deductivo de un analista de fraudes— no se documenta en línea. Esto significa que los modelos entrenados únicamente con datos de internet carecen de la capacidad de aprender de esta inteligencia humana más profunda.
Entonces, ¿cómo capturamos estos escurridizos datos de Frontera? Wang delineó dos vías principales. Primero, existe un colosal tesoro de datos propietarios encerrados dentro de las empresas. Citó los 150 petabytes de datos internos de JPMorgan, eclipsando el dataset de internet de GPT-4, que es de menos de un petabyte. Sin embargo, estos datos son altamente sensibles y requerirían que las empresas los extraigan y refinen para sus propios sistemas de IA, probablemente de forma local (on-prem) o con fuertes garantías contra el uso externo. Segundo, y más críticamente para avances generalizados, es la "producción proactiva de datos". Esto no se trata solo de recopilar datos existentes, sino de crear nuevos datos altamente complejos. Esto implica un "proceso híbrido humano-sintético" donde la IA genera datos y expertos humanos actúan como "conductores de seguridad", guiando a la IA, corrigiendo errores y proporcionando información crucial cuando los modelos se estancan. Wang considera que estos "entrenadores de IA" o "colaboradores" ocupan algunos de los puestos de mayor influencia para el impacto social. "Como experto humano", señaló, "tienes la capacidad de tener un impacto a nivel de toda la sociedad produciendo datos para ayudar a mejorar estos modelos".
Key Changes:
- La transición de los "datos fáciles" fácilmente disponibles a los "datos de Frontera" es esencial para la IA avanzada.
- Los datos de Frontera abarcan cadenas de razonamiento complejas, uso de herramientas y comportamiento agéntico no encontrados en internet abierto.
- La abundancia de datos se logrará extrayendo datos propietarios de las empresas y produciendo activamente nuevos datos de alta calidad.
- Surgirán nuevos roles humanos para guiar y corregir sistemas de IA en la generación de datos sintéticos, de forma similar a los conductores de seguridad de vehículos autónomos.
La Carrera Geopolítica de Datos: ¿Una Nueva Guerra Fría?
La conversación giró hacia las profundas implicaciones geopolíticas de la IA, un tema que Wang cree que está poco discutido. Afirmó tajantemente: "En esencia, esta tecnología de IA tiene el potencial de ser uno de los mayores activos militares que la Humanidad haya visto, potencialmente incluso un activo militar más grande que las armas nucleares". Pintó un escenario escalofriante donde un régimen totalitario con AGI podría conquistar una nación que no la posea.
Wang expresó una preocupación significativa por el rápido progreso de China en IA. Si bien hace dos años podrían haber estado "ni cerca" de las capacidades de GPT-4, un modelo chino reciente, Yi-Large de 0101, ahora está clasificado entre los mejores del mundo, justo detrás de GPT-4o, Gemini y Claude 3 Opus. Atribuyó esto a la excepcional capacidad del PCCh (Partido Comunista Chino) para implementar "acciones centralizadas muy agresivas y una política industrial centralizada para impulsar industrias críticas". Este patrón, visto en la energía solar y los vehículos eléctricos (EVs), sugiere que China tiene "una clara oportunidad de avanzar y adelantarnos". Dado esto, Wang cree que debe surgir una "dicotomía": los sistemas de IA de vanguardia, verdaderamente potentes, deben mantenerse cerrados por razones militares y geopolíticas, mientras que modelos menos avanzados y abiertos pueden seguir impulsando valor económico.
Key Learnings:
- La IA, particularmente la AGI, podría ser el activo militar más potente de la humanidad, con profundas consecuencias geopolíticas.
- La política industrial centralizada de China permite un rápido avance de la IA, acortando rápidamente la brecha con las capacidades occidentales.
- Una distinción estratégica entre sistemas de IA abiertos y cerrados es crítica: los modelos de vanguardia pueden necesitar ser cerrados por seguridad, mientras que los menos potentes pueden permanecer abiertos para un amplio beneficio económico.
Redefiniendo la Competencia: Los Datos como la Ventaja Competitiva Definitiva
En el mundo ferozmente competitivo de los modelos fundacionales, Wang cree firmemente que los datos serán el diferenciador definitivo. Delineó que los algoritmos eventualmente pueden ser objeto de ingeniería inversa o convertirse en conocimiento común, y la capacidad de cómputo puede simplemente comprarse. "Los datos son una de las pocas áreas", afirmó, "donde realmente se puede producir una ventaja competitiva sostenible a largo plazo". Citó las asociaciones de Open AI con el Financial Times y Axel Springer como primeros indicadores de este cambio.
Wang predijo audazmente un futuro donde los líderes de la IA no se jactarán de su número de GPUs, sino de "a qué datos tienen acceso y cuáles son sus derechos únicos sobre diferentes fuentes de datos". Este énfasis en datos únicos y propietarios impulsará la diferenciación del mercado. Además, anticipa un cambio significativo en el software, alejándose del SaaS de "jardín vallado" hacia aplicaciones altamente personalizadas y construidas a medida para empresas, que recuerda el enfoque inicial de Palantir. Esto será impulsado por la IA que reducirá drásticamente los costos de creación de software, llevando a una nueva era de soluciones de software personalizadas. En consecuencia, el modelo de precios tradicional por usuario (per-seat) probablemente dará paso a precios basados en el consumo, reflejando el trabajo realizado tanto por empleados humanos como por agentes de IA.
Key Insights:
- Los datos están emergiendo como la ventaja competitiva principal y más duradera en la carrera de los modelos fundacionales.
- La competencia futura girará en torno al acceso, la propiedad de datos propietarios y la capacidad de producir conjuntos de datos únicos.
- La comoditización de la creación de software conducirá a aplicaciones a medida y personalizadas para empresas, yendo más allá del SaaS genérico.
- Los modelos de precios de software evolucionarán de por usuario (per-seat) a basados en el consumo, alineándose con el valor entregado tanto por humanos como por agentes de IA.
Navegando el Ruido: Canales Directos y Confianza
Cambiando de tema hacia la construcción de empresas, Wang compartió su enfoque poco convencional de las relaciones públicas: "la mejor PR es no tener PR". Argumentó que los medios tradicionales, a menudo impulsados por los clics, tienden a sensacionalizar y distorsionar narrativas, ensalzando y derribando empresas por el engagement. Reveló una experiencia personal sorprendente: "He recibido un trato más justo testificando ante el Congreso que el que he recibido de varios medios de comunicación a lo largo de los años".
Esta perspectiva ha llevado a Scale AI a priorizar canales directos, como podcasts y blogs de la empresa, donde pueden transmitir su mensaje de forma auténtica y sin alteraciones. Esta apropiación de su narrativa asegura que su historia sea la "más pura" e inmaculada, fomentando la confianza y la claridad con su audiencia.
Key Practices:
- Adoptar una estrategia de "no PR" o de mínima interacción con los medios tradicionales para evitar el sensacionalismo y la distorsión de la narrativa.
- Priorizar los canales de comunicación directos (podcasts, contenido propio de la empresa) para una mensajería auténtica y sin alteraciones.
- Los fundadores y las empresas deben apropiarse y gestionar activamente su narrativa en un panorama informativo cada vez más ruidoso.
"En esencia, esta tecnología de IA tiene el potencial de ser uno de los mayores activos militares que la Humanidad haya visto, potencialmente incluso un activo militar más grande que las armas nucleares." - Alexandr Wang


