과의 인터뷰 Alexandr Wang
Founder and CEO @ Scale.ai
인터뷰 진행 20VC with Harry Stebbings • 2024-06-12

Harry Stebbings와 20VC에서 나눈 매력적이고 솔직한 대화에서 Scale AI의 CEO인 Alexandr Wang은 현재 AI 지형을 심층적으로 분석하며 기존의 통념에 도전하고 차세대 모델 성능의 진정한 병목 현상에 주목했습니다. 전 세계가 컴퓨팅 능력에 몰두하는 동안, Wang은 진정한 경쟁이자 잠재적 차별화 요소가 실리콘(하드웨어)이 아니라 데이터에 있다고 주장합니다.
데이터 장벽: 컴퓨팅만으로는 더 이상 충분하지 않은 이유
인터뷰는 도발적인 질문으로 곧장 이어졌습니다. 과연 AI 모델 성능에서 '더 많은 컴퓨팅 자원이 더 나은 결과를 보장하지 못하는' 한계효용 체감 현상을 겪고 있는가? Wang의 대답은 단호한 "그렇다"였습니다. 그는 2022년 말 이후 Nvidia GPU 지출이 분기당 50억 달러에서 200억 달러 이상으로 기하급수적으로 증가했음에도 불구하고, 이러한 대규모 컴퓨팅 전환점 이전에 나온 GPT-4보다 "압도적으로 더 나은" 기본 모델을 보지 못했다고 지적했습니다.
Wang은 AI 발전이 컴퓨팅(연산 능력), 알고리즘, 데이터라는 세 가지 핵심 요소에 달려 있다고 설명했습니다. 컴퓨팅은 극적으로 성장했지만, 나머지 두 가지는 보조를 맞추지 못했습니다. 결정적으로 그는 업계가 "데이터 장벽"에 부딪혔다고 믿습니다. 열린 인터넷에서 쉽게 접근 가능하며 일반 크롤링이나 토렌트에서 수집된 "쉽게 얻을 수 있는 데이터"는 대부분 소진되었습니다. 현재 모델들은 "인터넷을 모방하는 데는 탁월하지만", 이는 진정한 AGI(범용 인공지능) 또는 효과적인 AI 에이전트에 필요한 복잡한 작업과 추론을 수행하기에는 충분하지 않습니다.
주요 통찰:
- AI 발전은 컴퓨팅, 데이터, 알고리즘이 동시에 발전해야 합니다.
- GPT-4 이후 컴퓨팅에 대한 막대한 투자는 기본 모델 성능의 상응하는 도약을 가져오지 못했습니다.
- 업계는 "쉽게 얻을 수 있는 데이터"(인터넷 데이터)를 대부분 소진하여 성능 정체기에 접어들었습니다.
프론티어 개척: 데이터 풍부함 조성
이 데이터 장벽을 극복하기 위해 Wang은 "프론티어 데이터(Frontier data)" 개념을 도입했습니다. 그는 오늘날 경제를 움직이는 복잡한 추론 및 문제 해결 능력, 예를 들어 사기 분석가의 연역적 과정과 같은 지식은 온라인에 잘 기록되지 않는다고 강조했습니다. 이는 인터넷 데이터만으로 훈련된 모델은 이러한 더 깊은 인간 지능으로부터 학습할 능력이 부족하다는 것을 의미합니다.
그렇다면 이 찾기 어려운 프론티어 데이터를 어떻게 포착할 수 있을까요? Wang은 두 가지 주요 방안을 제시했습니다. 첫째, 기업 내부에 잠겨 있는 방대한 양의 독점 데이터가 있습니다. 그는 JPMorgan이 보유한 150페타바이트의 내부 데이터를 예로 들었는데, 이는 GPT-4의 1페타바이트 미만 인터넷 데이터 세트를 왜소하게 만들 정도입니다. 그러나 이 데이터는 매우 민감하며, 기업들은 이를 자체 AI 시스템을 위해 발굴하고 정제해야 할 것이며, 이는 온프레미스 방식으로 또는 외부 사용에 대한 강력한 보장 하에 이루어질 가능성이 높습니다. 둘째이자 일반화된 돌파구를 위해서는 더 중요한 것은 "선제적 데이터 생성(forward data production)"입니다. 이는 단순히 기존 데이터를 수집하는 것을 넘어 새롭고 고도로 복잡한 데이터를 생성하는 것을 의미합니다. 이 과정은 AI가 데이터를 생성하고, 인간 전문가가 '안전 운전자' 역할을 하여 AI를 안내하고, 오류를 수정하며, 모델이 막혔을 때 중요한 입력을 제공하는 "인간-합성 하이브리드 프로세스"를 포함합니다. Wang은 이러한 "AI 트레이너" 또는 "기여자"들이 사회적 영향력이 가장 큰 직업 중 일부를 차지할 것이라고 봅니다. 그는 "인간 전문가로서, 당신은 이러한 모델들을 개선하는 데 도움이 되는 데이터를 생산함으로써 사회 전반에 걸친 영향을 미칠 수 있는 능력을 갖게 됩니다"라고 말했습니다.
주요 변화:
- 고급 AI를 위해서는 쉽게 구할 수 있는 "쉬운 데이터"에서 "프론티어 데이터"로의 전환이 필수적입니다.
- 프론티어 데이터는 열린 인터넷에서는 찾을 수 없는 복잡한 추론 과정, 도구 사용, 그리고 에이전트적 행동을 포함합니다.
- 데이터 풍부함은 독점적인 기업 데이터를 발굴하고 새롭고 고품질의 데이터를 적극적으로 생산함으로써 달성될 것입니다.
- 합성 데이터 생성 시 AI 시스템을 안내하고 교정하는 새로운 인간 역할이 등장할 것이며, 이는 자율주행차의 안전 운전자와 유사합니다.
지정학적 데이터 경쟁: 새로운 냉전인가?
대화는 AI의 심오한 지정학적 함의에 대한 이야기로 전환되었는데, 이는 Wang이 충분히 논의되지 않는다고 믿는 주제입니다. 그는 단호하게 "본질적으로 이 AI 기술은 인류가 이제껏 본 가장 위대한 군사 자산 중 하나가 될 잠재력을 가지고 있으며, 잠재적으로는 핵무기보다도 더 강력한 군사 자산이 될 수 있습니다"라고 말했습니다. 그는 AGI를 가진 전체주의 정권이 AGI 없는 국가를 정복할 수 있는 소름 끼치는 시나리오를 그렸습니다.
Wang은 중국의 급속한 AI 발전에 대해 상당한 우려를 표명했습니다. 2년 전만 해도 GPT-4의 능력에 "근접하지도 못했을" 수 있지만, 최근 0101의 중국 모델인 Yi-Large는 이제 GPT-4o, Gemini, Claude 3 Opus 바로 뒤를 이어 세계 최고 수준에 랭크되었습니다. 그는 이를 CCP(중국 공산당)가 "매우 공격적인 중앙집권적 행동과 중앙집권적 산업 정책을 실행하여 핵심 산업을 추진하는" 탁월한 능력 덕분이라고 보았습니다. 태양광 및 전기차 분야에서 볼 수 있는 이러한 패턴은 중국이 "우리보다 앞서나가고 선두를 차지할 확실한 기회를 가지고 있다"는 것을 시사합니다. 이를 고려할 때, Wang은 "반드시 나타나야 할 이분법"이 있다고 믿습니다. 즉, 최첨단, 진정으로 강력한 AI 시스템은 군사 및 지정학적 이유로 폐쇄적으로 유지되어야 하며, 덜 발전된 개방형 모델은 계속해서 경제적 가치를 창출할 수 있다는 것입니다.
주요 학습:
- AI, 특히 AGI는 인류의 가장 강력한 군사 자산이 될 수 있으며, 심오한 지정학적 결과를 초래할 수 있습니다.
- 중국의 중앙집권적 산업 정책은 급속한 AI 발전을 가능하게 하여 서구권의 역량과의 격차를 빠르게 좁히고 있습니다.
- 개방형 및 폐쇄형 AI 시스템 간의 전략적 구분이 중요합니다. 최첨단 모델은 보안을 위해 폐쇄되어야 할 수 있으며, 덜 강력한 모델은 광범위한 경제적 이익을 위해 개방될 수 있습니다.
경쟁의 재정의: 데이터가 궁극적인 해자
파운데이션 모델의 치열한 경쟁 세계에서 Wang은 데이터가 궁극적인 차별화 요소가 될 것이라고 굳게 믿습니다. 그는 알고리즘은 결국 역설계되거나 공통 지식이 될 수 있으며, 컴퓨팅은 단순히 구매할 수 있다고 설명했습니다. 그는 "데이터는 장기적으로 지속 가능한 경쟁 우위를 실제로 만들어낼 수 있는 몇 안 되는 영역 중 하나입니다"라고 단언했습니다. 그는 Financial Times 및 Axel Springer와의 OpenAI 파트너십을 이러한 변화의 초기 지표로 언급했습니다.
Wang은 AI 리더들이 GPU 개수를 자랑하는 것이 아니라 "어떤 데이터에 접근할 수 있는지, 그리고 다양한 데이터 소스에 대한 어떤 고유한 권리를 가지고 있는지"를 자랑하게 될 미래를 과감하게 예측했습니다. 고유하고 독점적인 데이터에 대한 이러한 강조는 시장 차별화를 이끌어낼 것입니다. 나아가 그는 소프트웨어 분야에서 중대한 변화가 있을 것으로 예상합니다. 즉, '벽으로 둘러싸인 정원'과 같은 SaaS(서비스형 소프트웨어)에서 Palantir의 초기 접근 방식을 연상시키는 기업을 위한 고도로 맞춤화된, 목적 지향적인 애플리케이션으로 이동할 것이라는 예측입니다. 이는 AI가 소프트웨어 생성 비용을 극적으로 낮춤으로써 촉진될 것이며, 개인화된 소프트웨어 솔루션의 새로운 시대를 이끌 것입니다. 결과적으로 오랫동안 유지되어 온 사용자별(per-seat) 가격 모델은 인간 직원과 AI 에이전트 모두가 수행한 작업을 반영하는 사용량 기반(consumption-based) 가격 책정으로 대체될 가능성이 높습니다.
주요 통찰:
- 데이터는 파운데이션 모델 경쟁에서 가장 주요하고 가장 오래 지속될 경쟁 우위로 부상하고 있습니다.
- 미래의 경쟁은 독점 데이터 접근, 소유권, 그리고 고유한 데이터 세트를 생산할 능력을 중심으로 전개될 것입니다.
- 소프트웨어 생성의 상품화는 일반적인 SaaS를 넘어 기업을 위한 맞춤형 애플리케이션으로 이어질 것입니다.
- 소프트웨어 가격 모델은 사용자별(per-seat) 방식에서 사용량 기반(consumption-based) 방식으로 진화하여 인간과 AI 에이전트 모두가 제공하는 가치에 부합할 것입니다.
소음 속 항해: 직접 채널과 신뢰
회사 설립(Company building)으로 화제를 전환하며 Wang은 홍보(PR)에 대한 그의 비전통적인 접근 방식인 "'최고의 PR은 PR이 없는 것'이다"를 공유했습니다. 그는 종종 클릭에 의해 움직이는 전통 미디어는 스토리를 선정적으로 만들고 왜곡하며, 참여(engagement)를 위해 기업을 띄워주거나 헐뜯는 경향이 있다고 주장했습니다. 그는 놀라운 개인적인 경험을 공개했습니다. "저는 지난 수년 동안 다양한 언론 매체보다 의회 앞에서 증언할 때 더 공정한 대우를 받았습니다."
이러한 관점은 Scale AI가 팟캐스트 및 회사 블로그와 같은 직접 채널을 우선시하도록 이끌었으며, 이를 통해 메시지를 진정성 있게, 그리고 변경 없이 전달할 수 있습니다. 그들 이야기의 소유권은 스토리가 "가장 순수하고" 훼손되지 않도록 보장하여 청중과의 신뢰와 명확성을 증진시킵니다.
핵심 관행:
- 선정주의와 스토리 왜곡을 피하기 위해 "PR 없음" 전략 또는 전통 미디어와의 최소한의 참여를 채택합니다.
- 진정성 있고 변경되지 않은 메시징을 위해 직접 소통 채널(팟캐스트, 회사 콘텐츠)을 우선시합니다.
- 창업자와 기업은 점점 더 시끄러워지는 정보 환경에서 그들 이야기를 적극적으로 소유하고 관리해야 합니다.
"본질적으로 이 AI 기술은 인류가 이제껏 본 가장 위대한 군사 자산 중 하나가 될 잠재력을 가지고 있으며, 잠재적으로는 핵무기보다도 더 강력한 군사 자산이 될 수 있습니다." - Alexandr Wang


