Temu ramah dengan Alexandr Wang

Founder and CEO @ Scale.ai

oleh 20VC with Harry Stebbings2024-06-12

Alexandr Wang

Dalam perbualan yang menarik dan jujur bersama Harry Stebbings di 20VC, Alexandr Wang, CEO Scale AI, mengupas lapisan landskap AI semasa, mencabar kebijaksanaan konvensional dan menyerlahkan kesesakan sebenar kepada prestasi model generasi seterusnya. Walaupun dunia taksub dengan kuasa pengkomputeran, Wang berpendapat bahawa persaingan sebenar—dan pembeza berpotensi—tidak terletak pada silikon, tetapi pada data.

Dinding Data: Mengapa Kuasa Pengkomputeran Tidak Lagi Mencukupi

Temu bual itu terus kepada soalan yang provokatif: adakah kita melihat pulangan yang semakin berkurangan dalam prestasi model AI, di mana lebih banyak kuasa pengkomputeran tidak lagi menjamin hasil yang lebih baik? Jawapan Wang adalah "ya" yang jelas dan tegas. Beliau menunjukkan bahawa walaupun terdapat peningkatan eksponen dalam perbelanjaan GPU Nvidia sejak akhir 2022 (dari $5 bilion kepada lebih $20 bilion suku tahun), kita belum melihat model asas yang "jauh lebih baik" daripada GPT-4, yang mendahului titik infleksi kuasa pengkomputeran besar-besaran ini.

Wang menjelaskan bahawa kemajuan AI bergantung pada tiga tonggak utama: compute, algoritma, dan data. Walaupun compute telah meningkat secara mendadak, dua yang lain tidak dapat mengikut rentak. Paling penting, beliau percaya industri telah melanda "dinding data." "Data mudah"—segala yang tersedia di internet terbuka, dikumpul daripada common crawls atau torrents—sebahagian besarnya telah digunakan. Model-model ini kini "sangat baik dalam meniru internet," tetapi itu tidak mencukupi untuk tugas kompleks dan penaakulan yang diperlukan untuk AGI sebenar atau agen AI yang berkesan.

Wawasan Utama:

  • Kemajuan AI bergantung pada compute, data, dan algoritma yang bergerak seiring.
  • Pelaburan besar dalam compute selepas GPT-4 tidak menghasilkan lonjakan yang sepadan dalam prestasi model asas.
  • Industri telah sebahagian besarnya menghabiskan "data mudah" (data internet), menyebabkan dataran prestasi.

Membentuk Perbatasan: Memupuk Kelimpahan Data

Untuk mengatasi dinding data ini, Wang memperkenalkan konsep "data Frontier." Beliau menekankan bahawa kebanyakan penaakulan kompleks dan penyelesaian masalah yang menggerakkan ekonomi hari ini – seperti proses deduktif seorang penganalisis penipuan – tidak dicatat secara dalam talian. Ini bermakna model yang dilatih semata-mata pada data internet kekurangan keupayaan untuk belajar daripada kecerdasan manusia yang lebih mendalam ini.

Jadi, bagaimana kita menangkap data Frontier yang sukar diperoleh ini? Wang menggariskan dua jalan utama. Pertama, terdapat sejumlah besar data proprietari yang terperangkap dalam perusahaan. Beliau memetik 150 petabait data dalaman JPMorgan, mengecilkan set data internet GPT-4 yang kurang daripada satu petabait. Data ini, bagaimanapun, sangat sensitif dan memerlukan perusahaan untuk melombong dan memperhalusi untuk sistem AI mereka sendiri, kemungkinan besar on-prem atau dengan jaminan kukuh terhadap penggunaan luaran. Kedua, dan lebih kritikal untuk penemuan umum, adalah "penghasilan data ke hadapan." Ini bukan sahaja mengenai pengumpulan data sedia ada tetapi mencipta data baharu yang sangat kompleks. Ini melibatkan "proses hibrid manusia-sintetik" di mana AI menjana data, dan pakar manusia bertindak sebagai "pemandu keselamatan," membimbing AI, membetulkan kesilapan, dan menyediakan input penting apabila model tersekat. Wang melihat "pelatih AI" atau "penyumbang" ini sebagai memegang beberapa pekerjaan paling berpengaruh untuk impak sosial. "Sebagai pakar manusia," katanya, "anda mempunyai keupayaan untuk memberi impak di seluruh masyarakat dengan menghasilkan data untuk membantu meningkatkan model-model ini."

Perubahan Utama:

  • Peralihan daripada "data mudah" yang tersedia kepada "data Frontier" adalah penting untuk AI lanjutan.
  • Data Frontier merangkumi rantaian penaakulan kompleks, penggunaan alat, dan tingkah laku agen yang tidak ditemui di internet terbuka.
  • Kelimpahan data akan dicapai melalui perlombongan data proprietari perusahaan dan penghasilan aktif data baharu yang berkualiti tinggi.
  • Peranan manusia baharu akan muncul untuk membimbing dan membetulkan sistem AI dalam menghasilkan data sintetik, serupa dengan pemandu keselamatan kenderaan autonomi.

Perlumbaan Data Geopolitik: Perang Dingin Baharu?

Perbualan itu beralih kepada implikasi geopolitik AI yang mendalam, topik yang Wang percaya kurang dibincangkan. Beliau menyatakan dengan tegas, "Pada dasarnya, teknologi AI ini berpotensi menjadi salah satu aset ketenteraan terhebat yang pernah dilihat oleh Manusia, bahkan mungkin lebih daripada aset ketenteraan berbanding nuklear." Beliau menggambarkan senario yang menakutkan di mana rejim totaliter dengan AGI boleh menakluk negara tanpanya.

Wang menyuarakan kebimbangan yang ketara terhadap kemajuan AI China yang pesat. Walaupun dua tahun lalu mereka mungkin "jauh ketinggalan" daripada keupayaan GPT-4, model China terkini, Yi-Large dari 0101, kini disenaraikan antara yang terbaik di dunia, hanya di belakang GPT-4o, Gemini, dan Claude 3 Opus. Beliau mengaitkan ini dengan keupayaan luar biasa CCP untuk melaksanakan "tindakan terpusat yang sangat agresif dan dasar perindustrian terpusat untuk memacu Industri kritikal." Pola ini, yang dilihat dalam solar dan EV, menunjukkan China mempunyai "peluang jelas untuk maju ke hadapan dan mengatasi kita." Berdasarkan ini, Wang percaya terdapat "dikotomi yang mesti muncul": sistem AI canggih dan benar-benar berkuasa harus kekal tertutup atas sebab ketenteraan dan geopolitik, manakala model terbuka yang kurang canggih boleh terus memacu nilai ekonomi.

Pembelajaran Utama:

  • AI, terutamanya AGI, boleh menjadi aset ketenteraan paling ampuh bagi umat manusia, dengan kesan geopolitik yang mendalam.
  • Dasar perindustrian terpusat China membolehkan kemajuan AI yang pesat, pantas merapatkan jurang dengan keupayaan Barat.
  • Perbezaan strategik antara sistem AI terbuka dan tertutup adalah kritikal: model canggih mungkin perlu ditutup untuk keselamatan, manakala yang kurang berkuasa boleh kekal terbuka untuk manfaat ekonomi yang luas.

Mentakrifkan Semula Persaingan: Data sebagai Parit Utama

Dalam dunia model asas yang sangat kompetitif, Wang percaya teguh bahawa data akan menjadi pembeza utama. Beliau menggariskan bahawa algoritma akhirnya boleh direka bentuk semula atau menjadi pengetahuan umum, dan compute hanya boleh dibeli. "Data adalah salah satu daripada beberapa bidang," tegasnya, "di mana anda sebenarnya boleh menghasilkan Kelebihan Persaingan yang mampan jangka panjang." Beliau memetik perkongsian OpenAI dengan Financial Times dan Axel Springer sebagai petunjuk awal peralihan ini.

Wang dengan berani meramalkan masa depan di mana pemimpin AI tidak akan membanggakan jumlah GPU mereka, tetapi "data apa yang mereka akses dan apakah hak unik mereka kepada sumber data yang berbeza." Penekanan terhadap data unik, proprietari ini akan memacu pembezaan pasaran. Tambahan pula, beliau menjangkakan peralihan ketara dalam perisian, beralih daripada SaaS "taman berdinding" kepada aplikasi yang sangat disesuaikan dan dibina khas untuk perusahaan, mengingatkan pendekatan awal Palantir. Ini akan didorong oleh AI yang secara dramatik menurunkan kos penciptaan perisian, membawa kepada era baharu penyelesaian perisian yang diperibadikan. Akibatnya, model harga per-tempat duduk yang lama berkemungkinan akan memberi laluan kepada harga berasaskan penggunaan, mencerminkan kerja yang dilakukan oleh kedua-dua pekerja manusia dan agen AI.

Wawasan Utama:

  • Data muncul sebagai kelebihan persaingan utama dan paling tahan lama dalam perlumbaan model asas.
  • Persaingan masa depan akan berkisar pada akses data proprietari, pemilikan, dan keupayaan untuk menghasilkan set data unik.
  • Pengkomoditian penciptaan perisian akan membawa kepada aplikasi yang ditempah khas, disesuaikan untuk perusahaan, bergerak melangkaui SaaS generik.
  • Model harga perisian akan berkembang daripada per-tempat duduk kepada berasaskan penggunaan, sejajar dengan nilai yang disampaikan oleh kedua-dua manusia dan agen AI.

Mengemudi Kekecohan: Saluran Langsung dan Kepercayaan

Beralih kepada pembinaan syarikat, Wang berkongsi pendekatan yang tidak konvensional terhadap perhubungan awam: "PR terbaik adalah tiada PR." Beliau berhujah bahawa media tradisional, yang sering didorong oleh klik, cenderung untuk mensensasikan dan memutarbelitkan naratif, membina dan meruntuhkan syarikat demi penglibatan. Beliau mendedahkan pengalaman peribadi yang mengejutkan: "Saya telah menerima layanan yang lebih adil semasa memberi keterangan di hadapan Kongres berbanding yang saya terima daripada pelbagai saluran media selama bertahun-tahun."

Perspektif ini telah menyebabkan Scale AI mengutamakan saluran langsung, seperti podcast dan blog syarikat, di mana mereka boleh menyampaikan mesej mereka secara sahih dan tanpa perubahan. Pemilikan naratif mereka memastikan cerita mereka "paling tulen" dan tidak tercemar, memupuk kepercayaan dan kejelasan dengan audiens mereka.

Amalan Utama:

  • Mengamalkan strategi "tiada PR" atau penglibatan minimum dengan media tradisional untuk mengelakkan sensasi dan pemutarbelitan naratif.
  • Mengutamakan saluran komunikasi langsung (podcast, kandungan syarikat) untuk mesej yang sahih dan tidak diubah.
  • Pengasas dan syarikat mesti secara aktif memiliki dan mengurus naratif mereka dalam landskap maklumat yang semakin bising.

"Pada dasarnya, teknologi AI ini berpotensi menjadi salah satu aset ketenteraan terhebat yang pernah dilihat oleh Manusia, bahkan mungkin lebih daripada aset ketenteraan berbanding nuklear." - Alexandr Wang