สัมภาษณ์กับ Alexandr Wang

Founder and CEO @ Scale.ai

โดย 20VC with Harry Stebbings2024-06-12

Alexandr Wang

ในการสนทนาที่น่าสนใจและตรงไปตรงมากับ Harry Stebbings ในรายการ 20VC, Alexandr Wang, CEO ของ Scale AI, ได้เผยให้เห็นถึงแง่มุมต่างๆ ของภูมิทัศน์ AI ในปัจจุบัน ท้าทายความเชื่อเดิมๆ และชี้ให้เห็นถึงคอขวดที่แท้จริงต่อประสิทธิภาพของโมเดล AI ยุคหน้า ในขณะที่โลกกำลังหมกมุ่นอยู่กับพลังประมวลผล (compute) คุณ Wang กลับโต้แย้งว่าการแข่งขันที่แท้จริง — และสิ่งที่จะสร้างความแตกต่างได้นั้น — ไม่ได้อยู่ที่ "ซิลิคอน" (ฮาร์ดแวร์) แต่อยู่ที่ "ข้อมูล"

กำแพงข้อมูล: ทำไมพลังประมวลผลถึงไม่เพียงพออีกต่อไป

บทสัมภาษณ์ได้เริ่มต้นด้วยคำถามที่ท้าทายว่า: เรากำลังเห็นผลตอบแทนที่ลดลงจากประสิทธิภาพของโมเดล AI หรือไม่? นั่นคือพลังประมวลผลที่มากขึ้นไม่ได้รับประกันผลลัพธ์ที่ดีขึ้นเสมอไปใช่ไหม? คำตอบของคุณ Wang คือ "ใช่" อย่างชัดเจน เขาชี้ให้เห็นว่าแม้จะมีการใช้จ่าย GPU ของ Nvidia พุ่งสูงขึ้นแบบก้าวกระโดดนับตั้งแต่ปลายปี 2022 (จาก 5 พันล้านดอลลาร์เป็นกว่า 20 พันล้านดอลลาร์ต่อไตรมาส) แต่เราก็ยังไม่เห็นโมเดลพื้นฐานที่ "ดีขึ้นอย่างน่าตกตะลึง" กว่า GPT-4 ซึ่งเกิดขึ้นก่อนหน้าช่วงที่พลังประมวลผลเพิ่มขึ้นอย่างมหาศาลนี้

คุณ Wang อธิบายว่าความก้าวหน้าของ AI ขึ้นอยู่กับสามเสาหลัก ได้แก่ พลังประมวลผล (compute), อัลกอริทึม (algorithms), และข้อมูล (data) ในขณะที่พลังประมวลผลเพิ่มขึ้นอย่างมหาศาล สองสิ่งหลังกลับไม่ได้ก้าวหน้าตามทัน และที่สำคัญ เขาเชื่อว่าอุตสาหกรรมได้ชน "กำแพงข้อมูล" แล้ว "ข้อมูลง่ายๆ" (easy data) — ทุกอย่างที่หาได้ง่ายบนอินเทอร์เน็ตสาธารณะที่ถูกรวบรวมจาก common crawls หรือ torrents — ได้ถูกใช้ไปเกือบหมดแล้ว โมเดลเหล่านี้ตอนนี้ "เก่งกาจเป็นพิเศษในการเลียนแบบอินเทอร์เน็ต" แต่แค่นั้นยังไม่เพียงพอสำหรับงานที่ซับซ้อนและการให้เหตุผลที่จำเป็นสำหรับ AGI ที่แท้จริง หรือ AI agent ที่มีประสิทธิภาพ

ข้อมูลเชิงลึกที่สำคัญ:

  • ความก้าวหน้าของ AI ขึ้นอยู่กับการพัฒนาควบคู่กันของพลังประมวลผล ข้อมูล และอัลกอริทึม
  • การลงทุนมหาศาลในพลังประมวลผลหลังยุค GPT-4 ไม่ได้ส่งผลให้ประสิทธิภาพของโมเดลพื้นฐานก้าวกระโดดตามไปด้วย
  • อุตสาหกรรมได้ใช้ "ข้อมูลง่ายๆ" (ข้อมูลจากอินเทอร์เน็ต) ไปเกือบหมดแล้ว ซึ่งนำไปสู่ประสิทธิภาพที่คงที่

บุกเบิกสู่แนวหน้า: สร้างสรรค์ความอุดมสมบูรณ์ของข้อมูล

เพื่อเอาชนะกำแพงข้อมูลนี้ คุณ Wang ได้นำเสนอแนวคิด "ข้อมูลแนวหน้า" (Frontier data) เขาเน้นย้ำว่าการให้เหตุผลและการแก้ปัญหาที่ซับซ้อนจำนวนมากซึ่งขับเคลื่อนเศรษฐกิจในปัจจุบัน – เช่น กระบวนการอนุมานของนักวิเคราะห์การฉ้อโกง – ไม่ได้ถูกเขียนหรือบันทึกไว้บนโลกออนไลน์ ซึ่งหมายความว่าโมเดลที่ฝึกฝนด้วยข้อมูลอินเทอร์เน็ตเพียงอย่างเดียวจะขาดความสามารถในการเรียนรู้จากความฉลาดของมนุษย์ในเชิงลึกนี้

แล้วเราจะรวบรวมข้อมูลแนวหน้าที่หายากนี้ได้อย่างไร? คุณ Wang ได้สรุปสองแนวทางหลัก ประการแรก มีข้อมูลกรรมสิทธิ์จำนวนมหาศาลที่ถูกเก็บงำอยู่ในองค์กรต่างๆ เขาอ้างถึงข้อมูลภายในของ JPMorgan ขนาด 150 เพตะไบต์ ซึ่งทำให้ชุดข้อมูลอินเทอร์เน็ตของ GPT-4 ที่มีขนาดไม่ถึงหนึ่งเพตะไบต์ดูเล็กไปถนัดตา อย่างไรก็ตาม ข้อมูลนี้มีความละเอียดอ่อนสูง และองค์กรจะต้องนำไปประมวลผลและปรับปรุงเพื่อระบบ AI ของตนเอง ซึ่งมักจะเป็นแบบติดตั้งภายในองค์กร (on-prem) หรือมีข้อรับประกันที่เข้มงวดว่าจะไม่นำไปใช้ภายนอก ประการที่สอง และมีความสำคัญอย่างยิ่งต่อการก้าวหน้าในวงกว้าง คือ "การผลิตข้อมูลเชิงรุก" (forward data production) นี่ไม่ใช่แค่การรวบรวมข้อมูลที่มีอยู่ แต่เป็นการ สร้าง ข้อมูลใหม่ที่มีความซับซ้อนสูง สิ่งนี้เกี่ยวข้องกับ "กระบวนการลูกผสมระหว่างมนุษย์และสังเคราะห์" (human-synthetic hybrid process) ที่ AI สร้างข้อมูล และผู้เชี่ยวชาญที่เป็นมนุษย์ทำหน้าที่เหมือน "ผู้ขับขี่เพื่อความปลอดภัย" (safety drivers) คอยนำทาง AI แก้ไขข้อผิดพลาด และให้ข้อมูลสำคัญเมื่อโมเดลติดขัด คุณ Wang มองว่า "ผู้ฝึกสอน AI" หรือ "ผู้มีส่วนร่วม" เหล่านี้เป็นงานที่มีอิทธิพลสูงสุดต่อผลกระทบทางสังคม "ในฐานะผู้เชี่ยวชาญที่เป็นมนุษย์" เขากล่าว "คุณมีความสามารถที่จะสร้างผลกระทบทั่วทั้งสังคมด้วยการผลิตข้อมูลเพื่อช่วยปรับปรุงโมเดลเหล่านี้"

การเปลี่ยนแปลงที่สำคัญ:

  • การเปลี่ยนผ่านจาก "ข้อมูลง่ายๆ" (easy data) ที่หาได้ทั่วไป สู่ "ข้อมูลแนวหน้า" (Frontier data) เป็นสิ่งจำเป็นสำหรับ AI ขั้นสูง
  • ข้อมูลแนวหน้าครอบคลุมถึงกระบวนการให้เหตุผลที่ซับซ้อน การใช้เครื่องมือ และพฤติกรรมเชิงเอเจนต์ (agentic behavior) ที่ไม่พบในอินเทอร์เน็ตสาธารณะ
  • การมีข้อมูลจำนวนมากจะทำได้ผ่านการรวบรวมข้อมูลกรรมสิทธิ์ขององค์กรและการผลิตข้อมูลใหม่คุณภาพสูงอย่างกระตือรือร้น
  • บทบาทใหม่ของมนุษย์จะเกิดขึ้นเพื่อนำทางและแก้ไขระบบ AI ในการสร้างข้อมูลสังเคราะห์ คล้ายกับผู้ขับขี่เพื่อความปลอดภัยของยานยนต์ไร้คนขับ

การแข่งขันข้อมูลทางภูมิรัฐศาสตร์: สงครามเย็นครั้งใหม่?

บทสนทนาได้เปลี่ยนไปสู่ประเด็นของนัยยะสำคัญทางภูมิรัฐศาสตร์ของ AI ที่ลึกซึ้ง ซึ่งคุณ Wang เชื่อว่าถูกพูดถึงน้อยเกินไป เขาได้กล่าวอย่างตรงไปตรงมาว่า "โดยพื้นฐานแล้ว เทคโนโลยี AI นี้มีศักยภาพที่จะเป็นหนึ่งในสินทรัพย์ทางทหารที่ยิ่งใหญ่ที่สุดเท่าที่มนุษยชาติเคยพบเห็น อาจจะเป็นสินทรัพย์ทางทหารที่มีศักยภาพมากกว่าระเบิดนิวเคลียร์เสียอีก" เขาวาดภาพสถานการณ์ที่น่าขนลุกซึ่งระบอบเผด็จการที่มี AGI สามารถพิชิตประเทศที่ไม่มี AGI ได้

คุณ Wang แสดงความกังวลอย่างมากต่อความก้าวหน้าอย่างรวดเร็วของ AI ในประเทศจีน แม้ว่าเมื่อสองปีที่แล้วพวกเขาอาจจะ "ห่างไกล" จากความสามารถของ GPT-4 มาก แต่โมเดลจีนล่าสุดอย่าง Yi-Large จาก 0101 ได้ถูกจัดอยู่ในอันดับต้นๆ ของโลกแล้ว โดยตามหลังเพียง GPT-4o, Gemini และ Claude 3 Opus เขาให้เหตุผลว่าสิ่งนี้เกิดจากความสามารถอันโดดเด่นของพรรคคอมมิวนิสต์จีน (CCP) ในการดำเนิน "นโยบายอุตสาหกรรมแบบรวมศูนย์และเชิงรุกอย่างมากเพื่อขับเคลื่อนอุตสาหกรรมที่สำคัญ" รูปแบบนี้ที่เห็นได้ในอุตสาหกรรมพลังงานแสงอาทิตย์และยานยนต์ไฟฟ้า (EVs) บ่งชี้ว่าจีนมี "โอกาสชัดเจนที่จะก้าวหน้าและแซงหน้าเราไปได้" ด้วยเหตุนี้ คุณ Wang จึงเชื่อว่าต้องมี "การแบ่งแยกที่จำเป็น" เกิดขึ้น: ระบบ AI ที่ล้ำสมัยและทรงพลังอย่างแท้จริงควรถูกปิดเป็นความลับด้วยเหตุผลทางทหารและภูมิรัฐศาสตร์ ในขณะที่โมเดลแบบเปิดที่มีความก้าวหน้าน้อยกว่าสามารถขับเคลื่อนมูลค่าทางเศรษฐกิจต่อไปได้

สิ่งที่เรียนรู้ที่สำคัญ:

  • AI โดยเฉพาะ AGI อาจเป็นสินทรัพย์ทางทหารที่ทรงพลังที่สุดของมนุษยชาติ พร้อมด้วยผลกระทบทางภูมิรัฐศาสตร์ที่ลึกซึ้ง
  • นโยบายอุตสาหกรรมแบบรวมศูนย์ของจีนช่วยให้ AI ก้าวหน้าอย่างรวดเร็ว ปิดช่องว่างกับความสามารถของชาติตะวันตกได้อย่างรวดเร็ว
  • การแบ่งแยกระบบ AI แบบเปิดและแบบปิดอย่างมีกลยุทธ์เป็นสิ่งสำคัญ: โมเดลที่ล้ำสมัยอาจต้องถูกปิดเพื่อความปลอดภัย ในขณะที่โมเดลที่มีพลังน้อยกว่าสามารถเปิดเผยได้เพื่อประโยชน์ทางเศรษฐกิจในวงกว้าง

นิยามใหม่ของการแข่งขัน: ข้อมูลในฐานะปราการความได้เปรียบสูงสุด

ในโลกที่มีการแข่งขันสูงของ foundation models คุณ Wang เชื่อมั่นว่าข้อมูลจะเป็นสิ่งที่จะสร้างความแตกต่างขั้นสูงสุด เขาอธิบายว่าอัลกอริทึมในที่สุดก็สามารถถูกวิศวกรรมย้อนกลับหรือกลายเป็นความรู้สาธารณะได้ และพลังประมวลผลสามารถซื้อหาได้ "ข้อมูลเป็นหนึ่งในไม่กี่ด้าน" เขายืนยัน "ที่คุณสามารถสร้างความได้เปรียบทางการแข่งขันที่ยั่งยืนในระยะยาวได้จริงๆ" เขาอ้างถึงความร่วมมือของ OpenAI กับ Financial Times และ Axel Springer ว่าเป็นสัญญาณแรกของการเปลี่ยนแปลงนี้

คุณ Wang คาดการณ์อนาคตอย่างกล้าหาญว่าผู้นำ AI จะไม่โอ้อวดเกี่ยวกับจำนวน GPU ของตน แต่จะโอ้อวดว่า "พวกเขาสามารถเข้าถึงข้อมูลใดได้บ้าง และมีสิทธิ์เฉพาะตัวประเภทใดในการเข้าถึงแหล่งข้อมูลต่างๆ" การเน้นย้ำถึงข้อมูลที่เป็นเอกลักษณ์และกรรมสิทธิ์นี้จะขับเคลื่อนความแตกต่างในตลาด นอกจากนี้ เขาคาดการณ์ถึงการเปลี่ยนแปลงที่สำคัญในอุตสาหกรรมซอฟต์แวร์ โดยจะเปลี่ยนจากการเป็น SaaS แบบ "สวนกำแพง" ไปสู่แอปพลิเคชันที่ปรับแต่งได้สูงและสร้างขึ้นเพื่อวัตถุประสงค์เฉพาะสำหรับองค์กร คล้ายกับแนวทางแรกเริ่มของ Palantir สิ่งนี้จะถูกขับเคลื่อนด้วย AI ที่ลดต้นทุนการสร้างซอฟต์แวร์ลงอย่างมาก ซึ่งนำไปสู่ยุคใหม่ของโซลูชันซอฟต์แวร์ส่วนบุคคล ด้วยเหตุนี้ โมเดลการคิดราคาต่อผู้ใช้งาน (per-seat) ที่ใช้กันมานานมีแนวโน้มที่จะถูกแทนที่ด้วยการคิดราคาตามการใช้งาน (consumption-based) ซึ่งสะท้อนถึงการทำงานที่ทำโดยทั้งพนักงานที่เป็นมนุษย์และ AI agents

ข้อมูลเชิงลึกที่สำคัญ:

  • ข้อมูลกำลังกลายเป็นความได้เปรียบทางการแข่งขันหลักและยั่งยืนที่สุดในการแข่งขันโมเดลพื้นฐาน (foundation model)
  • การแข่งขันในอนาคตจะหมุนรอบการเข้าถึงข้อมูลกรรมสิทธิ์ การเป็นเจ้าของ และความสามารถในการผลิตชุดข้อมูลที่เป็นเอกลักษณ์
  • การที่การสร้างซอฟต์แวร์กลายเป็นสินค้าโภคภัณฑ์จะนำไปสู่แอปพลิเคชันที่ออกแบบเฉพาะและปรับแต่งตามความต้องการสำหรับองค์กร โดยก้าวข้าม SaaS ทั่วไป
  • โมเดลการกำหนดราคาซอฟต์แวร์จะพัฒนาจากการคิดราคาต่อผู้ใช้งานไปเป็นการคิดราคาตามการใช้งาน สอดคล้องกับคุณค่าที่ส่งมอบโดยทั้งมนุษย์และ AI agents

การจัดการกับเสียงรบกวน: ช่องทางโดยตรงและความไว้วางใจ

เปลี่ยนมาพูดถึงการสร้างบริษัท คุณ Wang ได้แบ่งปันแนวทางที่ไม่ธรรมดาในการประชาสัมพันธ์ของเขา: "การประชาสัมพันธ์ที่ดีที่สุดคือการไม่มี PR" เขายืนยันว่าสื่อดั้งเดิมที่มักขับเคลื่อนด้วยจำนวนคลิก มีแนวโน้มที่จะสร้างความตื่นเต้นและบิดเบือนเรื่องราว สร้างและทำลายบริษัทเพื่อดึงดูดความสนใจ เขาได้เปิดเผยประสบการณ์ส่วนตัวที่น่าประหลาดใจว่า: "ผมได้รับการปฏิบัติที่เป็นธรรมจากการให้การต่อหน้าสภาคองเกรสมากกว่าที่ผมเคยได้รับจากสื่อต่างๆ ตลอดหลายปีที่ผ่านมา"

มุมมองนี้ทำให้ Scale AI ให้ความสำคัญกับช่องทางโดยตรง เช่น พอดแคสต์และบล็อกของบริษัท ซึ่งพวกเขาสามารถส่งผ่านข้อความของพวกเขาได้อย่างแท้จริงและไม่ถูกเปลี่ยนแปลง การเป็นเจ้าของเรื่องเล่าของตัวเองทำให้มั่นใจได้ว่าเรื่องราวของพวกเขาจะ "บริสุทธิ์" และไม่ปนเปื้อน สร้างความไว้วางใจและความชัดเจนกับกลุ่มเป้าหมาย

แนวทางปฏิบัติที่สำคัญ:

  • ใช้กลยุทธ์ "no PR" หรือมีส่วนร่วมน้อยที่สุดกับสื่อดั้งเดิม เพื่อหลีกเลี่ยงการสร้างความตื่นเต้นและการบิดเบือนเรื่องราว
  • ให้ความสำคัญกับช่องทางการสื่อสารโดยตรง (พอดแคสต์ เนื้อหาของบริษัท) เพื่อการส่งข้อความที่แท้จริงและไม่ถูกเปลี่ยนแปลง
  • ผู้ก่อตั้งและบริษัทต้องเป็นเจ้าของและจัดการเรื่องเล่าของตนเองอย่างกระตือรือร้นในภูมิทัศน์ข้อมูลที่เต็มไปด้วยเสียงรบกวนมากขึ้นเรื่อยๆ

"โดยพื้นฐานแล้ว เทคโนโลยี AI นี้มีศักยภาพที่จะเป็นหนึ่งในสินทรัพย์ทางทหารที่ยิ่งใหญ่ที่สุดเท่าที่มนุษยชาติเคยพบเห็น อาจจะเป็นสินทรัพย์ทางทหารที่มีศักยภาพมากกว่าระเบิดนิวเคลียร์เสียอีก" - Alexandr Wang