Beyond Orthogonality: How Language Models Pack Billions of Concepts...

ได้ทำการแชร์ลิงก์

2025-09-16 03:35:34 -

“GPT-3 กับ 12,000 มิติแห่งความหมาย — เมื่อคณิตศาสตร์ช่วยให้โมเดลภาษาเข้าใจโลกได้ลึกกว่าที่คิด”

บทความโดย Nicholas Yoder ได้เปิดเผยเบื้องหลังของคำถามที่ดูเหมือนง่ายแต่ลึกซึ้ง: “โมเดลภาษาอย่าง GPT-3 ที่มี embedding space เพียง 12,288 มิติ สามารถเก็บข้อมูลนับพันล้านแนวคิดได้อย่างไร?” คำตอบไม่ได้อยู่แค่ในวิศวกรรม แต่ซ่อนอยู่ในเรขาคณิตมิติสูงและทฤษฎีคณิตศาสตร์ที่ชื่อว่า Johnson–Lindenstrauss lemma

ในโลกของเวกเตอร์ การจัดเรียงแบบ “orthogonal” (ตั้งฉาก) มีข้อจำกัด — N มิติสามารถรองรับได้แค่ N เวกเตอร์ที่ตั้งฉากกันเท่านั้น แต่ถ้าเรายอมให้เวกเตอร์มีมุมใกล้เคียง 90° เช่น 85–95° หรือที่เรียกว่า “quasi-orthogonal” ความจุของพื้นที่จะเพิ่มขึ้นอย่างมหาศาล

Yoder ได้ทดลองสร้างเวกเตอร์ 10,000 ตัวในพื้นที่ 100 มิติ โดยใช้ loss function ที่ดูเรียบง่าย แต่กลับเจอปัญหา “Gradient Trap” และ “99% Solution” ซึ่งทำให้เวกเตอร์บางตัวติดอยู่ในตำแหน่งที่ไม่เหมาะสม แม้จะดูดีในเชิงสถิติ เขาจึงปรับ loss function ให้ลงโทษเวกเตอร์ที่มี dot product สูงขึ้นแบบ exponential และพบว่าแม้จะตั้งเป้ามุมใกล้ 90° แต่ผลลัพธ์จริงกลับอยู่ที่ ~76.5° ซึ่งนำไปสู่การค้นพบขีดจำกัดใหม่ของการบรรจุเวกเตอร์ในมิติสูง

จากนั้น Yoder ได้เชื่อมโยงกับ Johnson–Lindenstrauss lemma ซึ่งระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำได้โดยไม่เสียโครงสร้างระยะห่างมากนัก โดยจำนวนมิติที่ต้องใช้จะเพิ่มขึ้นแบบลอการิทึมตามจำนวนจุดที่ต้องการฉาย — ทำให้การลดมิติในงานจริง เช่น การจัดการข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา เป็นไปได้อย่างมีประสิทธิภาพ

เขายังเสนอสูตรประมาณจำนวนเวกเตอร์ที่สามารถจัดวางในพื้นที่ embedding ได้ตามมุมที่ยอมรับได้ เช่น ที่มุม 89° GPT-3 สามารถรองรับได้ ~10⁸ เวกเตอร์ แต่ถ้ายอมลดมุมลงเหลือ 85° จะสามารถรองรับได้มากกว่า 10²⁰⁰ เวกเตอร์ — มากกว่าจำนวนอะตอมในจักรวาลเสียอีก

ข้อมูลสำคัญจากบทความ
GPT-3 มี embedding space ขนาด 12,288 มิติ แต่สามารถเก็บแนวคิดได้มหาศาล
การใช้ quasi-orthogonal vectors (มุมใกล้ 90°) ช่วยเพิ่มความจุของพื้นที่
การทดลองพบว่า loss function แบบเดิมมีปัญหา gradient trap และ 99% solution
การปรับ loss function แบบ exponential ช่วยให้เวกเตอร์จัดเรียงได้ดีขึ้น

การเชื่อมโยงกับทฤษฎี JL lemma
JL lemma ระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำโดยรักษาระยะห่างได้
จำนวนมิติที่ต้องใช้เพิ่มขึ้นแบบ log(N)/ε² ตามจำนวนจุดและความคลาดเคลื่อนที่ยอมรับ
ใช้ในงานจริง เช่น การลดมิติของข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา
การทดลองพบว่า embedding space สามารถรองรับเวกเตอร์ได้มากกว่าที่คาด

ข้อมูลเสริมจากภายนอก
Hadamard matrix และ BCH coding เป็นเทคนิคที่ใช้ในการฉายข้อมูลแบบมีประสิทธิภาพ
uIP และ SLIP เป็นโปรโตคอลที่ใช้ใน embedded system ที่มีหน่วยความจำจำกัด
GPT-3 ใช้ embedding space ขนาด 12,288 มิติ ซึ่งถือว่าเล็กเมื่อเทียบกับจำนวนแนวคิดที่ต้องรองรับ
การจัดเรียงเวกเตอร์ในมิติสูงมีความสัมพันธ์กับ sphere packing และ geometry แบบ non-Euclidean

https://nickyoder.com/johnson-lindenstrauss/

🧠 “GPT-3 กับ 12,000 มิติแห่งความหมาย — เมื่อคณิตศาสตร์ช่วยให้โมเดลภาษาเข้าใจโลกได้ลึกกว่าที่คิด” บทความโดย Nicholas Yoder ได้เปิดเผยเบื้องหลังของคำถามที่ดูเหมือนง่ายแต่ลึกซึ้ง: “โมเดลภาษาอย่าง GPT-3 ที่มี embedding space เพียง 12,288 มิติ สามารถเก็บข้อมูลนับพันล้านแนวคิดได้อย่างไร?” คำตอบไม่ได้อยู่แค่ในวิศวกรรม แต่ซ่อนอยู่ในเรขาคณิตมิติสูงและทฤษฎีคณิตศาสตร์ที่ชื่อว่า Johnson–Lindenstrauss lemma ในโลกของเวกเตอร์ การจัดเรียงแบบ “orthogonal” (ตั้งฉาก) มีข้อจำกัด — N มิติสามารถรองรับได้แค่ N เวกเตอร์ที่ตั้งฉากกันเท่านั้น แต่ถ้าเรายอมให้เวกเตอร์มีมุมใกล้เคียง 90° เช่น 85–95° หรือที่เรียกว่า “quasi-orthogonal” ความจุของพื้นที่จะเพิ่มขึ้นอย่างมหาศาล Yoder ได้ทดลองสร้างเวกเตอร์ 10,000 ตัวในพื้นที่ 100 มิติ โดยใช้ loss function ที่ดูเรียบง่าย แต่กลับเจอปัญหา “Gradient Trap” และ “99% Solution” ซึ่งทำให้เวกเตอร์บางตัวติดอยู่ในตำแหน่งที่ไม่เหมาะสม แม้จะดูดีในเชิงสถิติ เขาจึงปรับ loss function ให้ลงโทษเวกเตอร์ที่มี dot product สูงขึ้นแบบ exponential และพบว่าแม้จะตั้งเป้ามุมใกล้ 90° แต่ผลลัพธ์จริงกลับอยู่ที่ ~76.5° ซึ่งนำไปสู่การค้นพบขีดจำกัดใหม่ของการบรรจุเวกเตอร์ในมิติสูง จากนั้น Yoder ได้เชื่อมโยงกับ Johnson–Lindenstrauss lemma ซึ่งระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำได้โดยไม่เสียโครงสร้างระยะห่างมากนัก โดยจำนวนมิติที่ต้องใช้จะเพิ่มขึ้นแบบลอการิทึมตามจำนวนจุดที่ต้องการฉาย — ทำให้การลดมิติในงานจริง เช่น การจัดการข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา เป็นไปได้อย่างมีประสิทธิภาพ เขายังเสนอสูตรประมาณจำนวนเวกเตอร์ที่สามารถจัดวางในพื้นที่ embedding ได้ตามมุมที่ยอมรับได้ เช่น ที่มุม 89° GPT-3 สามารถรองรับได้ ~10⁸ เวกเตอร์ แต่ถ้ายอมลดมุมลงเหลือ 85° จะสามารถรองรับได้มากกว่า 10²⁰⁰ เวกเตอร์ — มากกว่าจำนวนอะตอมในจักรวาลเสียอีก ✅ ข้อมูลสำคัญจากบทความ ➡️ GPT-3 มี embedding space ขนาด 12,288 มิติ แต่สามารถเก็บแนวคิดได้มหาศาล ➡️ การใช้ quasi-orthogonal vectors (มุมใกล้ 90°) ช่วยเพิ่มความจุของพื้นที่ ➡️ การทดลองพบว่า loss function แบบเดิมมีปัญหา gradient trap และ 99% solution ➡️ การปรับ loss function แบบ exponential ช่วยให้เวกเตอร์จัดเรียงได้ดีขึ้น ✅ การเชื่อมโยงกับทฤษฎี JL lemma ➡️ JL lemma ระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำโดยรักษาระยะห่างได้ ➡️ จำนวนมิติที่ต้องใช้เพิ่มขึ้นแบบ log(N)/ε² ตามจำนวนจุดและความคลาดเคลื่อนที่ยอมรับ ➡️ ใช้ในงานจริง เช่น การลดมิติของข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา ➡️ การทดลองพบว่า embedding space สามารถรองรับเวกเตอร์ได้มากกว่าที่คาด ✅ ข้อมูลเสริมจากภายนอก ➡️ Hadamard matrix และ BCH coding เป็นเทคนิคที่ใช้ในการฉายข้อมูลแบบมีประสิทธิภาพ ➡️ uIP และ SLIP เป็นโปรโตคอลที่ใช้ใน embedded system ที่มีหน่วยความจำจำกัด ➡️ GPT-3 ใช้ embedding space ขนาด 12,288 มิติ ซึ่งถือว่าเล็กเมื่อเทียบกับจำนวนแนวคิดที่ต้องรองรับ ➡️ การจัดเรียงเวกเตอร์ในมิติสูงมีความสัมพันธ์กับ sphere packing และ geometry แบบ non-Euclidean https://nickyoder.com/johnson-lindenstrauss/

NICKYODER.COM

Beyond Orthogonality: How Language Models Pack Billions of Concepts into 12,000 Dimensions

In a recent 3Blue1Brown video series on transformer models, Grant Sanderson posed a fascinating question: How can a relatively modest embedding space of 12,288 dimensions (GPT-3) accommodate millions of distinct real-world concepts? The answer lies at the intersection of high-dimensional geometry and a remarkable mathematical result known as the

0 ความคิดเห็น 0 การแบ่งปัน 378 มุมมอง 0 รีวิว