“GPT-3 กับ 12,000 มิติแห่งความหมาย — เมื่อคณิตศาสตร์ช่วยให้โมเดลภาษาเข้าใจโลกได้ลึกกว่าที่คิด”
บทความโดย Nicholas Yoder ได้เปิดเผยเบื้องหลังของคำถามที่ดูเหมือนง่ายแต่ลึกซึ้ง: “โมเดลภาษาอย่าง GPT-3 ที่มี embedding space เพียง 12,288 มิติ สามารถเก็บข้อมูลนับพันล้านแนวคิดได้อย่างไร?” คำตอบไม่ได้อยู่แค่ในวิศวกรรม แต่ซ่อนอยู่ในเรขาคณิตมิติสูงและทฤษฎีคณิตศาสตร์ที่ชื่อว่า Johnson–Lindenstrauss lemma
ในโลกของเวกเตอร์ การจัดเรียงแบบ “orthogonal” (ตั้งฉาก) มีข้อจำกัด — N มิติสามารถรองรับได้แค่ N เวกเตอร์ที่ตั้งฉากกันเท่านั้น แต่ถ้าเรายอมให้เวกเตอร์มีมุมใกล้เคียง 90° เช่น 85–95° หรือที่เรียกว่า “quasi-orthogonal” ความจุของพื้นที่จะเพิ่มขึ้นอย่างมหาศาล
Yoder ได้ทดลองสร้างเวกเตอร์ 10,000 ตัวในพื้นที่ 100 มิติ โดยใช้ loss function ที่ดูเรียบง่าย แต่กลับเจอปัญหา “Gradient Trap” และ “99% Solution” ซึ่งทำให้เวกเตอร์บางตัวติดอยู่ในตำแหน่งที่ไม่เหมาะสม แม้จะดูดีในเชิงสถิติ เขาจึงปรับ loss function ให้ลงโทษเวกเตอร์ที่มี dot product สูงขึ้นแบบ exponential และพบว่าแม้จะตั้งเป้ามุมใกล้ 90° แต่ผลลัพธ์จริงกลับอยู่ที่ ~76.5° ซึ่งนำไปสู่การค้นพบขีดจำกัดใหม่ของการบรรจุเวกเตอร์ในมิติสูง
จากนั้น Yoder ได้เชื่อมโยงกับ Johnson–Lindenstrauss lemma ซึ่งระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำได้โดยไม่เสียโครงสร้างระยะห่างมากนัก โดยจำนวนมิติที่ต้องใช้จะเพิ่มขึ้นแบบลอการิทึมตามจำนวนจุดที่ต้องการฉาย — ทำให้การลดมิติในงานจริง เช่น การจัดการข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา เป็นไปได้อย่างมีประสิทธิภาพ
เขายังเสนอสูตรประมาณจำนวนเวกเตอร์ที่สามารถจัดวางในพื้นที่ embedding ได้ตามมุมที่ยอมรับได้ เช่น ที่มุม 89° GPT-3 สามารถรองรับได้ ~10⁸ เวกเตอร์ แต่ถ้ายอมลดมุมลงเหลือ 85° จะสามารถรองรับได้มากกว่า 10²⁰⁰ เวกเตอร์ — มากกว่าจำนวนอะตอมในจักรวาลเสียอีก
ข้อมูลสำคัญจากบทความ
GPT-3 มี embedding space ขนาด 12,288 มิติ แต่สามารถเก็บแนวคิดได้มหาศาล
การใช้ quasi-orthogonal vectors (มุมใกล้ 90°) ช่วยเพิ่มความจุของพื้นที่
การทดลองพบว่า loss function แบบเดิมมีปัญหา gradient trap และ 99% solution
การปรับ loss function แบบ exponential ช่วยให้เวกเตอร์จัดเรียงได้ดีขึ้น
การเชื่อมโยงกับทฤษฎี JL lemma
JL lemma ระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำโดยรักษาระยะห่างได้
จำนวนมิติที่ต้องใช้เพิ่มขึ้นแบบ log(N)/ε² ตามจำนวนจุดและความคลาดเคลื่อนที่ยอมรับ
ใช้ในงานจริง เช่น การลดมิติของข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา
การทดลองพบว่า embedding space สามารถรองรับเวกเตอร์ได้มากกว่าที่คาด
ข้อมูลเสริมจากภายนอก
Hadamard matrix และ BCH coding เป็นเทคนิคที่ใช้ในการฉายข้อมูลแบบมีประสิทธิภาพ
uIP และ SLIP เป็นโปรโตคอลที่ใช้ใน embedded system ที่มีหน่วยความจำจำกัด
GPT-3 ใช้ embedding space ขนาด 12,288 มิติ ซึ่งถือว่าเล็กเมื่อเทียบกับจำนวนแนวคิดที่ต้องรองรับ
การจัดเรียงเวกเตอร์ในมิติสูงมีความสัมพันธ์กับ sphere packing และ geometry แบบ non-Euclidean
https://nickyoder.com/johnson-lindenstrauss/
บทความโดย Nicholas Yoder ได้เปิดเผยเบื้องหลังของคำถามที่ดูเหมือนง่ายแต่ลึกซึ้ง: “โมเดลภาษาอย่าง GPT-3 ที่มี embedding space เพียง 12,288 มิติ สามารถเก็บข้อมูลนับพันล้านแนวคิดได้อย่างไร?” คำตอบไม่ได้อยู่แค่ในวิศวกรรม แต่ซ่อนอยู่ในเรขาคณิตมิติสูงและทฤษฎีคณิตศาสตร์ที่ชื่อว่า Johnson–Lindenstrauss lemma
ในโลกของเวกเตอร์ การจัดเรียงแบบ “orthogonal” (ตั้งฉาก) มีข้อจำกัด — N มิติสามารถรองรับได้แค่ N เวกเตอร์ที่ตั้งฉากกันเท่านั้น แต่ถ้าเรายอมให้เวกเตอร์มีมุมใกล้เคียง 90° เช่น 85–95° หรือที่เรียกว่า “quasi-orthogonal” ความจุของพื้นที่จะเพิ่มขึ้นอย่างมหาศาล
Yoder ได้ทดลองสร้างเวกเตอร์ 10,000 ตัวในพื้นที่ 100 มิติ โดยใช้ loss function ที่ดูเรียบง่าย แต่กลับเจอปัญหา “Gradient Trap” และ “99% Solution” ซึ่งทำให้เวกเตอร์บางตัวติดอยู่ในตำแหน่งที่ไม่เหมาะสม แม้จะดูดีในเชิงสถิติ เขาจึงปรับ loss function ให้ลงโทษเวกเตอร์ที่มี dot product สูงขึ้นแบบ exponential และพบว่าแม้จะตั้งเป้ามุมใกล้ 90° แต่ผลลัพธ์จริงกลับอยู่ที่ ~76.5° ซึ่งนำไปสู่การค้นพบขีดจำกัดใหม่ของการบรรจุเวกเตอร์ในมิติสูง
จากนั้น Yoder ได้เชื่อมโยงกับ Johnson–Lindenstrauss lemma ซึ่งระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำได้โดยไม่เสียโครงสร้างระยะห่างมากนัก โดยจำนวนมิติที่ต้องใช้จะเพิ่มขึ้นแบบลอการิทึมตามจำนวนจุดที่ต้องการฉาย — ทำให้การลดมิติในงานจริง เช่น การจัดการข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา เป็นไปได้อย่างมีประสิทธิภาพ
เขายังเสนอสูตรประมาณจำนวนเวกเตอร์ที่สามารถจัดวางในพื้นที่ embedding ได้ตามมุมที่ยอมรับได้ เช่น ที่มุม 89° GPT-3 สามารถรองรับได้ ~10⁸ เวกเตอร์ แต่ถ้ายอมลดมุมลงเหลือ 85° จะสามารถรองรับได้มากกว่า 10²⁰⁰ เวกเตอร์ — มากกว่าจำนวนอะตอมในจักรวาลเสียอีก
ข้อมูลสำคัญจากบทความ
GPT-3 มี embedding space ขนาด 12,288 มิติ แต่สามารถเก็บแนวคิดได้มหาศาล
การใช้ quasi-orthogonal vectors (มุมใกล้ 90°) ช่วยเพิ่มความจุของพื้นที่
การทดลองพบว่า loss function แบบเดิมมีปัญหา gradient trap และ 99% solution
การปรับ loss function แบบ exponential ช่วยให้เวกเตอร์จัดเรียงได้ดีขึ้น
การเชื่อมโยงกับทฤษฎี JL lemma
JL lemma ระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำโดยรักษาระยะห่างได้
จำนวนมิติที่ต้องใช้เพิ่มขึ้นแบบ log(N)/ε² ตามจำนวนจุดและความคลาดเคลื่อนที่ยอมรับ
ใช้ในงานจริง เช่น การลดมิติของข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา
การทดลองพบว่า embedding space สามารถรองรับเวกเตอร์ได้มากกว่าที่คาด
ข้อมูลเสริมจากภายนอก
Hadamard matrix และ BCH coding เป็นเทคนิคที่ใช้ในการฉายข้อมูลแบบมีประสิทธิภาพ
uIP และ SLIP เป็นโปรโตคอลที่ใช้ใน embedded system ที่มีหน่วยความจำจำกัด
GPT-3 ใช้ embedding space ขนาด 12,288 มิติ ซึ่งถือว่าเล็กเมื่อเทียบกับจำนวนแนวคิดที่ต้องรองรับ
การจัดเรียงเวกเตอร์ในมิติสูงมีความสัมพันธ์กับ sphere packing และ geometry แบบ non-Euclidean
https://nickyoder.com/johnson-lindenstrauss/
🧠 “GPT-3 กับ 12,000 มิติแห่งความหมาย — เมื่อคณิตศาสตร์ช่วยให้โมเดลภาษาเข้าใจโลกได้ลึกกว่าที่คิด”
บทความโดย Nicholas Yoder ได้เปิดเผยเบื้องหลังของคำถามที่ดูเหมือนง่ายแต่ลึกซึ้ง: “โมเดลภาษาอย่าง GPT-3 ที่มี embedding space เพียง 12,288 มิติ สามารถเก็บข้อมูลนับพันล้านแนวคิดได้อย่างไร?” คำตอบไม่ได้อยู่แค่ในวิศวกรรม แต่ซ่อนอยู่ในเรขาคณิตมิติสูงและทฤษฎีคณิตศาสตร์ที่ชื่อว่า Johnson–Lindenstrauss lemma
ในโลกของเวกเตอร์ การจัดเรียงแบบ “orthogonal” (ตั้งฉาก) มีข้อจำกัด — N มิติสามารถรองรับได้แค่ N เวกเตอร์ที่ตั้งฉากกันเท่านั้น แต่ถ้าเรายอมให้เวกเตอร์มีมุมใกล้เคียง 90° เช่น 85–95° หรือที่เรียกว่า “quasi-orthogonal” ความจุของพื้นที่จะเพิ่มขึ้นอย่างมหาศาล
Yoder ได้ทดลองสร้างเวกเตอร์ 10,000 ตัวในพื้นที่ 100 มิติ โดยใช้ loss function ที่ดูเรียบง่าย แต่กลับเจอปัญหา “Gradient Trap” และ “99% Solution” ซึ่งทำให้เวกเตอร์บางตัวติดอยู่ในตำแหน่งที่ไม่เหมาะสม แม้จะดูดีในเชิงสถิติ เขาจึงปรับ loss function ให้ลงโทษเวกเตอร์ที่มี dot product สูงขึ้นแบบ exponential และพบว่าแม้จะตั้งเป้ามุมใกล้ 90° แต่ผลลัพธ์จริงกลับอยู่ที่ ~76.5° ซึ่งนำไปสู่การค้นพบขีดจำกัดใหม่ของการบรรจุเวกเตอร์ในมิติสูง
จากนั้น Yoder ได้เชื่อมโยงกับ Johnson–Lindenstrauss lemma ซึ่งระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำได้โดยไม่เสียโครงสร้างระยะห่างมากนัก โดยจำนวนมิติที่ต้องใช้จะเพิ่มขึ้นแบบลอการิทึมตามจำนวนจุดที่ต้องการฉาย — ทำให้การลดมิติในงานจริง เช่น การจัดการข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา เป็นไปได้อย่างมีประสิทธิภาพ
เขายังเสนอสูตรประมาณจำนวนเวกเตอร์ที่สามารถจัดวางในพื้นที่ embedding ได้ตามมุมที่ยอมรับได้ เช่น ที่มุม 89° GPT-3 สามารถรองรับได้ ~10⁸ เวกเตอร์ แต่ถ้ายอมลดมุมลงเหลือ 85° จะสามารถรองรับได้มากกว่า 10²⁰⁰ เวกเตอร์ — มากกว่าจำนวนอะตอมในจักรวาลเสียอีก
✅ ข้อมูลสำคัญจากบทความ
➡️ GPT-3 มี embedding space ขนาด 12,288 มิติ แต่สามารถเก็บแนวคิดได้มหาศาล
➡️ การใช้ quasi-orthogonal vectors (มุมใกล้ 90°) ช่วยเพิ่มความจุของพื้นที่
➡️ การทดลองพบว่า loss function แบบเดิมมีปัญหา gradient trap และ 99% solution
➡️ การปรับ loss function แบบ exponential ช่วยให้เวกเตอร์จัดเรียงได้ดีขึ้น
✅ การเชื่อมโยงกับทฤษฎี JL lemma
➡️ JL lemma ระบุว่าเราสามารถฉายข้อมูลจากมิติสูงไปยังมิติต่ำโดยรักษาระยะห่างได้
➡️ จำนวนมิติที่ต้องใช้เพิ่มขึ้นแบบ log(N)/ε² ตามจำนวนจุดและความคลาดเคลื่อนที่ยอมรับ
➡️ ใช้ในงานจริง เช่น การลดมิติของข้อมูลลูกค้า หรือ embedding คำในโมเดลภาษา
➡️ การทดลองพบว่า embedding space สามารถรองรับเวกเตอร์ได้มากกว่าที่คาด
✅ ข้อมูลเสริมจากภายนอก
➡️ Hadamard matrix และ BCH coding เป็นเทคนิคที่ใช้ในการฉายข้อมูลแบบมีประสิทธิภาพ
➡️ uIP และ SLIP เป็นโปรโตคอลที่ใช้ใน embedded system ที่มีหน่วยความจำจำกัด
➡️ GPT-3 ใช้ embedding space ขนาด 12,288 มิติ ซึ่งถือว่าเล็กเมื่อเทียบกับจำนวนแนวคิดที่ต้องรองรับ
➡️ การจัดเรียงเวกเตอร์ในมิติสูงมีความสัมพันธ์กับ sphere packing และ geometry แบบ non-Euclidean
https://nickyoder.com/johnson-lindenstrauss/
0 Comments
0 Shares
16 Views
0 Reviews