เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด
บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว
เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป
เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน
จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง
การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ
สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง
คณิตศาสตร์พื้นฐานที่ใช้ใน LLM
เวกเตอร์แทนความน่าจะเป็นของคำถัดไป
softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง
embedding space ใช้แทนความหมายของคำในหลายมิติ
การแปลงระหว่าง vocab space และ embedding space
ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์
การแปลงกลับใช้เมทริกซ์ 768 × 50,257
การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ
การคำนวณใน neural network
layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight
ผลลัพธ์คือการ project จาก input space ไปยัง output space
bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น
ตัวอย่างการใช้งานจริง
เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า
softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์
embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน
https://www.gilesthomas.com/2025/09/maths-for-llms
บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว
เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป
เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน
จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง
การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ
สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง
คณิตศาสตร์พื้นฐานที่ใช้ใน LLM
เวกเตอร์แทนความน่าจะเป็นของคำถัดไป
softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง
embedding space ใช้แทนความหมายของคำในหลายมิติ
การแปลงระหว่าง vocab space และ embedding space
ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์
การแปลงกลับใช้เมทริกซ์ 768 × 50,257
การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ
การคำนวณใน neural network
layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight
ผลลัพธ์คือการ project จาก input space ไปยัง output space
bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น
ตัวอย่างการใช้งานจริง
เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า
softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์
embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน
https://www.gilesthomas.com/2025/09/maths-for-llms
🎙️ เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด
บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว
เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป
เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน
จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง
การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ
สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง
✅ คณิตศาสตร์พื้นฐานที่ใช้ใน LLM
➡️ เวกเตอร์แทนความน่าจะเป็นของคำถัดไป
➡️ softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง
➡️ embedding space ใช้แทนความหมายของคำในหลายมิติ
✅ การแปลงระหว่าง vocab space และ embedding space
➡️ ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์
➡️ การแปลงกลับใช้เมทริกซ์ 768 × 50,257
➡️ การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ
✅ การคำนวณใน neural network
➡️ layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight
➡️ ผลลัพธ์คือการ project จาก input space ไปยัง output space
➡️ bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น
✅ ตัวอย่างการใช้งานจริง
➡️ เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า
➡️ softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์
➡️ embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน
https://www.gilesthomas.com/2025/09/maths-for-llms
0 Comments
0 Shares
54 Views
0 Reviews