“Markov Chains: ต้นกำเนิดของโมเดลภาษา — เมื่อความน่าจะเป็นกลายเป็นเครื่องมือสร้างภาษา”

ในบทความที่เขียนโดย Elijah Potter นักเรียนมัธยมปลายผู้หลงใหลในคณิตศาสตร์และการเขียนโปรแกรม ได้ย้อนกลับไปสำรวจรากฐานของโมเดลภาษา (Language Models) ผ่านมุมมองของ Markov Chains ซึ่งเป็นระบบทางคณิตศาสตร์ที่ใช้ในการคาดการณ์เหตุการณ์แบบสุ่ม โดยอิงจากสถานะก่อนหน้าเพียงหนึ่งขั้นตอน

Potter เริ่มต้นด้วยการเล่าประสบการณ์ส่วนตัวเกี่ยวกับวงจรความรู้สึกต่อ AI ตั้งแต่ความตื่นเต้น ความผิดหวัง ความสับสน จนถึงความเบื่อหน่าย และนำไปสู่ความตั้งใจที่จะ “กลับไปสู่รากฐาน” ด้วยการศึกษาระบบที่เรียบง่ายแต่ทรงพลังอย่าง Markov Chains

เขาอธิบายหลักการของ Markov Chains ผ่านตัวอย่างของ Alice ที่อยู่ระหว่างร้านขายของชำและท้องฟ้าจำลอง โดยใช้ตารางความน่าจะเป็นในการคาดการณ์การเคลื่อนที่ของเธอในแต่ละชั่วโมง ซึ่งสามารถแปลงเป็น matrix และ vector เพื่อคำนวณสถานะในอนาคตได้อย่างแม่นยำ

จากนั้น Potter นำแนวคิดนี้มาประยุกต์ใช้กับการสร้างระบบ autocomplete โดยใช้ภาษา Rust และ WebAssembly ในการสร้าง transition matrix จากข้อความตัวอย่าง แล้วใช้ matrix multiplication เพื่อคาดการณ์คำถัดไปที่มีความเป็นไปได้สูงที่สุด

เขายังพูดถึงข้อจำกัดของ Markov Chains ในการสร้างข้อความแบบต่อเนื่อง เพราะระบบจะมีแนวโน้มเข้าสู่ “steady state” หรือสถานะคงที่เมื่อรันไปนาน ๆ ทำให้ข้อความที่สร้างออกมาดูซ้ำซากและคาดเดาได้ง่าย จึงเสนอวิธีการสุ่มแบบใหม่โดยใช้ matrix R ที่มีค่าบนเส้นทแยงมุมเป็นตัวเลขสุ่ม เพื่อเพิ่มความหลากหลายในการเลือกคำ

บทความนี้ไม่เพียงแต่เป็นการสาธิตเชิงเทคนิค แต่ยังสะท้อนถึงความพยายามในการเข้าใจโมเดลภาษาอย่างลึกซึ้ง โดยไม่พึ่งพา “เวทมนตร์ของ AI” ที่หลายคนรู้สึกว่าเข้าใจยากและควบคุมไม่ได้

ข้อมูลสำคัญจากบทความ
Elijah Potter ใช้ Markov Chains เพื่อสร้างระบบ autocomplete ด้วย Rust และ WebAssembly
อธิบายหลักการผ่านตัวอย่าง Alice ที่เคลื่อนที่ระหว่างสถานที่ด้วยความน่าจะเป็น
ใช้ matrix และ vector ในการคำนวณสถานะในอนาคต
สร้าง transition matrix จากข้อความตัวอย่างเพื่อคาดการณ์คำถัดไป
ระบบสามารถเลือกคำถัดไปโดยใช้ matrix multiplication
เสนอวิธีสุ่มคำถัดไปโดยใช้ matrix R เพื่อหลีกเลี่ยงการเข้าสู่ steady state
บทความสะท้อนความตั้งใจในการเข้าใจโมเดลภาษาอย่างโปร่งใสและควบคุมได้

ข้อมูลเสริมจากภายนอก
Markov Chains ถูกคิดค้นโดย Andrey Markov ในศตวรรษที่ 20 เพื่อศึกษาลำดับเหตุการณ์แบบสุ่ม
โมเดลภาษาในยุคแรก เช่น Shannon’s bigram model ก็ใช้แนวคิดคล้าย Markov
โมเดล GPT และ Transformer ใช้บริบทหลายคำ ไม่ใช่แค่คำก่อนหน้าเดียวแบบ Markov
Steady state ใน Markov Chains คือสถานะที่ความน่าจะเป็นไม่เปลี่ยนแปลงเมื่อรันไปนาน ๆ
การใช้ matrix multiplication ในการคำนวณความน่าจะเป็นเป็นพื้นฐานของหลายระบบ AI

https://elijahpotter.dev/articles/markov_chains_are_the_original_language_models
🔁 “Markov Chains: ต้นกำเนิดของโมเดลภาษา — เมื่อความน่าจะเป็นกลายเป็นเครื่องมือสร้างภาษา” ในบทความที่เขียนโดย Elijah Potter นักเรียนมัธยมปลายผู้หลงใหลในคณิตศาสตร์และการเขียนโปรแกรม ได้ย้อนกลับไปสำรวจรากฐานของโมเดลภาษา (Language Models) ผ่านมุมมองของ Markov Chains ซึ่งเป็นระบบทางคณิตศาสตร์ที่ใช้ในการคาดการณ์เหตุการณ์แบบสุ่ม โดยอิงจากสถานะก่อนหน้าเพียงหนึ่งขั้นตอน Potter เริ่มต้นด้วยการเล่าประสบการณ์ส่วนตัวเกี่ยวกับวงจรความรู้สึกต่อ AI ตั้งแต่ความตื่นเต้น ความผิดหวัง ความสับสน จนถึงความเบื่อหน่าย และนำไปสู่ความตั้งใจที่จะ “กลับไปสู่รากฐาน” ด้วยการศึกษาระบบที่เรียบง่ายแต่ทรงพลังอย่าง Markov Chains เขาอธิบายหลักการของ Markov Chains ผ่านตัวอย่างของ Alice ที่อยู่ระหว่างร้านขายของชำและท้องฟ้าจำลอง โดยใช้ตารางความน่าจะเป็นในการคาดการณ์การเคลื่อนที่ของเธอในแต่ละชั่วโมง ซึ่งสามารถแปลงเป็น matrix และ vector เพื่อคำนวณสถานะในอนาคตได้อย่างแม่นยำ จากนั้น Potter นำแนวคิดนี้มาประยุกต์ใช้กับการสร้างระบบ autocomplete โดยใช้ภาษา Rust และ WebAssembly ในการสร้าง transition matrix จากข้อความตัวอย่าง แล้วใช้ matrix multiplication เพื่อคาดการณ์คำถัดไปที่มีความเป็นไปได้สูงที่สุด เขายังพูดถึงข้อจำกัดของ Markov Chains ในการสร้างข้อความแบบต่อเนื่อง เพราะระบบจะมีแนวโน้มเข้าสู่ “steady state” หรือสถานะคงที่เมื่อรันไปนาน ๆ ทำให้ข้อความที่สร้างออกมาดูซ้ำซากและคาดเดาได้ง่าย จึงเสนอวิธีการสุ่มแบบใหม่โดยใช้ matrix R ที่มีค่าบนเส้นทแยงมุมเป็นตัวเลขสุ่ม เพื่อเพิ่มความหลากหลายในการเลือกคำ บทความนี้ไม่เพียงแต่เป็นการสาธิตเชิงเทคนิค แต่ยังสะท้อนถึงความพยายามในการเข้าใจโมเดลภาษาอย่างลึกซึ้ง โดยไม่พึ่งพา “เวทมนตร์ของ AI” ที่หลายคนรู้สึกว่าเข้าใจยากและควบคุมไม่ได้ ✅ ข้อมูลสำคัญจากบทความ ➡️ Elijah Potter ใช้ Markov Chains เพื่อสร้างระบบ autocomplete ด้วย Rust และ WebAssembly ➡️ อธิบายหลักการผ่านตัวอย่าง Alice ที่เคลื่อนที่ระหว่างสถานที่ด้วยความน่าจะเป็น ➡️ ใช้ matrix และ vector ในการคำนวณสถานะในอนาคต ➡️ สร้าง transition matrix จากข้อความตัวอย่างเพื่อคาดการณ์คำถัดไป ➡️ ระบบสามารถเลือกคำถัดไปโดยใช้ matrix multiplication ➡️ เสนอวิธีสุ่มคำถัดไปโดยใช้ matrix R เพื่อหลีกเลี่ยงการเข้าสู่ steady state ➡️ บทความสะท้อนความตั้งใจในการเข้าใจโมเดลภาษาอย่างโปร่งใสและควบคุมได้ ✅ ข้อมูลเสริมจากภายนอก ➡️ Markov Chains ถูกคิดค้นโดย Andrey Markov ในศตวรรษที่ 20 เพื่อศึกษาลำดับเหตุการณ์แบบสุ่ม ➡️ โมเดลภาษาในยุคแรก เช่น Shannon’s bigram model ก็ใช้แนวคิดคล้าย Markov ➡️ โมเดล GPT และ Transformer ใช้บริบทหลายคำ ไม่ใช่แค่คำก่อนหน้าเดียวแบบ Markov ➡️ Steady state ใน Markov Chains คือสถานะที่ความน่าจะเป็นไม่เปลี่ยนแปลงเมื่อรันไปนาน ๆ ➡️ การใช้ matrix multiplication ในการคำนวณความน่าจะเป็นเป็นพื้นฐานของหลายระบบ AI https://elijahpotter.dev/articles/markov_chains_are_the_original_language_models
ELIJAHPOTTER.DEV
Markov Chains Are the Original Language Models
Back in my day, we used math for autocomplete.
0 ความคิดเห็น 0 การแบ่งปัน 54 มุมมอง 0 รีวิว