ถ้าคุณมีแค่ MacBook Pro กับเวลา 5 นาที — คุณจะฝึก AI ได้แค่ไหน?
Sean Goedecke ตั้งคำถามเล่น ๆ ว่า “ถ้ามีแค่ MacBook Pro กับเวลา 5 นาที จะฝึกโมเดล AI ที่แข็งแกร่งที่สุดได้แค่ไหน?” คำตอบคือ โมเดล GPT-style ขนาด 1.8 ล้านพารามิเตอร์ ที่ฝึกด้วยชุดข้อมูล TinyStories ประมาณ 20 ล้าน token ซึ่งให้ผลลัพธ์ที่ “ไม่แย่เลย” ด้วย perplexity ประมาณ 9.6
เขาเริ่มจากการทดลองหลายแบบ ทั้ง transformers, LSTM และแม้แต่ diffusion models แต่พบว่า transformers แบบเรียบง่ายให้ผลดีที่สุด โดยใช้ Apple MPS (Metal Performance Shaders) เพื่อเร่งความเร็วการฝึก และเลือก dataset ที่เหมาะกับโมเดลเล็ก เช่น TinyStories ซึ่งมีโครงสร้างเรื่องราวชัดเจนและภาษาง่าย
เขายังพบว่าเทคนิคอย่าง gradient accumulation หรือ torch.compile ไม่ช่วยเพิ่มประสิทธิภาพในกรณีนี้ และการเลือกขนาดโมเดลที่เหมาะสมสำคัญกว่าการใช้เทคนิคซับซ้อน โดยขนาดที่ดีที่สุดอยู่ระหว่าง 1M–1.5M พารามิเตอร์ ซึ่งสอดคล้องกับ Chinchilla scaling laws
แม้จะเป็นการทดลองที่ดู “ไร้สาระ” แต่ก็ให้บทเรียนสำคัญว่า การฝึกโมเดลเล็กในเวลาจำกัดสามารถให้ผลลัพธ์ที่น่าทึ่งได้ หากเลือก dataset และ architecture อย่างเหมาะสม
โมเดลที่ดีที่สุดใน 5 นาทีคือ GPT-style ขนาด ~1.8M พารามิเตอร์
ฝึกด้วย TinyStories ~20M token ได้ perplexity ~9.6
ใช้ Apple MPS เพื่อเร่งความเร็วการฝึก
ได้ความเร็ว ~100K token/วินาที สำหรับโมเดลขนาด 1M
Dataset ที่ใช้คือ TinyStories ซึ่งเหมาะกับโมเดลเล็ก
มีโครงสร้างเรื่องราวชัดเจนและภาษาง่าย
ขนาดโมเดลที่เหมาะสมที่สุดอยู่ระหว่าง 1M–1.5M พารามิเตอร์
ให้อัตราการเรียนรู้และความแม่นยำดีที่สุดในเวลาจำกัด
Architecture ที่ใช้คือ GPT-style transformer 2–3 layers
ใช้ SwiGLU activation และ positional embeddings แบบเรียนรู้ได้
ไม่ใช้ dropout หรือ mixture-of-experts
เพราะเป้าหมายคือให้โมเดลเรียนรู้เร็วที่สุดในเวลาจำกัด
การฝึกโมเดลเล็กมีประโยชน์ในงาน edge computing และ embedded AI
เช่น รันบนมือถือหรืออุปกรณ์ IoT โดยไม่ต้องพึ่ง cloud
เครื่องมืออย่าง Ollama และ LM Studio ช่วยให้ฝึกโมเดลได้ง่ายขึ้น
รองรับการโหลดโมเดล open-source เช่น Phi-2, Mistral, Gemma
OpenAI เปิดตัว GPT-OSS ซึ่งสามารถรันบนเครื่องส่วนตัวได้
มีเวอร์ชันเล็กสำหรับงานเฉพาะทางและการทดลอง
การฝึกโมเดลในเวลาจำกัดช่วยทดสอบ scaling laws ได้จริง
เช่น Chinchilla law ที่แนะนำขนาดโมเดลตามจำนวน token
https://www.seangoedecke.com/model-on-a-mbp/
Sean Goedecke ตั้งคำถามเล่น ๆ ว่า “ถ้ามีแค่ MacBook Pro กับเวลา 5 นาที จะฝึกโมเดล AI ที่แข็งแกร่งที่สุดได้แค่ไหน?” คำตอบคือ โมเดล GPT-style ขนาด 1.8 ล้านพารามิเตอร์ ที่ฝึกด้วยชุดข้อมูล TinyStories ประมาณ 20 ล้าน token ซึ่งให้ผลลัพธ์ที่ “ไม่แย่เลย” ด้วย perplexity ประมาณ 9.6
เขาเริ่มจากการทดลองหลายแบบ ทั้ง transformers, LSTM และแม้แต่ diffusion models แต่พบว่า transformers แบบเรียบง่ายให้ผลดีที่สุด โดยใช้ Apple MPS (Metal Performance Shaders) เพื่อเร่งความเร็วการฝึก และเลือก dataset ที่เหมาะกับโมเดลเล็ก เช่น TinyStories ซึ่งมีโครงสร้างเรื่องราวชัดเจนและภาษาง่าย
เขายังพบว่าเทคนิคอย่าง gradient accumulation หรือ torch.compile ไม่ช่วยเพิ่มประสิทธิภาพในกรณีนี้ และการเลือกขนาดโมเดลที่เหมาะสมสำคัญกว่าการใช้เทคนิคซับซ้อน โดยขนาดที่ดีที่สุดอยู่ระหว่าง 1M–1.5M พารามิเตอร์ ซึ่งสอดคล้องกับ Chinchilla scaling laws
แม้จะเป็นการทดลองที่ดู “ไร้สาระ” แต่ก็ให้บทเรียนสำคัญว่า การฝึกโมเดลเล็กในเวลาจำกัดสามารถให้ผลลัพธ์ที่น่าทึ่งได้ หากเลือก dataset และ architecture อย่างเหมาะสม
โมเดลที่ดีที่สุดใน 5 นาทีคือ GPT-style ขนาด ~1.8M พารามิเตอร์
ฝึกด้วย TinyStories ~20M token ได้ perplexity ~9.6
ใช้ Apple MPS เพื่อเร่งความเร็วการฝึก
ได้ความเร็ว ~100K token/วินาที สำหรับโมเดลขนาด 1M
Dataset ที่ใช้คือ TinyStories ซึ่งเหมาะกับโมเดลเล็ก
มีโครงสร้างเรื่องราวชัดเจนและภาษาง่าย
ขนาดโมเดลที่เหมาะสมที่สุดอยู่ระหว่าง 1M–1.5M พารามิเตอร์
ให้อัตราการเรียนรู้และความแม่นยำดีที่สุดในเวลาจำกัด
Architecture ที่ใช้คือ GPT-style transformer 2–3 layers
ใช้ SwiGLU activation และ positional embeddings แบบเรียนรู้ได้
ไม่ใช้ dropout หรือ mixture-of-experts
เพราะเป้าหมายคือให้โมเดลเรียนรู้เร็วที่สุดในเวลาจำกัด
การฝึกโมเดลเล็กมีประโยชน์ในงาน edge computing และ embedded AI
เช่น รันบนมือถือหรืออุปกรณ์ IoT โดยไม่ต้องพึ่ง cloud
เครื่องมืออย่าง Ollama และ LM Studio ช่วยให้ฝึกโมเดลได้ง่ายขึ้น
รองรับการโหลดโมเดล open-source เช่น Phi-2, Mistral, Gemma
OpenAI เปิดตัว GPT-OSS ซึ่งสามารถรันบนเครื่องส่วนตัวได้
มีเวอร์ชันเล็กสำหรับงานเฉพาะทางและการทดลอง
การฝึกโมเดลในเวลาจำกัดช่วยทดสอบ scaling laws ได้จริง
เช่น Chinchilla law ที่แนะนำขนาดโมเดลตามจำนวน token
https://www.seangoedecke.com/model-on-a-mbp/
🧠💻 ถ้าคุณมีแค่ MacBook Pro กับเวลา 5 นาที — คุณจะฝึก AI ได้แค่ไหน?
Sean Goedecke ตั้งคำถามเล่น ๆ ว่า “ถ้ามีแค่ MacBook Pro กับเวลา 5 นาที จะฝึกโมเดล AI ที่แข็งแกร่งที่สุดได้แค่ไหน?” คำตอบคือ โมเดล GPT-style ขนาด 1.8 ล้านพารามิเตอร์ ที่ฝึกด้วยชุดข้อมูล TinyStories ประมาณ 20 ล้าน token ซึ่งให้ผลลัพธ์ที่ “ไม่แย่เลย” ด้วย perplexity ประมาณ 9.6
เขาเริ่มจากการทดลองหลายแบบ ทั้ง transformers, LSTM และแม้แต่ diffusion models แต่พบว่า transformers แบบเรียบง่ายให้ผลดีที่สุด โดยใช้ Apple MPS (Metal Performance Shaders) เพื่อเร่งความเร็วการฝึก และเลือก dataset ที่เหมาะกับโมเดลเล็ก เช่น TinyStories ซึ่งมีโครงสร้างเรื่องราวชัดเจนและภาษาง่าย
เขายังพบว่าเทคนิคอย่าง gradient accumulation หรือ torch.compile ไม่ช่วยเพิ่มประสิทธิภาพในกรณีนี้ และการเลือกขนาดโมเดลที่เหมาะสมสำคัญกว่าการใช้เทคนิคซับซ้อน โดยขนาดที่ดีที่สุดอยู่ระหว่าง 1M–1.5M พารามิเตอร์ ซึ่งสอดคล้องกับ Chinchilla scaling laws
แม้จะเป็นการทดลองที่ดู “ไร้สาระ” แต่ก็ให้บทเรียนสำคัญว่า การฝึกโมเดลเล็กในเวลาจำกัดสามารถให้ผลลัพธ์ที่น่าทึ่งได้ หากเลือก dataset และ architecture อย่างเหมาะสม
✅ โมเดลที่ดีที่สุดใน 5 นาทีคือ GPT-style ขนาด ~1.8M พารามิเตอร์
➡️ ฝึกด้วย TinyStories ~20M token ได้ perplexity ~9.6
✅ ใช้ Apple MPS เพื่อเร่งความเร็วการฝึก
➡️ ได้ความเร็ว ~100K token/วินาที สำหรับโมเดลขนาด 1M
✅ Dataset ที่ใช้คือ TinyStories ซึ่งเหมาะกับโมเดลเล็ก
➡️ มีโครงสร้างเรื่องราวชัดเจนและภาษาง่าย
✅ ขนาดโมเดลที่เหมาะสมที่สุดอยู่ระหว่าง 1M–1.5M พารามิเตอร์
➡️ ให้อัตราการเรียนรู้และความแม่นยำดีที่สุดในเวลาจำกัด
✅ Architecture ที่ใช้คือ GPT-style transformer 2–3 layers
➡️ ใช้ SwiGLU activation และ positional embeddings แบบเรียนรู้ได้
✅ ไม่ใช้ dropout หรือ mixture-of-experts
➡️ เพราะเป้าหมายคือให้โมเดลเรียนรู้เร็วที่สุดในเวลาจำกัด
✅ การฝึกโมเดลเล็กมีประโยชน์ในงาน edge computing และ embedded AI
➡️ เช่น รันบนมือถือหรืออุปกรณ์ IoT โดยไม่ต้องพึ่ง cloud
✅ เครื่องมืออย่าง Ollama และ LM Studio ช่วยให้ฝึกโมเดลได้ง่ายขึ้น
➡️ รองรับการโหลดโมเดล open-source เช่น Phi-2, Mistral, Gemma
✅ OpenAI เปิดตัว GPT-OSS ซึ่งสามารถรันบนเครื่องส่วนตัวได้
➡️ มีเวอร์ชันเล็กสำหรับงานเฉพาะทางและการทดลอง
✅ การฝึกโมเดลในเวลาจำกัดช่วยทดสอบ scaling laws ได้จริง
➡️ เช่น Chinchilla law ที่แนะนำขนาดโมเดลตามจำนวน token
https://www.seangoedecke.com/model-on-a-mbp/
0 Comments
0 Shares
26 Views
0 Reviews