“สร้างคลังข้อมูล 30 เพตาไบต์ด้วยงบไม่ถึงครึ่งล้าน — เบื้องหลังการฝึกโมเดล AI ด้วยวิดีโอ 90 ล้านชั่วโมง”

ในยุคที่โมเดล AI ต้องการข้อมูลมหาศาลเพื่อเรียนรู้ การฝึกโมเดลจากวิดีโอไม่ใช่เรื่องเล็ก ล่าสุดทีม Standard Intelligence ได้สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30 เพตาไบต์ (PB) ด้วยงบเพียง 426,500 ดอลลาร์ เพื่อใช้ฝึกโมเดล AI ที่เรียนรู้จากการใช้งานคอมพิวเตอร์โดยตรง ซึ่งแตกต่างจากโมเดลข้อความทั่วไปที่ใช้ข้อมูลเพียง ~60TB

แทนที่จะใช้บริการคลาวด์อย่าง AWS ที่มีค่าใช้จ่ายสูงถึง 12 ล้านดอลลาร์ต่อปี ทีมงานเลือกเช่าพื้นที่ในศูนย์ข้อมูลกลางเมืองซานฟรานซิสโก ทำให้ลดต้นทุนลงถึง 40 เท่า เหลือเพียง 354,000 ดอลลาร์ต่อปี รวมค่าเสื่อมราคา

แนวคิดเบื้องหลังคือ “ข้อมูลฝึกไม่จำเป็นต้องสมบูรณ์แบบ” เพราะการสูญเสียข้อมูลบางส่วนไม่กระทบต่อคุณภาพโมเดลมากนัก ต่างจากข้อมูลผู้ใช้ที่ต้องการความแม่นยำสูง ทีมงานจึงเลือกใช้ฮาร์ดดิสก์มือสอง, เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust เพียง 200 บรรทัด และใช้ nginx กับ SQLite แทนระบบซับซ้อนอย่าง Ceph หรือ MinIO

การติดตั้งระบบใช้เวลาเพียง 36 ชั่วโมง โดยจัดกิจกรรม “Storage Stacking Saturday” ชวนเพื่อนมาช่วยประกอบแร็ค พร้อมแจกฮาร์ดดิสก์สลักชื่อเป็นของที่ระลึก และหลังจากนั้นจึงจ้างช่างมืออาชีพมาติดตั้งระบบให้สมบูรณ์

ผลลัพธ์คือคลัสเตอร์ที่สามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps โดยไม่ต้องพึ่งระบบซับซ้อนหรือคลาวด์แพง ๆ และยังสามารถแข่งขันกับห้องวิจัย AI ระดับโลกที่มีงบพันล้านได้อย่างมีประสิทธิภาพ

ข้อมูลสำคัญจากข่าว
สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30PB ด้วยงบ 426,500 ดอลลาร์
ใช้ฮาร์ดดิสก์มือสอง 2,400 ลูก ขนาด 12–14TB ต่อลูก
เลือกใช้ศูนย์ข้อมูลใกล้ออฟฟิศในซานฟรานซิสโก ลดค่าใช้จ่ายและเพิ่มความสะดวก
เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust 200 บรรทัด + nginx + SQLite
ไม่ใช้ระบบ Ceph หรือ MinIO เพราะซับซ้อนเกินจำเป็น
จัดกิจกรรม “Storage Stacking Saturday” ติดตั้งระบบภายใน 36 ชั่วโมง
ระบบสามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps
ค่าใช้จ่ายรายเดือนรวมอินเทอร์เน็ตและไฟฟ้าอยู่ที่ 17,500 ดอลลาร์
ค่าเสื่อมราคาเฉลี่ยเดือนละ 12,000 ดอลลาร์ รวมเป็น 29,500 ดอลลาร์/เดือน
เปรียบเทียบต้นทุน: AWS $38/TB, Cloudflare $10/TB, ระบบนี้ $1/TB

ข้อมูลเสริมจากภายนอก
โมเดล AI ที่เรียนรู้จากวิดีโอต้องการข้อมูลมากกว่าข้อความถึง 500 เท่า
ML-KEM และการเข้ารหัสแบบ post-quantum เริ่มถูกนำมาใช้ในระบบจัดเก็บข้อมูล AI
Ceph เหมาะกับองค์กรที่ต้องการประสิทธิภาพสูงและมีทีมดูแลเฉพาะทาง
MinIO เหมาะกับระบบที่ต้องการ S3 compatibility แต่ยังซับซ้อนสำหรับงานง่าย
การใช้ฮาร์ดดิสก์แบบ SAS ให้ความเร็วสูงกว่าระบบ SATA แต่ต้องจัดการ multipath

https://si.inc/posts/the-heap/
🧠 “สร้างคลังข้อมูล 30 เพตาไบต์ด้วยงบไม่ถึงครึ่งล้าน — เบื้องหลังการฝึกโมเดล AI ด้วยวิดีโอ 90 ล้านชั่วโมง” ในยุคที่โมเดล AI ต้องการข้อมูลมหาศาลเพื่อเรียนรู้ การฝึกโมเดลจากวิดีโอไม่ใช่เรื่องเล็ก ล่าสุดทีม Standard Intelligence ได้สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30 เพตาไบต์ (PB) ด้วยงบเพียง 426,500 ดอลลาร์ เพื่อใช้ฝึกโมเดล AI ที่เรียนรู้จากการใช้งานคอมพิวเตอร์โดยตรง ซึ่งแตกต่างจากโมเดลข้อความทั่วไปที่ใช้ข้อมูลเพียง ~60TB แทนที่จะใช้บริการคลาวด์อย่าง AWS ที่มีค่าใช้จ่ายสูงถึง 12 ล้านดอลลาร์ต่อปี ทีมงานเลือกเช่าพื้นที่ในศูนย์ข้อมูลกลางเมืองซานฟรานซิสโก ทำให้ลดต้นทุนลงถึง 40 เท่า เหลือเพียง 354,000 ดอลลาร์ต่อปี รวมค่าเสื่อมราคา แนวคิดเบื้องหลังคือ “ข้อมูลฝึกไม่จำเป็นต้องสมบูรณ์แบบ” เพราะการสูญเสียข้อมูลบางส่วนไม่กระทบต่อคุณภาพโมเดลมากนัก ต่างจากข้อมูลผู้ใช้ที่ต้องการความแม่นยำสูง ทีมงานจึงเลือกใช้ฮาร์ดดิสก์มือสอง, เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust เพียง 200 บรรทัด และใช้ nginx กับ SQLite แทนระบบซับซ้อนอย่าง Ceph หรือ MinIO การติดตั้งระบบใช้เวลาเพียง 36 ชั่วโมง โดยจัดกิจกรรม “Storage Stacking Saturday” ชวนเพื่อนมาช่วยประกอบแร็ค พร้อมแจกฮาร์ดดิสก์สลักชื่อเป็นของที่ระลึก และหลังจากนั้นจึงจ้างช่างมืออาชีพมาติดตั้งระบบให้สมบูรณ์ ผลลัพธ์คือคลัสเตอร์ที่สามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps โดยไม่ต้องพึ่งระบบซับซ้อนหรือคลาวด์แพง ๆ และยังสามารถแข่งขันกับห้องวิจัย AI ระดับโลกที่มีงบพันล้านได้อย่างมีประสิทธิภาพ ✅ ข้อมูลสำคัญจากข่าว ➡️ สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30PB ด้วยงบ 426,500 ดอลลาร์ ➡️ ใช้ฮาร์ดดิสก์มือสอง 2,400 ลูก ขนาด 12–14TB ต่อลูก ➡️ เลือกใช้ศูนย์ข้อมูลใกล้ออฟฟิศในซานฟรานซิสโก ลดค่าใช้จ่ายและเพิ่มความสะดวก ➡️ เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust 200 บรรทัด + nginx + SQLite ➡️ ไม่ใช้ระบบ Ceph หรือ MinIO เพราะซับซ้อนเกินจำเป็น ➡️ จัดกิจกรรม “Storage Stacking Saturday” ติดตั้งระบบภายใน 36 ชั่วโมง ➡️ ระบบสามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps ➡️ ค่าใช้จ่ายรายเดือนรวมอินเทอร์เน็ตและไฟฟ้าอยู่ที่ 17,500 ดอลลาร์ ➡️ ค่าเสื่อมราคาเฉลี่ยเดือนละ 12,000 ดอลลาร์ รวมเป็น 29,500 ดอลลาร์/เดือน ➡️ เปรียบเทียบต้นทุน: AWS $38/TB, Cloudflare $10/TB, ระบบนี้ $1/TB ✅ ข้อมูลเสริมจากภายนอก ➡️ โมเดล AI ที่เรียนรู้จากวิดีโอต้องการข้อมูลมากกว่าข้อความถึง 500 เท่า ➡️ ML-KEM และการเข้ารหัสแบบ post-quantum เริ่มถูกนำมาใช้ในระบบจัดเก็บข้อมูล AI ➡️ Ceph เหมาะกับองค์กรที่ต้องการประสิทธิภาพสูงและมีทีมดูแลเฉพาะทาง ➡️ MinIO เหมาะกับระบบที่ต้องการ S3 compatibility แต่ยังซับซ้อนสำหรับงานง่าย ➡️ การใช้ฮาร์ดดิสก์แบบ SAS ให้ความเร็วสูงกว่าระบบ SATA แต่ต้องจัดการ multipath https://si.inc/posts/the-heap/
SI.INC
Building the heap: racking 30 petabytes of hard drives for pretraining
How we spent under half a million dollars to build a 30 petabyte data storage cluster in downtown San Francisco
0 Comments 0 Shares 66 Views 0 Reviews