“สร้างคลังข้อมูล 30 เพตาไบต์ด้วยงบไม่ถึงครึ่งล้าน — เบื้องหลังการฝึกโมเดล AI ด้วยวิดีโอ 90 ล้านชั่วโมง”
ในยุคที่โมเดล AI ต้องการข้อมูลมหาศาลเพื่อเรียนรู้ การฝึกโมเดลจากวิดีโอไม่ใช่เรื่องเล็ก ล่าสุดทีม Standard Intelligence ได้สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30 เพตาไบต์ (PB) ด้วยงบเพียง 426,500 ดอลลาร์ เพื่อใช้ฝึกโมเดล AI ที่เรียนรู้จากการใช้งานคอมพิวเตอร์โดยตรง ซึ่งแตกต่างจากโมเดลข้อความทั่วไปที่ใช้ข้อมูลเพียง ~60TB
แทนที่จะใช้บริการคลาวด์อย่าง AWS ที่มีค่าใช้จ่ายสูงถึง 12 ล้านดอลลาร์ต่อปี ทีมงานเลือกเช่าพื้นที่ในศูนย์ข้อมูลกลางเมืองซานฟรานซิสโก ทำให้ลดต้นทุนลงถึง 40 เท่า เหลือเพียง 354,000 ดอลลาร์ต่อปี รวมค่าเสื่อมราคา
แนวคิดเบื้องหลังคือ “ข้อมูลฝึกไม่จำเป็นต้องสมบูรณ์แบบ” เพราะการสูญเสียข้อมูลบางส่วนไม่กระทบต่อคุณภาพโมเดลมากนัก ต่างจากข้อมูลผู้ใช้ที่ต้องการความแม่นยำสูง ทีมงานจึงเลือกใช้ฮาร์ดดิสก์มือสอง, เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust เพียง 200 บรรทัด และใช้ nginx กับ SQLite แทนระบบซับซ้อนอย่าง Ceph หรือ MinIO
การติดตั้งระบบใช้เวลาเพียง 36 ชั่วโมง โดยจัดกิจกรรม “Storage Stacking Saturday” ชวนเพื่อนมาช่วยประกอบแร็ค พร้อมแจกฮาร์ดดิสก์สลักชื่อเป็นของที่ระลึก และหลังจากนั้นจึงจ้างช่างมืออาชีพมาติดตั้งระบบให้สมบูรณ์
ผลลัพธ์คือคลัสเตอร์ที่สามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps โดยไม่ต้องพึ่งระบบซับซ้อนหรือคลาวด์แพง ๆ และยังสามารถแข่งขันกับห้องวิจัย AI ระดับโลกที่มีงบพันล้านได้อย่างมีประสิทธิภาพ
ข้อมูลสำคัญจากข่าว
สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30PB ด้วยงบ 426,500 ดอลลาร์
ใช้ฮาร์ดดิสก์มือสอง 2,400 ลูก ขนาด 12–14TB ต่อลูก
เลือกใช้ศูนย์ข้อมูลใกล้ออฟฟิศในซานฟรานซิสโก ลดค่าใช้จ่ายและเพิ่มความสะดวก
เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust 200 บรรทัด + nginx + SQLite
ไม่ใช้ระบบ Ceph หรือ MinIO เพราะซับซ้อนเกินจำเป็น
จัดกิจกรรม “Storage Stacking Saturday” ติดตั้งระบบภายใน 36 ชั่วโมง
ระบบสามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps
ค่าใช้จ่ายรายเดือนรวมอินเทอร์เน็ตและไฟฟ้าอยู่ที่ 17,500 ดอลลาร์
ค่าเสื่อมราคาเฉลี่ยเดือนละ 12,000 ดอลลาร์ รวมเป็น 29,500 ดอลลาร์/เดือน
เปรียบเทียบต้นทุน: AWS $38/TB, Cloudflare $10/TB, ระบบนี้ $1/TB
ข้อมูลเสริมจากภายนอก
โมเดล AI ที่เรียนรู้จากวิดีโอต้องการข้อมูลมากกว่าข้อความถึง 500 เท่า
ML-KEM และการเข้ารหัสแบบ post-quantum เริ่มถูกนำมาใช้ในระบบจัดเก็บข้อมูล AI
Ceph เหมาะกับองค์กรที่ต้องการประสิทธิภาพสูงและมีทีมดูแลเฉพาะทาง
MinIO เหมาะกับระบบที่ต้องการ S3 compatibility แต่ยังซับซ้อนสำหรับงานง่าย
การใช้ฮาร์ดดิสก์แบบ SAS ให้ความเร็วสูงกว่าระบบ SATA แต่ต้องจัดการ multipath
https://si.inc/posts/the-heap/
ในยุคที่โมเดล AI ต้องการข้อมูลมหาศาลเพื่อเรียนรู้ การฝึกโมเดลจากวิดีโอไม่ใช่เรื่องเล็ก ล่าสุดทีม Standard Intelligence ได้สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30 เพตาไบต์ (PB) ด้วยงบเพียง 426,500 ดอลลาร์ เพื่อใช้ฝึกโมเดล AI ที่เรียนรู้จากการใช้งานคอมพิวเตอร์โดยตรง ซึ่งแตกต่างจากโมเดลข้อความทั่วไปที่ใช้ข้อมูลเพียง ~60TB
แทนที่จะใช้บริการคลาวด์อย่าง AWS ที่มีค่าใช้จ่ายสูงถึง 12 ล้านดอลลาร์ต่อปี ทีมงานเลือกเช่าพื้นที่ในศูนย์ข้อมูลกลางเมืองซานฟรานซิสโก ทำให้ลดต้นทุนลงถึง 40 เท่า เหลือเพียง 354,000 ดอลลาร์ต่อปี รวมค่าเสื่อมราคา
แนวคิดเบื้องหลังคือ “ข้อมูลฝึกไม่จำเป็นต้องสมบูรณ์แบบ” เพราะการสูญเสียข้อมูลบางส่วนไม่กระทบต่อคุณภาพโมเดลมากนัก ต่างจากข้อมูลผู้ใช้ที่ต้องการความแม่นยำสูง ทีมงานจึงเลือกใช้ฮาร์ดดิสก์มือสอง, เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust เพียง 200 บรรทัด และใช้ nginx กับ SQLite แทนระบบซับซ้อนอย่าง Ceph หรือ MinIO
การติดตั้งระบบใช้เวลาเพียง 36 ชั่วโมง โดยจัดกิจกรรม “Storage Stacking Saturday” ชวนเพื่อนมาช่วยประกอบแร็ค พร้อมแจกฮาร์ดดิสก์สลักชื่อเป็นของที่ระลึก และหลังจากนั้นจึงจ้างช่างมืออาชีพมาติดตั้งระบบให้สมบูรณ์
ผลลัพธ์คือคลัสเตอร์ที่สามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps โดยไม่ต้องพึ่งระบบซับซ้อนหรือคลาวด์แพง ๆ และยังสามารถแข่งขันกับห้องวิจัย AI ระดับโลกที่มีงบพันล้านได้อย่างมีประสิทธิภาพ
ข้อมูลสำคัญจากข่าว
สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30PB ด้วยงบ 426,500 ดอลลาร์
ใช้ฮาร์ดดิสก์มือสอง 2,400 ลูก ขนาด 12–14TB ต่อลูก
เลือกใช้ศูนย์ข้อมูลใกล้ออฟฟิศในซานฟรานซิสโก ลดค่าใช้จ่ายและเพิ่มความสะดวก
เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust 200 บรรทัด + nginx + SQLite
ไม่ใช้ระบบ Ceph หรือ MinIO เพราะซับซ้อนเกินจำเป็น
จัดกิจกรรม “Storage Stacking Saturday” ติดตั้งระบบภายใน 36 ชั่วโมง
ระบบสามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps
ค่าใช้จ่ายรายเดือนรวมอินเทอร์เน็ตและไฟฟ้าอยู่ที่ 17,500 ดอลลาร์
ค่าเสื่อมราคาเฉลี่ยเดือนละ 12,000 ดอลลาร์ รวมเป็น 29,500 ดอลลาร์/เดือน
เปรียบเทียบต้นทุน: AWS $38/TB, Cloudflare $10/TB, ระบบนี้ $1/TB
ข้อมูลเสริมจากภายนอก
โมเดล AI ที่เรียนรู้จากวิดีโอต้องการข้อมูลมากกว่าข้อความถึง 500 เท่า
ML-KEM และการเข้ารหัสแบบ post-quantum เริ่มถูกนำมาใช้ในระบบจัดเก็บข้อมูล AI
Ceph เหมาะกับองค์กรที่ต้องการประสิทธิภาพสูงและมีทีมดูแลเฉพาะทาง
MinIO เหมาะกับระบบที่ต้องการ S3 compatibility แต่ยังซับซ้อนสำหรับงานง่าย
การใช้ฮาร์ดดิสก์แบบ SAS ให้ความเร็วสูงกว่าระบบ SATA แต่ต้องจัดการ multipath
https://si.inc/posts/the-heap/
🧠 “สร้างคลังข้อมูล 30 เพตาไบต์ด้วยงบไม่ถึงครึ่งล้าน — เบื้องหลังการฝึกโมเดล AI ด้วยวิดีโอ 90 ล้านชั่วโมง”
ในยุคที่โมเดล AI ต้องการข้อมูลมหาศาลเพื่อเรียนรู้ การฝึกโมเดลจากวิดีโอไม่ใช่เรื่องเล็ก ล่าสุดทีม Standard Intelligence ได้สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30 เพตาไบต์ (PB) ด้วยงบเพียง 426,500 ดอลลาร์ เพื่อใช้ฝึกโมเดล AI ที่เรียนรู้จากการใช้งานคอมพิวเตอร์โดยตรง ซึ่งแตกต่างจากโมเดลข้อความทั่วไปที่ใช้ข้อมูลเพียง ~60TB
แทนที่จะใช้บริการคลาวด์อย่าง AWS ที่มีค่าใช้จ่ายสูงถึง 12 ล้านดอลลาร์ต่อปี ทีมงานเลือกเช่าพื้นที่ในศูนย์ข้อมูลกลางเมืองซานฟรานซิสโก ทำให้ลดต้นทุนลงถึง 40 เท่า เหลือเพียง 354,000 ดอลลาร์ต่อปี รวมค่าเสื่อมราคา
แนวคิดเบื้องหลังคือ “ข้อมูลฝึกไม่จำเป็นต้องสมบูรณ์แบบ” เพราะการสูญเสียข้อมูลบางส่วนไม่กระทบต่อคุณภาพโมเดลมากนัก ต่างจากข้อมูลผู้ใช้ที่ต้องการความแม่นยำสูง ทีมงานจึงเลือกใช้ฮาร์ดดิสก์มือสอง, เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust เพียง 200 บรรทัด และใช้ nginx กับ SQLite แทนระบบซับซ้อนอย่าง Ceph หรือ MinIO
การติดตั้งระบบใช้เวลาเพียง 36 ชั่วโมง โดยจัดกิจกรรม “Storage Stacking Saturday” ชวนเพื่อนมาช่วยประกอบแร็ค พร้อมแจกฮาร์ดดิสก์สลักชื่อเป็นของที่ระลึก และหลังจากนั้นจึงจ้างช่างมืออาชีพมาติดตั้งระบบให้สมบูรณ์
ผลลัพธ์คือคลัสเตอร์ที่สามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps โดยไม่ต้องพึ่งระบบซับซ้อนหรือคลาวด์แพง ๆ และยังสามารถแข่งขันกับห้องวิจัย AI ระดับโลกที่มีงบพันล้านได้อย่างมีประสิทธิภาพ
✅ ข้อมูลสำคัญจากข่าว
➡️ สร้างคลัสเตอร์จัดเก็บข้อมูลขนาด 30PB ด้วยงบ 426,500 ดอลลาร์
➡️ ใช้ฮาร์ดดิสก์มือสอง 2,400 ลูก ขนาด 12–14TB ต่อลูก
➡️ เลือกใช้ศูนย์ข้อมูลใกล้ออฟฟิศในซานฟรานซิสโก ลดค่าใช้จ่ายและเพิ่มความสะดวก
➡️ เขียนซอฟต์แวร์จัดการข้อมูลเองด้วย Rust 200 บรรทัด + nginx + SQLite
➡️ ไม่ใช้ระบบ Ceph หรือ MinIO เพราะซับซ้อนเกินจำเป็น
➡️ จัดกิจกรรม “Storage Stacking Saturday” ติดตั้งระบบภายใน 36 ชั่วโมง
➡️ ระบบสามารถอ่าน/เขียนข้อมูลได้เต็มความเร็ว 100Gbps
➡️ ค่าใช้จ่ายรายเดือนรวมอินเทอร์เน็ตและไฟฟ้าอยู่ที่ 17,500 ดอลลาร์
➡️ ค่าเสื่อมราคาเฉลี่ยเดือนละ 12,000 ดอลลาร์ รวมเป็น 29,500 ดอลลาร์/เดือน
➡️ เปรียบเทียบต้นทุน: AWS $38/TB, Cloudflare $10/TB, ระบบนี้ $1/TB
✅ ข้อมูลเสริมจากภายนอก
➡️ โมเดล AI ที่เรียนรู้จากวิดีโอต้องการข้อมูลมากกว่าข้อความถึง 500 เท่า
➡️ ML-KEM และการเข้ารหัสแบบ post-quantum เริ่มถูกนำมาใช้ในระบบจัดเก็บข้อมูล AI
➡️ Ceph เหมาะกับองค์กรที่ต้องการประสิทธิภาพสูงและมีทีมดูแลเฉพาะทาง
➡️ MinIO เหมาะกับระบบที่ต้องการ S3 compatibility แต่ยังซับซ้อนสำหรับงานง่าย
➡️ การใช้ฮาร์ดดิสก์แบบ SAS ให้ความเร็วสูงกว่าระบบ SATA แต่ต้องจัดการ multipath
https://si.inc/posts/the-heap/
0 ความคิดเห็น
0 การแบ่งปัน
65 มุมมอง
0 รีวิว