เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่
ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน
ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก
สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า
ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ
ต้นทุนการรัน inference ของโมเดล AI
ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง
input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง
output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง
ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens
ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens
ความแตกต่างระหว่าง input และ output
input สามารถประมวลผลแบบขนานได้
output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า
ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant
ตัวอย่างการใช้งานจริง
ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์
แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ
ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ
โมเดลธุรกิจของ API
ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output
แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output
ทำให้มี margin สูงถึง 80–95%
ความเข้าใจผิดเกี่ยวกับต้นทุน AI
หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี
การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง
ความเสี่ยงจาก context ยาว
เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound
ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า
บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน
การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง
การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt
การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น
https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน
ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก
สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า
ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ
ต้นทุนการรัน inference ของโมเดล AI
ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง
input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง
output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง
ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens
ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens
ความแตกต่างระหว่าง input และ output
input สามารถประมวลผลแบบขนานได้
output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า
ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant
ตัวอย่างการใช้งานจริง
ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์
แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ
ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ
โมเดลธุรกิจของ API
ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output
แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output
ทำให้มี margin สูงถึง 80–95%
ความเข้าใจผิดเกี่ยวกับต้นทุน AI
หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี
การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง
ความเสี่ยงจาก context ยาว
เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound
ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า
บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน
การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง
การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt
การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น
https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
🎙️ เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่
ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน
ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก
สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า
ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ
✅ ต้นทุนการรัน inference ของโมเดล AI
➡️ ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง
➡️ input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง
➡️ output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง
➡️ ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens
➡️ ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens
✅ ความแตกต่างระหว่าง input และ output
➡️ input สามารถประมวลผลแบบขนานได้
➡️ output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า
➡️ ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant
✅ ตัวอย่างการใช้งานจริง
➡️ ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์
➡️ แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ
➡️ ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ
✅ โมเดลธุรกิจของ API
➡️ ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output
➡️ แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output
➡️ ทำให้มี margin สูงถึง 80–95%
‼️ ความเข้าใจผิดเกี่ยวกับต้นทุน AI
⛔ หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี
⛔ การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง
‼️ ความเสี่ยงจาก context ยาว
⛔ เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound
⛔ ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า
⛔ บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน
‼️ การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง
⛔ การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt
⛔ การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น
https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
0 Comments
0 Shares
21 Views
0 Reviews