“DeepSeek-OCR เปลี่ยนข้อความเป็นภาพ ลดการใช้ทรัพยากร AI ได้ถึง 20 เท่า – เปิดทางสู่โมเดลยักษ์ราคาประหยัด!”

DeepSeek AI จากจีนเปิดตัวโมเดลใหม่ชื่อว่า “DeepSeek-OCR” ที่ใช้เทคนิคสุดล้ำในการจัดการข้อความจำนวนมาก โดยแทนที่จะป้อนข้อความเข้าโมเดลโดยตรง พวกเขาเลือก “แปลงข้อความเป็นภาพ” ก่อน แล้วค่อยให้โมเดลตีความจากภาพนั้นอีกที

ฟังดูย้อนยุค แต่ผลลัพธ์กลับน่าทึ่ง เพราะวิธีนี้ช่วยลดจำนวน token ที่ต้องใช้ในการประมวลผลได้ถึง 7–20 เท่า! ซึ่งหมายความว่าโมเดลสามารถจัดการข้อมูลปริมาณมหาศาลได้โดยใช้ทรัพยากรน้อยลงมาก ทั้งในด้านเวลาและค่าใช้จ่าย

ระบบนี้ประกอบด้วยสองส่วนหลัก:
DeepEncoder: แปลงข้อความเป็นภาพความละเอียดสูง
DeepSeek3B-MoE-A570M: ทำหน้าที่ตีความภาพเหล่านั้นกลับมาเป็นข้อมูลที่เข้าใจได้

เทคนิคนี้เหมาะมากกับข้อมูลที่เป็นตาราง กราฟ หรือเอกสารที่มีโครงสร้างซับซ้อน เช่น ข้อมูลทางการเงิน วิทยาศาสตร์ หรือการแพทย์ โดยเฉพาะในงานที่ต้องใช้ context ยาว ๆ

ในการทดสอบ benchmark พบว่า ถ้าลด token น้อยกว่า 10 เท่า ความแม่นยำยังอยู่ที่ 97% แต่ถ้าลดถึง 20 เท่า ความแม่นยำจะลดลงเหลือ 60% ซึ่งแสดงให้เห็นว่ามีจุดสมดุลที่ต้องเลือกให้เหมาะกับงาน

DeepSeek-OCR ยังถูกเสนอให้ใช้ในการสร้าง training data สำหรับโมเดลในอนาคต เพราะสามารถจัดการข้อมูลจำนวนมากได้เร็วขึ้น แม้จะมีความเสี่ยงเรื่องความแม่นยำที่ลดลงเล็กน้อย

จุดเด่นของ DeepSeek-OCR
แปลงข้อความเป็นภาพก่อนป้อนเข้าโมเดล
ลดการใช้ token ได้ถึง 7–20 เท่า
ใช้ DeepEncoder และ DeepSeek3B-MoE-A570M ร่วมกัน
เหมาะกับข้อมูลที่มีโครงสร้าง เช่น ตาราง กราฟ เอกสาร
ช่วยลดต้นทุนและเวลาในการประมวลผลโมเดลขนาดใหญ่
ใช้ได้ดีในงานที่ต้องการ context ยาว เช่น LLM

ผลการทดสอบและการใช้งาน
ลด token <10 เท่า → ความแม่นยำ 97%
ลด token 20 เท่า → ความแม่นยำลดเหลือ 60%
มีจุดสมดุลระหว่างการลดต้นทุนและความแม่นยำ
เสนอให้ใช้สร้าง training data สำหรับโมเดลในอนาคต
เหมาะกับงานด้านการเงิน วิทยาศาสตร์ และการแพทย์

ความเคลื่อนไหวของ DeepSeek
เป็นโมเดลจากจีนที่สร้างความฮือฮาในปี 2025
ใช้ทรัพยากรน้อยกว่า ChatGPT และ Gemini
เปิดให้ใช้งานผ่าน Hugging Face และ GitHub
พัฒนาอย่างต่อเนื่องเพื่อเพิ่มประสิทธิภาพและลดต้นทุน

https://www.tomshardware.com/tech-industry/artificial-intelligence/new-deepseek-model-drastically-reduces-resource-usage-by-converting-text-and-documents-into-images-vision-text-compression-uses-up-to-20-times-fewer-tokens
🧠 “DeepSeek-OCR เปลี่ยนข้อความเป็นภาพ ลดการใช้ทรัพยากร AI ได้ถึง 20 เท่า – เปิดทางสู่โมเดลยักษ์ราคาประหยัด!” DeepSeek AI จากจีนเปิดตัวโมเดลใหม่ชื่อว่า “DeepSeek-OCR” ที่ใช้เทคนิคสุดล้ำในการจัดการข้อความจำนวนมาก โดยแทนที่จะป้อนข้อความเข้าโมเดลโดยตรง พวกเขาเลือก “แปลงข้อความเป็นภาพ” ก่อน แล้วค่อยให้โมเดลตีความจากภาพนั้นอีกที ฟังดูย้อนยุค แต่ผลลัพธ์กลับน่าทึ่ง เพราะวิธีนี้ช่วยลดจำนวน token ที่ต้องใช้ในการประมวลผลได้ถึง 7–20 เท่า! ซึ่งหมายความว่าโมเดลสามารถจัดการข้อมูลปริมาณมหาศาลได้โดยใช้ทรัพยากรน้อยลงมาก ทั้งในด้านเวลาและค่าใช้จ่าย ระบบนี้ประกอบด้วยสองส่วนหลัก: 💻 DeepEncoder: แปลงข้อความเป็นภาพความละเอียดสูง 💻 DeepSeek3B-MoE-A570M: ทำหน้าที่ตีความภาพเหล่านั้นกลับมาเป็นข้อมูลที่เข้าใจได้ เทคนิคนี้เหมาะมากกับข้อมูลที่เป็นตาราง กราฟ หรือเอกสารที่มีโครงสร้างซับซ้อน เช่น ข้อมูลทางการเงิน วิทยาศาสตร์ หรือการแพทย์ โดยเฉพาะในงานที่ต้องใช้ context ยาว ๆ ในการทดสอบ benchmark พบว่า ถ้าลด token น้อยกว่า 10 เท่า ความแม่นยำยังอยู่ที่ 97% แต่ถ้าลดถึง 20 เท่า ความแม่นยำจะลดลงเหลือ 60% ซึ่งแสดงให้เห็นว่ามีจุดสมดุลที่ต้องเลือกให้เหมาะกับงาน DeepSeek-OCR ยังถูกเสนอให้ใช้ในการสร้าง training data สำหรับโมเดลในอนาคต เพราะสามารถจัดการข้อมูลจำนวนมากได้เร็วขึ้น แม้จะมีความเสี่ยงเรื่องความแม่นยำที่ลดลงเล็กน้อย ✅ จุดเด่นของ DeepSeek-OCR ➡️ แปลงข้อความเป็นภาพก่อนป้อนเข้าโมเดล ➡️ ลดการใช้ token ได้ถึง 7–20 เท่า ➡️ ใช้ DeepEncoder และ DeepSeek3B-MoE-A570M ร่วมกัน ➡️ เหมาะกับข้อมูลที่มีโครงสร้าง เช่น ตาราง กราฟ เอกสาร ➡️ ช่วยลดต้นทุนและเวลาในการประมวลผลโมเดลขนาดใหญ่ ➡️ ใช้ได้ดีในงานที่ต้องการ context ยาว เช่น LLM ✅ ผลการทดสอบและการใช้งาน ➡️ ลด token <10 เท่า → ความแม่นยำ 97% ➡️ ลด token 20 เท่า → ความแม่นยำลดเหลือ 60% ➡️ มีจุดสมดุลระหว่างการลดต้นทุนและความแม่นยำ ➡️ เสนอให้ใช้สร้าง training data สำหรับโมเดลในอนาคต ➡️ เหมาะกับงานด้านการเงิน วิทยาศาสตร์ และการแพทย์ ✅ ความเคลื่อนไหวของ DeepSeek ➡️ เป็นโมเดลจากจีนที่สร้างความฮือฮาในปี 2025 ➡️ ใช้ทรัพยากรน้อยกว่า ChatGPT และ Gemini ➡️ เปิดให้ใช้งานผ่าน Hugging Face และ GitHub ➡️ พัฒนาอย่างต่อเนื่องเพื่อเพิ่มประสิทธิภาพและลดต้นทุน https://www.tomshardware.com/tech-industry/artificial-intelligence/new-deepseek-model-drastically-reduces-resource-usage-by-converting-text-and-documents-into-images-vision-text-compression-uses-up-to-20-times-fewer-tokens
0 ความคิดเห็น 0 การแบ่งปัน 18 มุมมอง 0 รีวิว