“Claude Opus 4.1 แซงหน้า GPT-5, Gemini และ Grok ในงานจริง — แม้เป็นงานวิจัยของ OpenAI เอง!”

ในโลกที่ AI แข่งกันด้วยตัวเลข benchmark และการสาธิตที่ดูดีบนเวที OpenAI ได้เปิดตัวระบบประเมินใหม่ชื่อว่า “GDPval” เพื่อวัดความสามารถของ AI ในงานจริงที่มนุษย์ทำในชีวิตประจำวัน เช่น การตอบอีเมลลูกค้าที่ไม่พอใจ, การจัดตารางงานอีเวนต์ หรือการตรวจสอบใบสั่งซื้อที่มีราคาผิด

ผลลัพธ์กลับพลิกความคาดหมาย — Claude Opus 4.1 จาก Anthropic กลายเป็นโมเดลที่ทำงานได้ดีที่สุดในงานจริง โดยมีอัตราชนะ (win rate) สูงถึง 47.6% เทียบกับผู้เชี่ยวชาญในอุตสาหกรรม ขณะที่ GPT-5 ของ OpenAI ตามมาเป็นอันดับสองที่ 38.8% และ Gemini 2.5 Pro กับ Grok 4 อยู่ในระดับกลาง ส่วน GPT-4o กลับรั้งท้ายที่ 12.4%

Claude ทำคะแนนสูงสุดใน 8 จาก 9 อุตสาหกรรมที่ทดสอบ เช่น ภาครัฐ, สาธารณสุข และบริการสังคม ซึ่งแสดงให้เห็นว่าโมเดลนี้มีความสามารถในการเข้าใจบริบทและตอบสนองอย่างเหมาะสมในสถานการณ์ที่ซับซ้อน

OpenAI ยอมรับผลการทดสอบนี้อย่างเปิดเผย โดยระบุว่า “การสื่อสารความก้าวหน้าของ AI อย่างโปร่งใสคือภารกิจของเรา” และหวังว่า GDPval จะกลายเป็นมาตรฐานใหม่ในการวัดความสามารถของ AI ในโลกจริง ไม่ใช่แค่ในห้องแล็บ

การเปิดเผยนี้เกิดขึ้นหลังจากมีรายงานว่า 70% ของผู้ใช้ ChatGPT ใช้ AI ที่บ้านมากกว่าที่ทำงาน ซึ่งอาจสะท้อนถึงการเปลี่ยนแปลงพฤติกรรมผู้ใช้ และทำให้ OpenAI ต้องปรับโฟกัสใหม่จากการเน้นเครื่องมือสำหรับงาน ไปสู่การใช้งานในชีวิตประจำวัน

ข้อมูลสำคัญจากข่าว
OpenAI เปิดตัวระบบประเมินใหม่ชื่อ GDPval เพื่อวัดความสามารถ AI ในงานจริง
Claude Opus 4.1 ได้คะแนนสูงสุดในงานจริง โดยมี win rate 47.6%
GPT-5 ได้อันดับสองที่ 38.8%, GPT-4o ได้ต่ำสุดที่ 12.4%
Claude ทำคะแนนสูงสุดใน 8 จาก 9 อุตสาหกรรม เช่น รัฐบาลและสาธารณสุข
ตัวอย่างงานที่ใช้ทดสอบ ได้แก่ การตอบอีเมลลูกค้า, จัดตารางงาน, ตรวจสอบใบสั่งซื้อ
OpenAI ยอมรับผลการทดสอบอย่างโปร่งใส และหวังให้ GDPval เป็นมาตรฐานใหม่
การศึกษานี้ร่วมกับนักเศรษฐศาสตร์จาก Harvard และทีมวิจัยเศรษฐกิจของ OpenAI
70% ของผู้ใช้ ChatGPT ใช้งานที่บ้านมากกว่าที่ทำงาน

ข้อมูลเสริมจากภายนอก
Claude Opus 4.1 มี cutoff ความรู้ล่าสุดถึงกรกฎาคม 2025 ซึ่งใหม่กว่าคู่แข่งหลายราย
GPT-5 มี context window สูงถึง 400,000 tokens แต่ยังแพ้ Claude ในงานจริง
Gemini 2.5 Pro มี context window ใหญ่ที่สุดถึง 1 ล้าน tokens เหมาะกับงานเอกสารยาว
Grok 4 มีความสามารถด้านการเขียนโค้ดและข้อมูลเรียลไทม์ แต่ยังไม่โดดเด่นในงานทั่วไป
Claude ใช้แนวคิด Constitutional AI ที่เน้นความปลอดภัยและการตอบสนองอย่างมีเหตุผล

https://www.techradar.com/ai-platforms-assistants/claude/claude-just-beat-gpt-5-gemini-and-grok-in-real-world-job-tasks-according-to-openais-own-study
🏆 “Claude Opus 4.1 แซงหน้า GPT-5, Gemini และ Grok ในงานจริง — แม้เป็นงานวิจัยของ OpenAI เอง!” ในโลกที่ AI แข่งกันด้วยตัวเลข benchmark และการสาธิตที่ดูดีบนเวที OpenAI ได้เปิดตัวระบบประเมินใหม่ชื่อว่า “GDPval” เพื่อวัดความสามารถของ AI ในงานจริงที่มนุษย์ทำในชีวิตประจำวัน เช่น การตอบอีเมลลูกค้าที่ไม่พอใจ, การจัดตารางงานอีเวนต์ หรือการตรวจสอบใบสั่งซื้อที่มีราคาผิด ผลลัพธ์กลับพลิกความคาดหมาย — Claude Opus 4.1 จาก Anthropic กลายเป็นโมเดลที่ทำงานได้ดีที่สุดในงานจริง โดยมีอัตราชนะ (win rate) สูงถึง 47.6% เทียบกับผู้เชี่ยวชาญในอุตสาหกรรม ขณะที่ GPT-5 ของ OpenAI ตามมาเป็นอันดับสองที่ 38.8% และ Gemini 2.5 Pro กับ Grok 4 อยู่ในระดับกลาง ส่วน GPT-4o กลับรั้งท้ายที่ 12.4% Claude ทำคะแนนสูงสุดใน 8 จาก 9 อุตสาหกรรมที่ทดสอบ เช่น ภาครัฐ, สาธารณสุข และบริการสังคม ซึ่งแสดงให้เห็นว่าโมเดลนี้มีความสามารถในการเข้าใจบริบทและตอบสนองอย่างเหมาะสมในสถานการณ์ที่ซับซ้อน OpenAI ยอมรับผลการทดสอบนี้อย่างเปิดเผย โดยระบุว่า “การสื่อสารความก้าวหน้าของ AI อย่างโปร่งใสคือภารกิจของเรา” และหวังว่า GDPval จะกลายเป็นมาตรฐานใหม่ในการวัดความสามารถของ AI ในโลกจริง ไม่ใช่แค่ในห้องแล็บ การเปิดเผยนี้เกิดขึ้นหลังจากมีรายงานว่า 70% ของผู้ใช้ ChatGPT ใช้ AI ที่บ้านมากกว่าที่ทำงาน ซึ่งอาจสะท้อนถึงการเปลี่ยนแปลงพฤติกรรมผู้ใช้ และทำให้ OpenAI ต้องปรับโฟกัสใหม่จากการเน้นเครื่องมือสำหรับงาน ไปสู่การใช้งานในชีวิตประจำวัน ✅ ข้อมูลสำคัญจากข่าว ➡️ OpenAI เปิดตัวระบบประเมินใหม่ชื่อ GDPval เพื่อวัดความสามารถ AI ในงานจริง ➡️ Claude Opus 4.1 ได้คะแนนสูงสุดในงานจริง โดยมี win rate 47.6% ➡️ GPT-5 ได้อันดับสองที่ 38.8%, GPT-4o ได้ต่ำสุดที่ 12.4% ➡️ Claude ทำคะแนนสูงสุดใน 8 จาก 9 อุตสาหกรรม เช่น รัฐบาลและสาธารณสุข ➡️ ตัวอย่างงานที่ใช้ทดสอบ ได้แก่ การตอบอีเมลลูกค้า, จัดตารางงาน, ตรวจสอบใบสั่งซื้อ ➡️ OpenAI ยอมรับผลการทดสอบอย่างโปร่งใส และหวังให้ GDPval เป็นมาตรฐานใหม่ ➡️ การศึกษานี้ร่วมกับนักเศรษฐศาสตร์จาก Harvard และทีมวิจัยเศรษฐกิจของ OpenAI ➡️ 70% ของผู้ใช้ ChatGPT ใช้งานที่บ้านมากกว่าที่ทำงาน ✅ ข้อมูลเสริมจากภายนอก ➡️ Claude Opus 4.1 มี cutoff ความรู้ล่าสุดถึงกรกฎาคม 2025 ซึ่งใหม่กว่าคู่แข่งหลายราย ➡️ GPT-5 มี context window สูงถึง 400,000 tokens แต่ยังแพ้ Claude ในงานจริง ➡️ Gemini 2.5 Pro มี context window ใหญ่ที่สุดถึง 1 ล้าน tokens เหมาะกับงานเอกสารยาว ➡️ Grok 4 มีความสามารถด้านการเขียนโค้ดและข้อมูลเรียลไทม์ แต่ยังไม่โดดเด่นในงานทั่วไป ➡️ Claude ใช้แนวคิด Constitutional AI ที่เน้นความปลอดภัยและการตอบสนองอย่างมีเหตุผล https://www.techradar.com/ai-platforms-assistants/claude/claude-just-beat-gpt-5-gemini-and-grok-in-real-world-job-tasks-according-to-openais-own-study
0 ความคิดเห็น 0 การแบ่งปัน 191 มุมมอง 0 รีวิว