มีข่าวที่น่าสนใจเกี่ยวกับการทดสอบ AI ที่เรียกว่า "Humanity's Last Exam" ซึ่งถูกออกแบบมาเพื่อทดสอบความสามารถของระบบ AI ในการตอบคำถามที่ซับซ้อนในหลากหลายสาขาวิชา เช่น ปรัชญาเชิงวิเคราะห์และวิศวกรรมจรวด การทดสอบนี้ประกอบด้วยคำถามแบบหลายตัวเลือกและคำถามแบบตอบสั้นๆ ประมาณ 3,000 ข้อ
Dan Hendrycks, นักวิจัยด้านความปลอดภัยของ AI และผู้อำนวยการของ Center for AI Safety, ได้ร่วมมือกับ Scale AI ในการสร้างการทดสอบนี้ คำถามถูกส่งโดยผู้เชี่ยวชาญในสาขาต่างๆ เช่น อาจารย์มหาวิทยาลัยและนักคณิตศาสตร์ที่ได้รับรางวัล การทดสอบนี้มีเป้าหมายเพื่อวัดความสามารถของ AI ในการตอบคำถามที่ซับซ้อนและให้คะแนนความฉลาดทั่วไปของ AI
การทดสอบนี้ถูกนำไปใช้กับโมเดล AI ชั้นนำ 6 โมเดล รวมถึง Google’s Gemini 1.5 Pro และ Anthropic’s Claude 3.5 Sonnet ผลลัพธ์ที่ได้คือทุกโมเดลล้มเหลวในการทดสอบนี้ โดยโมเดลของ OpenAI ได้คะแนนสูงสุดที่ 8.3% Hendrycks คาดว่าคะแนนเหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วและอาจเกิน 50% ภายในสิ้นปีนี้
https://www.thestar.com.my/tech/tech-news/2025/01/24/opinion-when-ai-passes-this-test-look-out
Dan Hendrycks, นักวิจัยด้านความปลอดภัยของ AI และผู้อำนวยการของ Center for AI Safety, ได้ร่วมมือกับ Scale AI ในการสร้างการทดสอบนี้ คำถามถูกส่งโดยผู้เชี่ยวชาญในสาขาต่างๆ เช่น อาจารย์มหาวิทยาลัยและนักคณิตศาสตร์ที่ได้รับรางวัล การทดสอบนี้มีเป้าหมายเพื่อวัดความสามารถของ AI ในการตอบคำถามที่ซับซ้อนและให้คะแนนความฉลาดทั่วไปของ AI
การทดสอบนี้ถูกนำไปใช้กับโมเดล AI ชั้นนำ 6 โมเดล รวมถึง Google’s Gemini 1.5 Pro และ Anthropic’s Claude 3.5 Sonnet ผลลัพธ์ที่ได้คือทุกโมเดลล้มเหลวในการทดสอบนี้ โดยโมเดลของ OpenAI ได้คะแนนสูงสุดที่ 8.3% Hendrycks คาดว่าคะแนนเหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วและอาจเกิน 50% ภายในสิ้นปีนี้
https://www.thestar.com.my/tech/tech-news/2025/01/24/opinion-when-ai-passes-this-test-look-out
มีข่าวที่น่าสนใจเกี่ยวกับการทดสอบ AI ที่เรียกว่า "Humanity's Last Exam" ซึ่งถูกออกแบบมาเพื่อทดสอบความสามารถของระบบ AI ในการตอบคำถามที่ซับซ้อนในหลากหลายสาขาวิชา เช่น ปรัชญาเชิงวิเคราะห์และวิศวกรรมจรวด การทดสอบนี้ประกอบด้วยคำถามแบบหลายตัวเลือกและคำถามแบบตอบสั้นๆ ประมาณ 3,000 ข้อ
Dan Hendrycks, นักวิจัยด้านความปลอดภัยของ AI และผู้อำนวยการของ Center for AI Safety, ได้ร่วมมือกับ Scale AI ในการสร้างการทดสอบนี้ คำถามถูกส่งโดยผู้เชี่ยวชาญในสาขาต่างๆ เช่น อาจารย์มหาวิทยาลัยและนักคณิตศาสตร์ที่ได้รับรางวัล การทดสอบนี้มีเป้าหมายเพื่อวัดความสามารถของ AI ในการตอบคำถามที่ซับซ้อนและให้คะแนนความฉลาดทั่วไปของ AI
การทดสอบนี้ถูกนำไปใช้กับโมเดล AI ชั้นนำ 6 โมเดล รวมถึง Google’s Gemini 1.5 Pro และ Anthropic’s Claude 3.5 Sonnet ผลลัพธ์ที่ได้คือทุกโมเดลล้มเหลวในการทดสอบนี้ โดยโมเดลของ OpenAI ได้คะแนนสูงสุดที่ 8.3% Hendrycks คาดว่าคะแนนเหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วและอาจเกิน 50% ภายในสิ้นปีนี้
https://www.thestar.com.my/tech/tech-news/2025/01/24/opinion-when-ai-passes-this-test-look-out
0 ความคิดเห็น
0 การแบ่งปัน
177 มุมมอง
0 รีวิว