AI ทดสอบสร้าง Minesweeper: Codex ชนะขาด — Gemini พังยับแบบไม่มีเกมให้เล่น

การทดสอบล่าสุดจาก Ars Technica เผยให้เห็นภาพที่ชัดเจนของ “ความสามารถจริง” ของ AI coding agents ยุคใหม่ เมื่อถูกสั่งให้สร้างเกม Minesweeper เวอร์ชันเว็บแบบครบฟีเจอร์ ทั้งเสียงประกอบ รองรับมือถือ และมี “เกมเพลย์ทวิสต์” เพิ่มเติม ผลลัพธ์ที่ออกมาทำให้เห็นความแตกต่างของแต่ละโมเดลอย่างชัดเจน ตั้งแต่ระดับที่ “พร้อมใช้งานจริง” ไปจนถึง “เปิดเกมไม่ได้เลย”

OpenAI Codex (GPT‑5) ทำผลงานโดดเด่นที่สุด ได้คะแนน 9/10 ด้วยฟีเจอร์ครบถ้วน ทั้งระบบ chording ที่ผู้เล่นระดับโปรต้องการ เสียงเอฟเฟกต์แบบยุคคลาสสิก และ UI ที่ใช้งานได้ทั้งบนเดสก์ท็อปและมือถือ ในขณะที่ Claude Code ทำงานเร็วกว่าและสวยกว่า แต่ขาด chording ทำให้คะแนนลดลง ส่วน Mistral Vibe แม้จะทำงานได้ แต่ขาดฟีเจอร์สำคัญหลายอย่าง เช่นเสียงและเกมเพลย์พิเศษ

ด้านที่น่าตกใจที่สุดคือ Google Gemini CLI ซึ่งล้มเหลวแบบสิ้นเชิง — ไม่มีตาราง ไม่มีเกม ไม่มีการเล่นใด ๆ ทั้งสิ้น แม้จะใช้เวลารันโค้ดนานเป็นชั่วโมง และยังคงขอ dependency เพิ่มเรื่อย ๆ แม้จะได้รับโอกาสแก้ตัวด้วยกติกาใหม่ก็ตาม ผลลัพธ์นี้สะท้อนให้เห็นช่องว่างระหว่าง “คะแนน benchmark” กับ “ความสามารถใช้งานจริง” ที่กำลังเป็นประเด็นใหญ่ในวงการ AI

การทดสอบนี้จึงเป็นเหมือนภาพ snapshot ของยุค AI coding agents ที่กำลังแข่งขันกันอย่างดุเดือด และเป็นสัญญาณว่าความสามารถในการ “สร้างซอฟต์แวร์ที่ใช้งานได้จริง” อาจกลายเป็นตัวชี้วัดสำคัญในยุคหลัง benchmark ซึ่งกำลังจะมาถึงเร็ว ๆ นี้

สรุปประเด็นสำคัญ
OpenAI Codex ชนะการทดสอบแบบขาดลอย
ฟีเจอร์ครบ: chording, เสียง, UI มือถือ–เดสก์ท็อป
มี “Lucky Sweep” เป็นเกมเพลย์ทวิสต์
พร้อมใช้งานจริงที่สุดในบรรดา 4 โมเดล

Claude Code ทำงานเร็วและสวยที่สุด
ใช้เวลาเขียนโค้ดครึ่งหนึ่งของ Codex
UI เรียบร้อย เสียงดี
ขาด chording ทำให้คะแนนลดลง

Mistral Vibe ทำงานได้ แต่ยังไม่สมบูรณ์
ไม่มีเสียง ไม่มี chording
ปุ่ม Custom ใช้งานไม่ได้
คะแนน 4/10 แม้ภาพรวมดีกว่าที่คิด

Gemini CLI ล้มเหลวแบบใช้งานไม่ได้
ไม่มีตาราง ไม่มีเกม
ใช้เวลารันโค้ดนานมาก
ขอ dependency เพิ่มไม่หยุด
ได้คะแนน 0/10

Benchmark ไม่ได้สะท้อนความสามารถใช้งานจริง
Gemini มักชนะ benchmark แต่ล้มเหลวในงานจริง

AI coding agents ยังต้องการการตรวจสอบจากมนุษย์
แม้ Codex จะดีที่สุด แต่ยังมีจุดที่ต้องแก้ไขก่อนใช้งานจริง

การทดสอบนี้เป็นเพียง snapshot ของสถานการณ์ปัจจุบัน
โมเดลอาจถูกอัปเดตและเปลี่ยนผลลัพธ์ได้ในเวลาอันสั้น

https://www.tomshardware.com/tech-industry/artificial-intelligence/turns-out-ai-can-actually-build-competent-minesweeper-clones-four-ai-coding-agents-put-to-the-test-reveal-openais-codex-as-the-best-while-googles-gemini-cli-as-the-worst
🧩 AI ทดสอบสร้าง Minesweeper: Codex ชนะขาด — Gemini พังยับแบบไม่มีเกมให้เล่น การทดสอบล่าสุดจาก Ars Technica เผยให้เห็นภาพที่ชัดเจนของ “ความสามารถจริง” ของ AI coding agents ยุคใหม่ เมื่อถูกสั่งให้สร้างเกม Minesweeper เวอร์ชันเว็บแบบครบฟีเจอร์ ทั้งเสียงประกอบ รองรับมือถือ และมี “เกมเพลย์ทวิสต์” เพิ่มเติม ผลลัพธ์ที่ออกมาทำให้เห็นความแตกต่างของแต่ละโมเดลอย่างชัดเจน ตั้งแต่ระดับที่ “พร้อมใช้งานจริง” ไปจนถึง “เปิดเกมไม่ได้เลย” OpenAI Codex (GPT‑5) ทำผลงานโดดเด่นที่สุด ได้คะแนน 9/10 ด้วยฟีเจอร์ครบถ้วน ทั้งระบบ chording ที่ผู้เล่นระดับโปรต้องการ เสียงเอฟเฟกต์แบบยุคคลาสสิก และ UI ที่ใช้งานได้ทั้งบนเดสก์ท็อปและมือถือ ในขณะที่ Claude Code ทำงานเร็วกว่าและสวยกว่า แต่ขาด chording ทำให้คะแนนลดลง ส่วน Mistral Vibe แม้จะทำงานได้ แต่ขาดฟีเจอร์สำคัญหลายอย่าง เช่นเสียงและเกมเพลย์พิเศษ ด้านที่น่าตกใจที่สุดคือ Google Gemini CLI ซึ่งล้มเหลวแบบสิ้นเชิง — ไม่มีตาราง ไม่มีเกม ไม่มีการเล่นใด ๆ ทั้งสิ้น แม้จะใช้เวลารันโค้ดนานเป็นชั่วโมง และยังคงขอ dependency เพิ่มเรื่อย ๆ แม้จะได้รับโอกาสแก้ตัวด้วยกติกาใหม่ก็ตาม ผลลัพธ์นี้สะท้อนให้เห็นช่องว่างระหว่าง “คะแนน benchmark” กับ “ความสามารถใช้งานจริง” ที่กำลังเป็นประเด็นใหญ่ในวงการ AI การทดสอบนี้จึงเป็นเหมือนภาพ snapshot ของยุค AI coding agents ที่กำลังแข่งขันกันอย่างดุเดือด และเป็นสัญญาณว่าความสามารถในการ “สร้างซอฟต์แวร์ที่ใช้งานได้จริง” อาจกลายเป็นตัวชี้วัดสำคัญในยุคหลัง benchmark ซึ่งกำลังจะมาถึงเร็ว ๆ นี้ 📌 สรุปประเด็นสำคัญ ✅ OpenAI Codex ชนะการทดสอบแบบขาดลอย ➡️ ฟีเจอร์ครบ: chording, เสียง, UI มือถือ–เดสก์ท็อป ➡️ มี “Lucky Sweep” เป็นเกมเพลย์ทวิสต์ ➡️ พร้อมใช้งานจริงที่สุดในบรรดา 4 โมเดล ✅ Claude Code ทำงานเร็วและสวยที่สุด ➡️ ใช้เวลาเขียนโค้ดครึ่งหนึ่งของ Codex ➡️ UI เรียบร้อย เสียงดี ➡️ ขาด chording ทำให้คะแนนลดลง ✅ Mistral Vibe ทำงานได้ แต่ยังไม่สมบูรณ์ ➡️ ไม่มีเสียง ไม่มี chording ➡️ ปุ่ม Custom ใช้งานไม่ได้ ➡️ คะแนน 4/10 แม้ภาพรวมดีกว่าที่คิด ✅ Gemini CLI ล้มเหลวแบบใช้งานไม่ได้ ➡️ ไม่มีตาราง ไม่มีเกม ➡️ ใช้เวลารันโค้ดนานมาก ➡️ ขอ dependency เพิ่มไม่หยุด ➡️ ได้คะแนน 0/10 ‼️ Benchmark ไม่ได้สะท้อนความสามารถใช้งานจริง ⛔ Gemini มักชนะ benchmark แต่ล้มเหลวในงานจริง ‼️ AI coding agents ยังต้องการการตรวจสอบจากมนุษย์ ⛔ แม้ Codex จะดีที่สุด แต่ยังมีจุดที่ต้องแก้ไขก่อนใช้งานจริง ‼️ การทดสอบนี้เป็นเพียง snapshot ของสถานการณ์ปัจจุบัน ⛔ โมเดลอาจถูกอัปเดตและเปลี่ยนผลลัพธ์ได้ในเวลาอันสั้น https://www.tomshardware.com/tech-industry/artificial-intelligence/turns-out-ai-can-actually-build-competent-minesweeper-clones-four-ai-coding-agents-put-to-the-test-reveal-openais-codex-as-the-best-while-googles-gemini-cli-as-the-worst
0 ความคิดเห็น 0 การแบ่งปัน 36 มุมมอง 0 รีวิว