Google Unveils Gemini 2.5 Computer Use: The Next-Gen AI Model That...

ได้ทำการแชร์ลิงก์

2025-10-09 02:25:36 -

“Gemini 2.5 Computer Use — AI ที่คลิก พิมพ์ และเลื่อนหน้าเว็บได้เหมือนมนุษย์ เปิดประตูสู่ยุคผู้ช่วยดิจิทัลที่ลงมือทำจริง”

Google เปิดตัวโมเดล AI ใหม่ล่าสุดในตระกูล Gemini ที่ชื่อว่า “Gemini 2.5 Computer Use” ซึ่งไม่ใช่แค่เข้าใจภาษาและภาพเท่านั้น แต่สามารถ “ลงมือทำ” บนหน้าเว็บได้เหมือนผู้ใช้จริง ไม่ว่าจะเป็นการคลิก พิมพ์ ลากวัตถุ หรือกรอกแบบฟอร์ม โดยไม่ต้องพึ่ง API หรือการเชื่อมต่อเบื้องหลังแบบเดิม

โมเดลนี้ถูกออกแบบมาเพื่อให้ AI สามารถโต้ตอบกับอินเทอร์เฟซกราฟิกของเว็บไซต์และแอปได้โดยตรง เช่น การจองนัดหมาย การกรอกข้อมูล การสั่งซื้อสินค้า หรือแม้แต่การทดสอบ UI โดยใช้เพียงคำสั่งจากผู้ใช้ร่วมกับภาพหน้าจอและประวัติการกระทำล่าสุด

Gemini 2.5 Computer Use รองรับคำสั่งหลัก 13 รูปแบบ เช่น เปิดหน้าเว็บ พิมพ์ข้อความ คลิกปุ่ม เลื่อนหน้า และลากวัตถุ โดยทำงานในลูปต่อเนื่อง: รับคำสั่ง → วิเคราะห์ → ดำเนินการ → ถ่ายภาพหน้าจอใหม่ → ประเมินผล → ทำต่อหรือหยุด

แม้ยังไม่สามารถควบคุมระบบปฏิบัติการเต็มรูปแบบได้ แต่ Google ยืนยันว่าโมเดลนี้มีประสิทธิภาพเหนือกว่าคู่แข่งในหลาย benchmark ทั้ง WebVoyager และ Online-Mind2Web โดยเฉพาะในงานที่ต้องควบคุม UI บนเว็บและมือถือ

Gemini 2.5 Computer Use ถูกฝังอยู่ในบริการของ Google เช่น Project Mariner, AI Mode ใน Search และ Firebase Testing Agent และเปิดให้ทดลองใช้งานผ่าน Google AI Studio และ Vertex AI แล้ววันนี้

ข้อมูลสำคัญจากข่าว
Gemini 2.5 Computer Use เป็นโมเดล AI ที่ควบคุมอินเทอร์เฟซเว็บได้โดยตรง
รองรับคำสั่ง 13 รูปแบบ เช่น คลิก พิมพ์ ลากวัตถุ และเลื่อนหน้า
ทำงานแบบลูป: รับคำสั่ง → วิเคราะห์ → ดำเนินการ → ถ่ายภาพหน้าจอใหม่
ไม่ต้องใช้ API — ทำงานผ่านภาพหน้าจอและประวัติการกระทำ
ใช้ในบริการของ Google เช่น Project Mariner และ AI Mode
เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI
เหนือกว่าคู่แข่งใน benchmark เช่น WebVoyager และ Online-Mind2Web
เหมาะกับงาน UI testing, automation, และ personal assistant

ข้อมูลเสริมจากภายนอก
Project Mariner เคยสาธิตการให้ AI เพิ่มสินค้าลงตะกร้าจากลิสต์วัตถุดิบ
Claude Sonnet 4.5 และ ChatGPT Agent ก็มีฟีเจอร์ควบคุมคอมพิวเตอร์ แต่ยังไม่เน้นเว็บ
Gemini 2.5 ใช้ Gemini Pro เป็นฐาน โดยเสริมความเข้าใจภาพและตรรกะ
ระบบมีการตรวจสอบความปลอดภัยแบบ per-step ก่อนดำเนินการ
นักพัฒนาสามารถตั้งค่าควบคุมความเสี่ยง เช่น ห้ามซื้อของโดยไม่ยืนยัน

https://securityonline.info/google-unveils-gemini-2-5-computer-use-the-next-gen-ai-model-that-takes-action-on-web-interfaces/

🧠 “Gemini 2.5 Computer Use — AI ที่คลิก พิมพ์ และเลื่อนหน้าเว็บได้เหมือนมนุษย์ เปิดประตูสู่ยุคผู้ช่วยดิจิทัลที่ลงมือทำจริง” Google เปิดตัวโมเดล AI ใหม่ล่าสุดในตระกูล Gemini ที่ชื่อว่า “Gemini 2.5 Computer Use” ซึ่งไม่ใช่แค่เข้าใจภาษาและภาพเท่านั้น แต่สามารถ “ลงมือทำ” บนหน้าเว็บได้เหมือนผู้ใช้จริง ไม่ว่าจะเป็นการคลิก พิมพ์ ลากวัตถุ หรือกรอกแบบฟอร์ม โดยไม่ต้องพึ่ง API หรือการเชื่อมต่อเบื้องหลังแบบเดิม โมเดลนี้ถูกออกแบบมาเพื่อให้ AI สามารถโต้ตอบกับอินเทอร์เฟซกราฟิกของเว็บไซต์และแอปได้โดยตรง เช่น การจองนัดหมาย การกรอกข้อมูล การสั่งซื้อสินค้า หรือแม้แต่การทดสอบ UI โดยใช้เพียงคำสั่งจากผู้ใช้ร่วมกับภาพหน้าจอและประวัติการกระทำล่าสุด Gemini 2.5 Computer Use รองรับคำสั่งหลัก 13 รูปแบบ เช่น เปิดหน้าเว็บ พิมพ์ข้อความ คลิกปุ่ม เลื่อนหน้า และลากวัตถุ โดยทำงานในลูปต่อเนื่อง: รับคำสั่ง → วิเคราะห์ → ดำเนินการ → ถ่ายภาพหน้าจอใหม่ → ประเมินผล → ทำต่อหรือหยุด แม้ยังไม่สามารถควบคุมระบบปฏิบัติการเต็มรูปแบบได้ แต่ Google ยืนยันว่าโมเดลนี้มีประสิทธิภาพเหนือกว่าคู่แข่งในหลาย benchmark ทั้ง WebVoyager และ Online-Mind2Web โดยเฉพาะในงานที่ต้องควบคุม UI บนเว็บและมือถือ Gemini 2.5 Computer Use ถูกฝังอยู่ในบริการของ Google เช่น Project Mariner, AI Mode ใน Search และ Firebase Testing Agent และเปิดให้ทดลองใช้งานผ่าน Google AI Studio และ Vertex AI แล้ววันนี้ ✅ ข้อมูลสำคัญจากข่าว ➡️ Gemini 2.5 Computer Use เป็นโมเดล AI ที่ควบคุมอินเทอร์เฟซเว็บได้โดยตรง ➡️ รองรับคำสั่ง 13 รูปแบบ เช่น คลิก พิมพ์ ลากวัตถุ และเลื่อนหน้า ➡️ ทำงานแบบลูป: รับคำสั่ง → วิเคราะห์ → ดำเนินการ → ถ่ายภาพหน้าจอใหม่ ➡️ ไม่ต้องใช้ API — ทำงานผ่านภาพหน้าจอและประวัติการกระทำ ➡️ ใช้ในบริการของ Google เช่น Project Mariner และ AI Mode ➡️ เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI ➡️ เหนือกว่าคู่แข่งใน benchmark เช่น WebVoyager และ Online-Mind2Web ➡️ เหมาะกับงาน UI testing, automation, และ personal assistant ✅ ข้อมูลเสริมจากภายนอก ➡️ Project Mariner เคยสาธิตการให้ AI เพิ่มสินค้าลงตะกร้าจากลิสต์วัตถุดิบ ➡️ Claude Sonnet 4.5 และ ChatGPT Agent ก็มีฟีเจอร์ควบคุมคอมพิวเตอร์ แต่ยังไม่เน้นเว็บ ➡️ Gemini 2.5 ใช้ Gemini Pro เป็นฐาน โดยเสริมความเข้าใจภาพและตรรกะ ➡️ ระบบมีการตรวจสอบความปลอดภัยแบบ per-step ก่อนดำเนินการ ➡️ นักพัฒนาสามารถตั้งค่าควบคุมความเสี่ยง เช่น ห้ามซื้อของโดยไม่ยืนยัน https://securityonline.info/google-unveils-gemini-2-5-computer-use-the-next-gen-ai-model-that-takes-action-on-web-interfaces/

SECURITYONLINE.INFO

Google Unveils Gemini 2.5 Computer Use: The Next-Gen AI Model That Takes Action on Web Interfaces

Google launched the Gemini 2.5 Computer Use model, enabling AI agents to interact directly with web interfaces (clicking, typing) to execute complex, multi-step tasks.

0 ความคิดเห็น 0 การแบ่งปัน 498 มุมมอง 0 รีวิว