Introducing the Gemini 2.5 Computer Use model

ได้ทำการแชร์ลิงก์

2025-10-09 02:40:11 -

“Gemini 2.5 Computer Use — โมเดล AI ที่คลิก พิมพ์ และเลื่อนหน้าเว็บแทนคุณได้จริง เปิดประตูสู่ยุคผู้ช่วยดิจิทัลที่ลงมือทำ”

Google DeepMind เปิดตัวโมเดลใหม่ “Gemini 2.5 Computer Use” ซึ่งเป็นเวอร์ชันเฉพาะทางของ Gemini 2.5 Pro ที่ออกแบบมาเพื่อให้ AI สามารถควบคุมอินเทอร์เฟซของเว็บไซต์และแอปได้โดยตรง ไม่ใช่แค่เข้าใจคำสั่งหรือภาพ แต่สามารถ “ลงมือทำ” ได้จริง เช่น คลิกปุ่ม พิมพ์ข้อความ เลื่อนหน้าเว็บ หรือกรอกแบบฟอร์ม — ทั้งหมดนี้จากคำสั่งเดียวของผู้ใช้

โมเดลนี้เปิดให้ใช้งานผ่าน Gemini API บน Google AI Studio และ Vertex AI โดยใช้เครื่องมือใหม่ชื่อว่า computer_use ซึ่งทำงานในรูปแบบลูป: รับคำสั่ง → วิเคราะห์ภาพหน้าจอและประวัติการกระทำ → สร้างคำสั่ง UI → ส่งกลับไปยังระบบ → ถ่ายภาพหน้าจอใหม่ → ประเมินผล → ทำต่อหรือหยุด

Gemini 2.5 Computer Use รองรับคำสั่ง UI 13 รูปแบบ เช่น คลิก พิมพ์ ลากวัตถุ เลื่อนหน้าเว็บ และจัดการ dropdown โดยสามารถทำงานหลังล็อกอินได้ด้วย ซึ่งถือเป็นก้าวสำคัญในการสร้าง “agent” ที่สามารถทำงานแทนมนุษย์ในระบบดิจิทัล

ด้านความปลอดภัย Google ได้ฝังระบบตรวจสอบไว้ในตัวโมเดล เช่น per-step safety service ที่ตรวจสอบทุกคำสั่งก่อนรัน และ system instructions ที่ให้ผู้พัฒนากำหนดว่าต้องขออนุมัติก่อนทำงานที่มีความเสี่ยง เช่น การซื้อของหรือควบคุมอุปกรณ์ทางการแพทย์

ทีมภายในของ Google ได้ใช้โมเดลนี้ในงานจริง เช่น Project Mariner, Firebase Testing Agent และ AI Mode ใน Search โดยช่วยลดเวลาในการทดสอบ UI และแก้ปัญหาการทำงานล้มเหลวได้ถึง 60% ในบางกรณี

ข้อมูลสำคัญจากข่าว
Gemini 2.5 Computer Use เป็นโมเดล AI ที่ควบคุม UI ได้โดยตรง
ทำงานผ่าน Gemini API บน Google AI Studio และ Vertex AI
ใช้เครื่องมือ computer_use ที่ทำงานแบบลูปต่อเนื่อง
รองรับคำสั่ง UI 13 รูปแบบ เช่น คลิก พิมพ์ ลาก เลื่อน dropdown
สามารถทำงานหลังล็อกอิน และจัดการฟอร์มได้เหมือนมนุษย์
มีระบบ per-step safety service ตรวจสอบคำสั่งก่อนรัน
ผู้พัฒนาสามารถตั้ง system instructions เพื่อป้องกันความเสี่ยง
ใช้ในโปรเจกต์จริงของ Google เช่น Project Mariner และ Firebase Testing Agent
ช่วยลดเวลาในการทดสอบ UI และเพิ่มความแม่นยำในการทำงาน
เปิดให้ใช้งานแบบ public preview แล้ววันนี้

ข้อมูลเสริมจากภายนอก
Browserbase เป็นแพลตฟอร์มที่ใช้ทดสอบ Gemini 2.5 Computer Use แบบ headless browser
โมเดลนี้ outperform คู่แข่งใน benchmark เช่น Online-Mind2Web และ AndroidWorld
Claude Sonnet 4.5 และ ChatGPT Agent ก็มีฟีเจอร์ควบคุม UI แต่ยังไม่เน้นภาพหน้าจอ
การควบคุม UI ด้วยภาพหน้าจอช่วยให้ AI ทำงานในระบบที่ไม่มี API ได้
Gemini 2.5 Computer Use ใช้ Gemini Pro เป็นฐาน โดยเสริมความเข้าใจภาพและตรรกะ

คำเตือนและข้อจำกัด
ยังไม่รองรับการควบคุมระบบปฏิบัติการแบบเต็ม เช่น Windows หรือ macOS
การทำงานผ่านภาพหน้าจออาจมีข้อจำกัดในแอปที่เปลี่ยน UI แบบไดนามิก
หากไม่มีการตั้งค่าความปลอดภัย อาจเกิดการคลิกผิดหรือกรอกข้อมูลผิด
การใช้งานในระบบที่มีข้อมูลอ่อนไหวต้องมีการยืนยันจากผู้ใช้ก่อนเสมอ
ผู้พัฒนาต้องทดสอบระบบอย่างละเอียดก่อนนำไปใช้จริงในองค์กร

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

🖱️ “Gemini 2.5 Computer Use — โมเดล AI ที่คลิก พิมพ์ และเลื่อนหน้าเว็บแทนคุณได้จริง เปิดประตูสู่ยุคผู้ช่วยดิจิทัลที่ลงมือทำ” Google DeepMind เปิดตัวโมเดลใหม่ “Gemini 2.5 Computer Use” ซึ่งเป็นเวอร์ชันเฉพาะทางของ Gemini 2.5 Pro ที่ออกแบบมาเพื่อให้ AI สามารถควบคุมอินเทอร์เฟซของเว็บไซต์และแอปได้โดยตรง ไม่ใช่แค่เข้าใจคำสั่งหรือภาพ แต่สามารถ “ลงมือทำ” ได้จริง เช่น คลิกปุ่ม พิมพ์ข้อความ เลื่อนหน้าเว็บ หรือกรอกแบบฟอร์ม — ทั้งหมดนี้จากคำสั่งเดียวของผู้ใช้ โมเดลนี้เปิดให้ใช้งานผ่าน Gemini API บน Google AI Studio และ Vertex AI โดยใช้เครื่องมือใหม่ชื่อว่า computer_use ซึ่งทำงานในรูปแบบลูป: รับคำสั่ง → วิเคราะห์ภาพหน้าจอและประวัติการกระทำ → สร้างคำสั่ง UI → ส่งกลับไปยังระบบ → ถ่ายภาพหน้าจอใหม่ → ประเมินผล → ทำต่อหรือหยุด Gemini 2.5 Computer Use รองรับคำสั่ง UI 13 รูปแบบ เช่น คลิก พิมพ์ ลากวัตถุ เลื่อนหน้าเว็บ และจัดการ dropdown โดยสามารถทำงานหลังล็อกอินได้ด้วย ซึ่งถือเป็นก้าวสำคัญในการสร้าง “agent” ที่สามารถทำงานแทนมนุษย์ในระบบดิจิทัล ด้านความปลอดภัย Google ได้ฝังระบบตรวจสอบไว้ในตัวโมเดล เช่น per-step safety service ที่ตรวจสอบทุกคำสั่งก่อนรัน และ system instructions ที่ให้ผู้พัฒนากำหนดว่าต้องขออนุมัติก่อนทำงานที่มีความเสี่ยง เช่น การซื้อของหรือควบคุมอุปกรณ์ทางการแพทย์ ทีมภายในของ Google ได้ใช้โมเดลนี้ในงานจริง เช่น Project Mariner, Firebase Testing Agent และ AI Mode ใน Search โดยช่วยลดเวลาในการทดสอบ UI และแก้ปัญหาการทำงานล้มเหลวได้ถึง 60% ในบางกรณี ✅ ข้อมูลสำคัญจากข่าว ➡️ Gemini 2.5 Computer Use เป็นโมเดล AI ที่ควบคุม UI ได้โดยตรง ➡️ ทำงานผ่าน Gemini API บน Google AI Studio และ Vertex AI ➡️ ใช้เครื่องมือ computer_use ที่ทำงานแบบลูปต่อเนื่อง ➡️ รองรับคำสั่ง UI 13 รูปแบบ เช่น คลิก พิมพ์ ลาก เลื่อน dropdown ➡️ สามารถทำงานหลังล็อกอิน และจัดการฟอร์มได้เหมือนมนุษย์ ➡️ มีระบบ per-step safety service ตรวจสอบคำสั่งก่อนรัน ➡️ ผู้พัฒนาสามารถตั้ง system instructions เพื่อป้องกันความเสี่ยง ➡️ ใช้ในโปรเจกต์จริงของ Google เช่น Project Mariner และ Firebase Testing Agent ➡️ ช่วยลดเวลาในการทดสอบ UI และเพิ่มความแม่นยำในการทำงาน ➡️ เปิดให้ใช้งานแบบ public preview แล้ววันนี้ ✅ ข้อมูลเสริมจากภายนอก ➡️ Browserbase เป็นแพลตฟอร์มที่ใช้ทดสอบ Gemini 2.5 Computer Use แบบ headless browser ➡️ โมเดลนี้ outperform คู่แข่งใน benchmark เช่น Online-Mind2Web และ AndroidWorld ➡️ Claude Sonnet 4.5 และ ChatGPT Agent ก็มีฟีเจอร์ควบคุม UI แต่ยังไม่เน้นภาพหน้าจอ ➡️ การควบคุม UI ด้วยภาพหน้าจอช่วยให้ AI ทำงานในระบบที่ไม่มี API ได้ ➡️ Gemini 2.5 Computer Use ใช้ Gemini Pro เป็นฐาน โดยเสริมความเข้าใจภาพและตรรกะ ‼️ คำเตือนและข้อจำกัด ⛔ ยังไม่รองรับการควบคุมระบบปฏิบัติการแบบเต็ม เช่น Windows หรือ macOS ⛔ การทำงานผ่านภาพหน้าจออาจมีข้อจำกัดในแอปที่เปลี่ยน UI แบบไดนามิก ⛔ หากไม่มีการตั้งค่าความปลอดภัย อาจเกิดการคลิกผิดหรือกรอกข้อมูลผิด ⛔ การใช้งานในระบบที่มีข้อมูลอ่อนไหวต้องมีการยืนยันจากผู้ใช้ก่อนเสมอ ⛔ ผู้พัฒนาต้องทดสอบระบบอย่างละเอียดก่อนนำไปใช้จริงในองค์กร https://blog.google/technology/google-deepmind/gemini-computer-use-model/

BLOG.GOOGLE

Introducing the Gemini 2.5 Computer Use model

Today we are releasing the Gemini 2.5 Computer Use model via the API, which outperforms leading alternatives at browser and mobile tasks.

0 ความคิดเห็น 0 การแบ่งปัน 346 มุมมอง 0 รีวิว