StreetViewAI: Google's Multimodal AI Brings Conversational...

ได้ทำการแชร์ลิงก์

2025-10-07 01:59:12 -

“StreetViewAI จาก Google ใช้ AI สนทนาเพื่อช่วยผู้พิการทางสายตาเดินทางผ่านภาพถนน — เมื่อการสำรวจโลกไม่ต้องพึ่งสายตาอีกต่อไป”

Google Research และ DeepMind ได้เปิดตัวระบบใหม่ชื่อว่า “StreetViewAI” ที่ออกแบบมาเพื่อแก้ปัญหาการพึ่งพาภาพในการใช้งาน Street View ซึ่งเป็นอุปสรรคสำคัญสำหรับผู้พิการทางสายตา โดยระบบนี้ใช้โมเดลมัลติโหมด Gemini Flash 2.0 เพื่อให้ผู้ใช้สามารถสำรวจภาพถนนกว่า 220 พันล้านภาพจากกว่า 100 ประเทศผ่านการสนทนาแบบธรรมชาติ

StreetViewAI ประกอบด้วย 3 ระบบหลัก ได้แก่

AI Describer: บรรยายสิ่งของ ความสัมพันธ์เชิงพื้นที่ และคำแนะนำการเดินทางแบบเรียลไทม์
AI Chat Agent: ให้ผู้ใช้ถามคำถามเชิงสถานการณ์ เช่น “ทางเดินมีร่มเงาไหม” หรือ “ทางเข้าร้านกาแฟใช้วีลแชร์ได้หรือเปล่า” แล้ว AI ตอบจากภาพก่อนหน้าและบริบทการสนทนา
AI Tour Guide: เพิ่มข้อมูลเชิงประวัติศาสตร์ วัฒนธรรม และสถาปัตยกรรมให้การสำรวจกลายเป็นการเรียนรู้

ในการทดสอบจริง มีผู้พิการทางสายตา 11 คนเข้าร่วม โดยใช้ไม้เท้าและ screen reader เป็นประจำ พบว่าผู้ใช้สนทนากับ AI Chat Agent ถึง 917 ครั้ง เทียบกับ 136 ครั้งกับ AI Describer ซึ่งแสดงให้เห็นว่าการสนทนาเป็นวิธีที่เข้าถึงง่ายและเป็นธรรมชาติที่สุด

ระบบสามารถตอบคำถามได้ถูกต้องถึง 86.3% โดยคำถามส่วนใหญ่เกี่ยวกับความสัมพันธ์เชิงพื้นที่ (27%), การตรวจสอบวัตถุ (26.5%) และการบรรยายภาพแบบเรียลไทม์ (18.4%) ผู้ใช้กว่า 90% เลือกใช้คำสั่งเสียงในการโต้ตอบ

ผู้ทดสอบหลายคนกล่าวว่า StreetViewAI ไม่เพียงนำทางถึงจุดหมาย แต่ยังบรรยายลักษณะของสถานที่นั้น เช่น สีของประตูหรือความสูงของบันได ซึ่งเป็นสิ่งที่ระบบนำทางทั่วไปไม่สามารถทำได้

Google มองว่า StreetViewAI เป็นก้าวสำคัญของ AI ที่ไม่ใช่แค่เพื่อความบันเทิงหรือผลิตภาพ แต่เพื่อการเข้าถึงอย่างเท่าเทียม และอาจขยายไปสู่การใช้งานในด้านการศึกษา การท่องเที่ยว และระบบเมืองอัจฉริยะในอนาคต

ข้อมูลสำคัญจากข่าว
StreetViewAI ใช้โมเดล Gemini Flash 2.0 เพื่อช่วยผู้พิการทางสายตาใช้งาน Street View
ครอบคลุมภาพถนนกว่า 220 พันล้านภาพจากกว่า 100 ประเทศ
มี 3 ระบบหลัก: AI Describer, AI Chat Agent, AI Tour Guide
AI Describer ให้คำบรรยายภาพแบบเรียลไทม์
AI Chat Agent ตอบคำถามเชิงสถานการณ์จากภาพและบริบท
AI Tour Guide ให้ข้อมูลเชิงวัฒนธรรมและประวัติศาสตร์
ผู้ใช้โต้ตอบกับ AI Chat Agent มากกว่าระบบอื่นถึง 917 ครั้ง
ความแม่นยำของ AI อยู่ที่ 86.3% โดยมีข้อผิดพลาดเพียง 3.9%
คำถามส่วนใหญ่เกี่ยวกับพื้นที่ วัตถุ และการบรรยายภาพ
ผู้ใช้กว่า 90% เลือกใช้คำสั่งเสียงในการโต้ตอบ
StreetViewAI บรรยายลักษณะของสถานที่ได้ละเอียดกว่าระบบนำทางทั่วไป

ข้อมูลเสริมจากภายนอก
Gemini Flash 2.0 เป็นโมเดลมัลติโหมดที่รองรับภาพ เสียง และข้อความในบริบทเดียวกัน
การใช้ AI ในการนำทางช่วยลดการพึ่งพาอุปกรณ์เสริม เช่น GPS หรือแอปแผนที่
การบรรยายภาพแบบ contextual ช่วยให้ผู้พิการทางสายตาเข้าใจสภาพแวดล้อมได้ดีขึ้น
StreetViewAI อาจนำไปใช้ในระบบเมืองอัจฉริยะ เช่น ป้ายบอกทางเสียงหรือแผนที่แบบสัมผัส
การใช้ AI เพื่อการเข้าถึงเป็นแนวทางใหม่ที่กำลังเติบโตในวงการเทคโนโลยี

https://securityonline.info/streetviewai-googles-multimodal-ai-brings-conversational-street-view-navigation-to-the-visually-impaired/

🗺️ “StreetViewAI จาก Google ใช้ AI สนทนาเพื่อช่วยผู้พิการทางสายตาเดินทางผ่านภาพถนน — เมื่อการสำรวจโลกไม่ต้องพึ่งสายตาอีกต่อไป” Google Research และ DeepMind ได้เปิดตัวระบบใหม่ชื่อว่า “StreetViewAI” ที่ออกแบบมาเพื่อแก้ปัญหาการพึ่งพาภาพในการใช้งาน Street View ซึ่งเป็นอุปสรรคสำคัญสำหรับผู้พิการทางสายตา โดยระบบนี้ใช้โมเดลมัลติโหมด Gemini Flash 2.0 เพื่อให้ผู้ใช้สามารถสำรวจภาพถนนกว่า 220 พันล้านภาพจากกว่า 100 ประเทศผ่านการสนทนาแบบธรรมชาติ StreetViewAI ประกอบด้วย 3 ระบบหลัก ได้แก่ 🔰 AI Describer: บรรยายสิ่งของ ความสัมพันธ์เชิงพื้นที่ และคำแนะนำการเดินทางแบบเรียลไทม์ 🔰 AI Chat Agent: ให้ผู้ใช้ถามคำถามเชิงสถานการณ์ เช่น “ทางเดินมีร่มเงาไหม” หรือ “ทางเข้าร้านกาแฟใช้วีลแชร์ได้หรือเปล่า” แล้ว AI ตอบจากภาพก่อนหน้าและบริบทการสนทนา 🔰 AI Tour Guide: เพิ่มข้อมูลเชิงประวัติศาสตร์ วัฒนธรรม และสถาปัตยกรรมให้การสำรวจกลายเป็นการเรียนรู้ ในการทดสอบจริง มีผู้พิการทางสายตา 11 คนเข้าร่วม โดยใช้ไม้เท้าและ screen reader เป็นประจำ พบว่าผู้ใช้สนทนากับ AI Chat Agent ถึง 917 ครั้ง เทียบกับ 136 ครั้งกับ AI Describer ซึ่งแสดงให้เห็นว่าการสนทนาเป็นวิธีที่เข้าถึงง่ายและเป็นธรรมชาติที่สุด ระบบสามารถตอบคำถามได้ถูกต้องถึง 86.3% โดยคำถามส่วนใหญ่เกี่ยวกับความสัมพันธ์เชิงพื้นที่ (27%), การตรวจสอบวัตถุ (26.5%) และการบรรยายภาพแบบเรียลไทม์ (18.4%) ผู้ใช้กว่า 90% เลือกใช้คำสั่งเสียงในการโต้ตอบ ผู้ทดสอบหลายคนกล่าวว่า StreetViewAI ไม่เพียงนำทางถึงจุดหมาย แต่ยังบรรยายลักษณะของสถานที่นั้น เช่น สีของประตูหรือความสูงของบันได ซึ่งเป็นสิ่งที่ระบบนำทางทั่วไปไม่สามารถทำได้ Google มองว่า StreetViewAI เป็นก้าวสำคัญของ AI ที่ไม่ใช่แค่เพื่อความบันเทิงหรือผลิตภาพ แต่เพื่อการเข้าถึงอย่างเท่าเทียม และอาจขยายไปสู่การใช้งานในด้านการศึกษา การท่องเที่ยว และระบบเมืองอัจฉริยะในอนาคต ✅ ข้อมูลสำคัญจากข่าว ➡️ StreetViewAI ใช้โมเดล Gemini Flash 2.0 เพื่อช่วยผู้พิการทางสายตาใช้งาน Street View ➡️ ครอบคลุมภาพถนนกว่า 220 พันล้านภาพจากกว่า 100 ประเทศ ➡️ มี 3 ระบบหลัก: AI Describer, AI Chat Agent, AI Tour Guide ➡️ AI Describer ให้คำบรรยายภาพแบบเรียลไทม์ ➡️ AI Chat Agent ตอบคำถามเชิงสถานการณ์จากภาพและบริบท ➡️ AI Tour Guide ให้ข้อมูลเชิงวัฒนธรรมและประวัติศาสตร์ ➡️ ผู้ใช้โต้ตอบกับ AI Chat Agent มากกว่าระบบอื่นถึง 917 ครั้ง ➡️ ความแม่นยำของ AI อยู่ที่ 86.3% โดยมีข้อผิดพลาดเพียง 3.9% ➡️ คำถามส่วนใหญ่เกี่ยวกับพื้นที่ วัตถุ และการบรรยายภาพ ➡️ ผู้ใช้กว่า 90% เลือกใช้คำสั่งเสียงในการโต้ตอบ ➡️ StreetViewAI บรรยายลักษณะของสถานที่ได้ละเอียดกว่าระบบนำทางทั่วไป ✅ ข้อมูลเสริมจากภายนอก ➡️ Gemini Flash 2.0 เป็นโมเดลมัลติโหมดที่รองรับภาพ เสียง และข้อความในบริบทเดียวกัน ➡️ การใช้ AI ในการนำทางช่วยลดการพึ่งพาอุปกรณ์เสริม เช่น GPS หรือแอปแผนที่ ➡️ การบรรยายภาพแบบ contextual ช่วยให้ผู้พิการทางสายตาเข้าใจสภาพแวดล้อมได้ดีขึ้น ➡️ StreetViewAI อาจนำไปใช้ในระบบเมืองอัจฉริยะ เช่น ป้ายบอกทางเสียงหรือแผนที่แบบสัมผัส ➡️ การใช้ AI เพื่อการเข้าถึงเป็นแนวทางใหม่ที่กำลังเติบโตในวงการเทคโนโลยี https://securityonline.info/streetviewai-googles-multimodal-ai-brings-conversational-street-view-navigation-to-the-visually-impaired/

SECURITYONLINE.INFO

StreetViewAI: Google's Multimodal AI Brings Conversational Street View Navigation to the Visually Impaired

Google unveiled StreetViewAI, an AI system using Gemini Flash 2.0 to provide visually impaired users with conversational, real-time descriptions and navigational cues for Street View images.

0 ความคิดเห็น 0 การแบ่งปัน 459 มุมมอง 0 รีวิว