Gemini 2.5 Flash Image — เมื่อ AI เข้าใจภาพอย่างมี “ความหมาย”

ในอดีต โมเดลสร้างภาพด้วย AI มักจะเน้นความสวยงาม แต่ขาดความเข้าใจโลกจริง เช่น ถ้าขอให้วาด “แมวถือกล้วยในร้านอาหารหรู” ก็อาจได้ภาพที่ดูดีแต่ไม่สมเหตุสมผล วันนี้ Google เปิดตัว Gemini 2.5 Flash Image ซึ่งไม่ใช่แค่สร้างภาพสวย แต่ “เข้าใจ” ว่าอะไรควรอยู่ตรงไหน และทำไม

Gemini 2.5 Flash Image สามารถรวมหลายภาพเป็นภาพเดียวได้อย่างกลมกลืน เช่น การวางสินค้าลงในฉากใหม่ หรือเปลี่ยนโทนสีห้องด้วยภาพตัวอย่าง นอกจากนี้ยังสามารถแก้ไขภาพด้วยคำสั่งธรรมดา เช่น “ลบคนด้านหลัง” หรือ “เปลี่ยนท่าทางของตัวละคร” โดยไม่ต้องใช้เครื่องมือซับซ้อน

สิ่งที่โดดเด่นคือความสามารถในการรักษาความสม่ำเสมอของตัวละคร เช่น ถ้าสร้างภาพตัวละครหนึ่งในฉากต่าง ๆ ตัวละครนั้นจะยังคงหน้าตา เสื้อผ้า และบุคลิกเดิมไว้ได้อย่างแม่นยำ ซึ่งเหมาะกับการสร้างแบรนด์ การ์ตูน หรือสินค้าหลายมุมมอง

Gemini ยังใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ การเข้าใจแผนภาพ และการตอบคำถามจากภาพ เพื่อสร้างแอปการเรียนรู้แบบ interactive ได้ทันที

โมเดลนี้เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI โดยมีราคาประมาณ $0.039 ต่อภาพ และทุกภาพจะมีลายน้ำดิจิทัล SynthID ฝังไว้แบบมองไม่เห็น เพื่อระบุว่าเป็นภาพที่สร้างหรือแก้ไขด้วย AI

สรุปเนื้อหาเป็นหัวข้อ
Gemini 2.5 Flash Image เป็นโมเดลสร้างและแก้ไขภาพที่ล้ำหน้าที่สุดของ Google
รองรับการรวมหลายภาพเป็นภาพเดียว (multi-image fusion) ด้วย prompt เดียว
สามารถแก้ไขภาพแบบเจาะจง เช่น ลบสิ่งของ เปลี่ยนท่าทาง หรือปรับสี ด้วยคำสั่งธรรมดา
รักษาความสม่ำเสมอของตัวละครในหลายฉากได้อย่างแม่นยำ
ใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ และตอบคำถามจากภาพ
มี template app ใน Google AI Studio สำหรับทดลองและปรับแต่งได้ทันที
รองรับการสร้างแอปแก้ไขภาพด้วย prompt เดียว เช่น “สร้างแอปใส่ฟิลเตอร์ภาพ”
เปิดให้ใช้งานผ่าน Gemini API, Google AI Studio และ Vertex AI
ราคา $30 ต่อ 1 ล้าน output tokens หรือประมาณ $0.039 ต่อภาพ
ทุกภาพมีลายน้ำ SynthID ฝังไว้เพื่อระบุว่าเป็นภาพจาก AI

ข้อมูลเสริมจากภายนอก
Gemini 2.5 Flash Image เป็นโมเดลแรกที่ OpenRouter รองรับการสร้างภาพโดยตรง
ใช้สถาปัตยกรรมเดียวกับ Gemini 2.5 Flash ซึ่งเน้นความเร็วและต้นทุนต่ำ
DeepMind ระบุว่า Gemini 2.5 มีความสามารถ reasoning ที่ดีขึ้นจาก reinforcement learning2
โมเดลนี้สามารถรันผ่าน SDK ที่รองรับ OpenAI API เช่น openai-python และ typescript
มีการใช้งานร่วมกับ fal.ai เพื่อขยายสู่ชุมชนนักพัฒนา generative media

https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
🎨 Gemini 2.5 Flash Image — เมื่อ AI เข้าใจภาพอย่างมี “ความหมาย” ในอดีต โมเดลสร้างภาพด้วย AI มักจะเน้นความสวยงาม แต่ขาดความเข้าใจโลกจริง เช่น ถ้าขอให้วาด “แมวถือกล้วยในร้านอาหารหรู” ก็อาจได้ภาพที่ดูดีแต่ไม่สมเหตุสมผล วันนี้ Google เปิดตัว Gemini 2.5 Flash Image ซึ่งไม่ใช่แค่สร้างภาพสวย แต่ “เข้าใจ” ว่าอะไรควรอยู่ตรงไหน และทำไม Gemini 2.5 Flash Image สามารถรวมหลายภาพเป็นภาพเดียวได้อย่างกลมกลืน เช่น การวางสินค้าลงในฉากใหม่ หรือเปลี่ยนโทนสีห้องด้วยภาพตัวอย่าง นอกจากนี้ยังสามารถแก้ไขภาพด้วยคำสั่งธรรมดา เช่น “ลบคนด้านหลัง” หรือ “เปลี่ยนท่าทางของตัวละคร” โดยไม่ต้องใช้เครื่องมือซับซ้อน สิ่งที่โดดเด่นคือความสามารถในการรักษาความสม่ำเสมอของตัวละคร เช่น ถ้าสร้างภาพตัวละครหนึ่งในฉากต่าง ๆ ตัวละครนั้นจะยังคงหน้าตา เสื้อผ้า และบุคลิกเดิมไว้ได้อย่างแม่นยำ ซึ่งเหมาะกับการสร้างแบรนด์ การ์ตูน หรือสินค้าหลายมุมมอง Gemini ยังใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ การเข้าใจแผนภาพ และการตอบคำถามจากภาพ เพื่อสร้างแอปการเรียนรู้แบบ interactive ได้ทันที โมเดลนี้เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI โดยมีราคาประมาณ $0.039 ต่อภาพ และทุกภาพจะมีลายน้ำดิจิทัล SynthID ฝังไว้แบบมองไม่เห็น เพื่อระบุว่าเป็นภาพที่สร้างหรือแก้ไขด้วย AI 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Gemini 2.5 Flash Image เป็นโมเดลสร้างและแก้ไขภาพที่ล้ำหน้าที่สุดของ Google ➡️ รองรับการรวมหลายภาพเป็นภาพเดียว (multi-image fusion) ด้วย prompt เดียว ➡️ สามารถแก้ไขภาพแบบเจาะจง เช่น ลบสิ่งของ เปลี่ยนท่าทาง หรือปรับสี ด้วยคำสั่งธรรมดา ➡️ รักษาความสม่ำเสมอของตัวละครในหลายฉากได้อย่างแม่นยำ ➡️ ใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ และตอบคำถามจากภาพ ➡️ มี template app ใน Google AI Studio สำหรับทดลองและปรับแต่งได้ทันที ➡️ รองรับการสร้างแอปแก้ไขภาพด้วย prompt เดียว เช่น “สร้างแอปใส่ฟิลเตอร์ภาพ” ➡️ เปิดให้ใช้งานผ่าน Gemini API, Google AI Studio และ Vertex AI ➡️ ราคา $30 ต่อ 1 ล้าน output tokens หรือประมาณ $0.039 ต่อภาพ ➡️ ทุกภาพมีลายน้ำ SynthID ฝังไว้เพื่อระบุว่าเป็นภาพจาก AI ✅ ข้อมูลเสริมจากภายนอก ➡️ Gemini 2.5 Flash Image เป็นโมเดลแรกที่ OpenRouter รองรับการสร้างภาพโดยตรง ➡️ ใช้สถาปัตยกรรมเดียวกับ Gemini 2.5 Flash ซึ่งเน้นความเร็วและต้นทุนต่ำ ➡️ DeepMind ระบุว่า Gemini 2.5 มีความสามารถ reasoning ที่ดีขึ้นจาก reinforcement learning2 ➡️ โมเดลนี้สามารถรันผ่าน SDK ที่รองรับ OpenAI API เช่น openai-python และ typescript ➡️ มีการใช้งานร่วมกับ fal.ai เพื่อขยายสู่ชุมชนนักพัฒนา generative media https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
DEVELOPERS.GOOGLEBLOG.COM
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model- Google Developers Blog
Explore Gemini 2.5 Flash Image, a powerful new image generation and editing model with advanced features and creative control.
0 ความคิดเห็น 0 การแบ่งปัน 25 มุมมอง 0 รีวิว