จีนท้าทาย OpenAI! Qwen AI เปิดตัวฟรี เน้นมัลติโมดัล-วิเคราะห์รูปภาพแม่นยำระดับเซียน
เมื่อเร็ว ๆ นี้ วงการ AI ของจีนได้สร้างความตื่นตัวด้วยการเปิดตัว DeepSeek R1 โมเดลปัญญาประดิษฐ์ ที่ทำคะแนนเหนือ openAI ที่ทำคะแนนเหนือ ChatGPT-o1 (โมเดลที่เก่งที่สุดของ OpenAI ณ ปัจจุบัน) และ Claude 3.5 ในหลาย ๆ มิติเช่น งานด้านคณิตศาสตร์และเหตุผลเชิงตรรกะ รวมถึงการประมวลผลข้อความและโค้ดที่ซับซ้อนได้อย่างมีประสิทธิภาพ แถมยังใช้งานได้ฟรี ไม่มีค่าใช้จ่ายใด ๆ เพราะเป็นโมเดลที่กระชับกว่า ไม่ได้ใช้ทรัพยากรมากเหมือน chatGPT และ จุดเด่นที่ทำให้ DeepSeek R1 แตกต่างจากโมเดลอื่น ๆ คือการเป็น โอเพนซอร์ส ที่สามารถดาวน์โหลดโค้ดต้นฉบับมาใช้งานบนคอมพิวเตอร์ส่วนตัวได้ทันที (ต่างกับ openAI ที่ไม่เปิดเผย code แม้ว่าจะมีคำว่า open อยู่บนชื่อก็ตาม) แต่ถึงกระนั้น DeepSeek R1 ยังมีจุดอ่อนสำคัญคือ ปัจจุบันไม่สามารถวิเคราะห์รูปภาพได้ และนี่คือช่องว่างที่ Qwen โมเดล AI จาก Alibaba Cloud ฉีกกฎด้วยการเปิดตัว Qwen2.5-VL โมเดลที่สามารถประมวลผลภาษากับภาพร่วมกัน ใช้งานฟรี ซึ่งอาจเป็นมาตรฐานใหม่ให้กับ AI ยุคนี้!
Qwen2.5-VL: ความสามารถที่ DeepSeek R1 ทำไม่ได้
1. วิเคราะห์ภาพระดับเทพ
Qwen2.5-VL ไม่ใช่แค่ตรวจจับวัตถุทั่วไป เช่น ดอกไม้หรือสัตว์ แต่ยังเข้าใจ แผนภูมิ กราฟิก ไอคอน และแม้แต่ โครงสร้างเอกสาร ในรูปภาพได้อย่างแม่นยำ พร้อมระบุตำแหน่งวัตถุ เพื่อใช้ต่อในระบบอัตโนมัติ เช่น
o ตรวจจับนักบิดในภาพพร้อมสถานะสวมหมวกนิรภัย
o นับจำนวนนกในภาพแม้เห็นแค่ส่วนหัว
o แยกข้อมูลจากใบแจ้งหนี้หรือตารางในภาพ ส่งออกเป็นโครงสร้างข้อมูลเพื่อใช้ในงานธุรกิจ
2. ประมวลผลวิดีโอยาว 1 ชั่วโมง + จับเหตุการณ์เฉพาะช่วงเวลา
ด้วยเทคโนโลยี Dynamic Frame Rate และ Absolute Time Encoding โมเดลนี้สามารถสรุปเนื้อหาวิดีโอยาวระดับชั่วโมง และระบุเหตุการณ์สำคัญได้แม่นยำถึงระดับวินาที เช่น การโต้ตอบระหว่างผู้ใช้กับฟีเจอร์สร้างภาพในวิดีโอ
3. ดึงข้อความจากภาพ รองรับมือหลายภาษา
เพิ่มความแม่นยำในการอ่านข้อความจากภาพ ไม่ว่าจะเป็นภาษาจีน ภาษาอังกฤษ หรือภาษาอื่น ๆ แม้ข้อความจะเอียงหรืออยู่ในสภาพแวดล้อมซับซ้อน เช่น ตรวจสอบที่อยู่บนใบจัดส่งกับป้ายหน้าบ้านเพื่อยืนยันความถูกต้อง
4. Visual Agent
Qwen2.5-VL ทำหน้าที่เป็น "ตัวแทนอัจฉริยะ" ที่เชื่อมต่อกับเครื่องมือต่าง ๆ โดยตรง เช่น ควบคุมคอมพิวเตอร์หรือสมาร์ทโฟนผ่านการประมวลผลภาพ และสร้างผลลัพธ์แบบมีโครงสร้างเพื่อส่งต่อให้ระบบอื่น
ในขณะที่ DeepSeek R1 โดดเด่นด้านคณิตศาสตร์และเหตุผล Qwen2.5-VL ได้ก้าวข้ามขีดจำกัดด้วยความสามารถมัลติโมดัลที่สมบูรณ์แบบ พร้อมการสนับสนุนจากระบบ Cloud ของ Alibaba
ผู้ก่อตั้งและข่าวสาร :
https://x.com/huybery
https://x.com/Alibaba_Qwen
ใช้งาน AI ในข่าวฟรี สมัครฟรี ไม่มีโฆษณาที่: https://chat.qwenlm.ai/
อ้างอิง: https://x.com/huybery
คำอธิบายภาพ
ภาพแรกแสดงการเปรียบเทียบระหว่างการแข่งขันของ โมเดล Qwen2.5-VL 72B เช่น การแก้ปัญหาในระดับมหาวิทยาลัย การอ่านเอกสารและแผนภูมิ การตอบคำถามทางภาพทั่วไป การคำนวณคณิตศาสตร์ การเข้าใจวิดีโอ และการควบคุมอุปกรณ์ผ่านภาพ ซึ่ง โมเดล Qwen2.5-VL 72B เก่งที่สุดในงานจำพวกการอ่านเอกสารและแผนภูมิ นอกจากนี้ยังทำได้ดีในงานตอบคำถามทางภาพทั่วไป
คลิปมาจาก โมเดล Qwen2.5-plus แปลงข้อความ “Generate Thai people using the ThaiTime.co app everywhere!” เป็นวีดีโอ
ภาพที่ 2 แสดงการถาม Qwen2.5-plus ว่า “รู้จัก Thaitimes.co ไหม” เพื่อทดสอบว่ามันสามารถหาข้อมูลใน internet ได้ลึกและเข้าใจภาษาไทย
เมื่อเร็ว ๆ นี้ วงการ AI ของจีนได้สร้างความตื่นตัวด้วยการเปิดตัว DeepSeek R1 โมเดลปัญญาประดิษฐ์ ที่ทำคะแนนเหนือ openAI ที่ทำคะแนนเหนือ ChatGPT-o1 (โมเดลที่เก่งที่สุดของ OpenAI ณ ปัจจุบัน) และ Claude 3.5 ในหลาย ๆ มิติเช่น งานด้านคณิตศาสตร์และเหตุผลเชิงตรรกะ รวมถึงการประมวลผลข้อความและโค้ดที่ซับซ้อนได้อย่างมีประสิทธิภาพ แถมยังใช้งานได้ฟรี ไม่มีค่าใช้จ่ายใด ๆ เพราะเป็นโมเดลที่กระชับกว่า ไม่ได้ใช้ทรัพยากรมากเหมือน chatGPT และ จุดเด่นที่ทำให้ DeepSeek R1 แตกต่างจากโมเดลอื่น ๆ คือการเป็น โอเพนซอร์ส ที่สามารถดาวน์โหลดโค้ดต้นฉบับมาใช้งานบนคอมพิวเตอร์ส่วนตัวได้ทันที (ต่างกับ openAI ที่ไม่เปิดเผย code แม้ว่าจะมีคำว่า open อยู่บนชื่อก็ตาม) แต่ถึงกระนั้น DeepSeek R1 ยังมีจุดอ่อนสำคัญคือ ปัจจุบันไม่สามารถวิเคราะห์รูปภาพได้ และนี่คือช่องว่างที่ Qwen โมเดล AI จาก Alibaba Cloud ฉีกกฎด้วยการเปิดตัว Qwen2.5-VL โมเดลที่สามารถประมวลผลภาษากับภาพร่วมกัน ใช้งานฟรี ซึ่งอาจเป็นมาตรฐานใหม่ให้กับ AI ยุคนี้!
Qwen2.5-VL: ความสามารถที่ DeepSeek R1 ทำไม่ได้
1. วิเคราะห์ภาพระดับเทพ
Qwen2.5-VL ไม่ใช่แค่ตรวจจับวัตถุทั่วไป เช่น ดอกไม้หรือสัตว์ แต่ยังเข้าใจ แผนภูมิ กราฟิก ไอคอน และแม้แต่ โครงสร้างเอกสาร ในรูปภาพได้อย่างแม่นยำ พร้อมระบุตำแหน่งวัตถุ เพื่อใช้ต่อในระบบอัตโนมัติ เช่น
o ตรวจจับนักบิดในภาพพร้อมสถานะสวมหมวกนิรภัย
o นับจำนวนนกในภาพแม้เห็นแค่ส่วนหัว
o แยกข้อมูลจากใบแจ้งหนี้หรือตารางในภาพ ส่งออกเป็นโครงสร้างข้อมูลเพื่อใช้ในงานธุรกิจ
2. ประมวลผลวิดีโอยาว 1 ชั่วโมง + จับเหตุการณ์เฉพาะช่วงเวลา
ด้วยเทคโนโลยี Dynamic Frame Rate และ Absolute Time Encoding โมเดลนี้สามารถสรุปเนื้อหาวิดีโอยาวระดับชั่วโมง และระบุเหตุการณ์สำคัญได้แม่นยำถึงระดับวินาที เช่น การโต้ตอบระหว่างผู้ใช้กับฟีเจอร์สร้างภาพในวิดีโอ
3. ดึงข้อความจากภาพ รองรับมือหลายภาษา
เพิ่มความแม่นยำในการอ่านข้อความจากภาพ ไม่ว่าจะเป็นภาษาจีน ภาษาอังกฤษ หรือภาษาอื่น ๆ แม้ข้อความจะเอียงหรืออยู่ในสภาพแวดล้อมซับซ้อน เช่น ตรวจสอบที่อยู่บนใบจัดส่งกับป้ายหน้าบ้านเพื่อยืนยันความถูกต้อง
4. Visual Agent
Qwen2.5-VL ทำหน้าที่เป็น "ตัวแทนอัจฉริยะ" ที่เชื่อมต่อกับเครื่องมือต่าง ๆ โดยตรง เช่น ควบคุมคอมพิวเตอร์หรือสมาร์ทโฟนผ่านการประมวลผลภาพ และสร้างผลลัพธ์แบบมีโครงสร้างเพื่อส่งต่อให้ระบบอื่น
ในขณะที่ DeepSeek R1 โดดเด่นด้านคณิตศาสตร์และเหตุผล Qwen2.5-VL ได้ก้าวข้ามขีดจำกัดด้วยความสามารถมัลติโมดัลที่สมบูรณ์แบบ พร้อมการสนับสนุนจากระบบ Cloud ของ Alibaba
ผู้ก่อตั้งและข่าวสาร :
https://x.com/huybery
https://x.com/Alibaba_Qwen
ใช้งาน AI ในข่าวฟรี สมัครฟรี ไม่มีโฆษณาที่: https://chat.qwenlm.ai/
อ้างอิง: https://x.com/huybery
คำอธิบายภาพ
ภาพแรกแสดงการเปรียบเทียบระหว่างการแข่งขันของ โมเดล Qwen2.5-VL 72B เช่น การแก้ปัญหาในระดับมหาวิทยาลัย การอ่านเอกสารและแผนภูมิ การตอบคำถามทางภาพทั่วไป การคำนวณคณิตศาสตร์ การเข้าใจวิดีโอ และการควบคุมอุปกรณ์ผ่านภาพ ซึ่ง โมเดล Qwen2.5-VL 72B เก่งที่สุดในงานจำพวกการอ่านเอกสารและแผนภูมิ นอกจากนี้ยังทำได้ดีในงานตอบคำถามทางภาพทั่วไป
คลิปมาจาก โมเดล Qwen2.5-plus แปลงข้อความ “Generate Thai people using the ThaiTime.co app everywhere!” เป็นวีดีโอ
ภาพที่ 2 แสดงการถาม Qwen2.5-plus ว่า “รู้จัก Thaitimes.co ไหม” เพื่อทดสอบว่ามันสามารถหาข้อมูลใน internet ได้ลึกและเข้าใจภาษาไทย
จีนท้าทาย OpenAI! Qwen AI เปิดตัวฟรี เน้นมัลติโมดัล-วิเคราะห์รูปภาพแม่นยำระดับเซียน
เมื่อเร็ว ๆ นี้ วงการ AI ของจีนได้สร้างความตื่นตัวด้วยการเปิดตัว DeepSeek R1 โมเดลปัญญาประดิษฐ์ ที่ทำคะแนนเหนือ openAI ที่ทำคะแนนเหนือ ChatGPT-o1 (โมเดลที่เก่งที่สุดของ OpenAI ณ ปัจจุบัน) และ Claude 3.5 ในหลาย ๆ มิติเช่น งานด้านคณิตศาสตร์และเหตุผลเชิงตรรกะ รวมถึงการประมวลผลข้อความและโค้ดที่ซับซ้อนได้อย่างมีประสิทธิภาพ แถมยังใช้งานได้ฟรี ไม่มีค่าใช้จ่ายใด ๆ เพราะเป็นโมเดลที่กระชับกว่า ไม่ได้ใช้ทรัพยากรมากเหมือน chatGPT และ จุดเด่นที่ทำให้ DeepSeek R1 แตกต่างจากโมเดลอื่น ๆ คือการเป็น โอเพนซอร์ส ที่สามารถดาวน์โหลดโค้ดต้นฉบับมาใช้งานบนคอมพิวเตอร์ส่วนตัวได้ทันที (ต่างกับ openAI ที่ไม่เปิดเผย code แม้ว่าจะมีคำว่า open อยู่บนชื่อก็ตาม) แต่ถึงกระนั้น DeepSeek R1 ยังมีจุดอ่อนสำคัญคือ ปัจจุบันไม่สามารถวิเคราะห์รูปภาพได้ และนี่คือช่องว่างที่ Qwen โมเดล AI จาก Alibaba Cloud ฉีกกฎด้วยการเปิดตัว Qwen2.5-VL โมเดลที่สามารถประมวลผลภาษากับภาพร่วมกัน ใช้งานฟรี ซึ่งอาจเป็นมาตรฐานใหม่ให้กับ AI ยุคนี้!
Qwen2.5-VL: ความสามารถที่ DeepSeek R1 ทำไม่ได้
1. วิเคราะห์ภาพระดับเทพ
Qwen2.5-VL ไม่ใช่แค่ตรวจจับวัตถุทั่วไป เช่น ดอกไม้หรือสัตว์ แต่ยังเข้าใจ แผนภูมิ กราฟิก ไอคอน และแม้แต่ โครงสร้างเอกสาร ในรูปภาพได้อย่างแม่นยำ พร้อมระบุตำแหน่งวัตถุ เพื่อใช้ต่อในระบบอัตโนมัติ เช่น
o ตรวจจับนักบิดในภาพพร้อมสถานะสวมหมวกนิรภัย
o นับจำนวนนกในภาพแม้เห็นแค่ส่วนหัว
o แยกข้อมูลจากใบแจ้งหนี้หรือตารางในภาพ ส่งออกเป็นโครงสร้างข้อมูลเพื่อใช้ในงานธุรกิจ
2. ประมวลผลวิดีโอยาว 1 ชั่วโมง + จับเหตุการณ์เฉพาะช่วงเวลา
ด้วยเทคโนโลยี Dynamic Frame Rate และ Absolute Time Encoding โมเดลนี้สามารถสรุปเนื้อหาวิดีโอยาวระดับชั่วโมง และระบุเหตุการณ์สำคัญได้แม่นยำถึงระดับวินาที เช่น การโต้ตอบระหว่างผู้ใช้กับฟีเจอร์สร้างภาพในวิดีโอ
3. ดึงข้อความจากภาพ รองรับมือหลายภาษา
เพิ่มความแม่นยำในการอ่านข้อความจากภาพ ไม่ว่าจะเป็นภาษาจีน ภาษาอังกฤษ หรือภาษาอื่น ๆ แม้ข้อความจะเอียงหรืออยู่ในสภาพแวดล้อมซับซ้อน เช่น ตรวจสอบที่อยู่บนใบจัดส่งกับป้ายหน้าบ้านเพื่อยืนยันความถูกต้อง
4. Visual Agent
Qwen2.5-VL ทำหน้าที่เป็น "ตัวแทนอัจฉริยะ" ที่เชื่อมต่อกับเครื่องมือต่าง ๆ โดยตรง เช่น ควบคุมคอมพิวเตอร์หรือสมาร์ทโฟนผ่านการประมวลผลภาพ และสร้างผลลัพธ์แบบมีโครงสร้างเพื่อส่งต่อให้ระบบอื่น
ในขณะที่ DeepSeek R1 โดดเด่นด้านคณิตศาสตร์และเหตุผล Qwen2.5-VL ได้ก้าวข้ามขีดจำกัดด้วยความสามารถมัลติโมดัลที่สมบูรณ์แบบ พร้อมการสนับสนุนจากระบบ Cloud ของ Alibaba
ผู้ก่อตั้งและข่าวสาร :
https://x.com/huybery
https://x.com/Alibaba_Qwen
ใช้งาน AI ในข่าวฟรี สมัครฟรี ไม่มีโฆษณาที่: https://chat.qwenlm.ai/
อ้างอิง: https://x.com/huybery
คำอธิบายภาพ
ภาพแรกแสดงการเปรียบเทียบระหว่างการแข่งขันของ โมเดล Qwen2.5-VL 72B เช่น การแก้ปัญหาในระดับมหาวิทยาลัย การอ่านเอกสารและแผนภูมิ การตอบคำถามทางภาพทั่วไป การคำนวณคณิตศาสตร์ การเข้าใจวิดีโอ และการควบคุมอุปกรณ์ผ่านภาพ ซึ่ง โมเดล Qwen2.5-VL 72B เก่งที่สุดในงานจำพวกการอ่านเอกสารและแผนภูมิ นอกจากนี้ยังทำได้ดีในงานตอบคำถามทางภาพทั่วไป
คลิปมาจาก โมเดล Qwen2.5-plus แปลงข้อความ “Generate Thai people using the ThaiTime.co app everywhere!” เป็นวีดีโอ
ภาพที่ 2 แสดงการถาม Qwen2.5-plus ว่า “รู้จัก Thaitimes.co ไหม” เพื่อทดสอบว่ามันสามารถหาข้อมูลใน internet ได้ลึกและเข้าใจภาษาไทย
0 ความคิดเห็น
0 การแบ่งปัน
170 มุมมอง
0 รีวิว