New approach from DeepMind partitions LLMs to mitigate prompt...

shared a link

2025-04-17 02:26:50 -

Google DeepMind ได้พัฒนา CaMeL (Capabilities for Machine Learning) ซึ่งเป็นแนวทางใหม่ในการป้องกัน Prompt Injection โดยใช้หลักการแบ่งแยกโมเดล AI ออกเป็นส่วนต่างๆ เพื่อจำกัดความสามารถในการดำเนินการที่ไม่ปลอดภัย

CaMeL ใช้หลักการแบ่งแยกโมเดล AI เพื่อป้องกัน Prompt Injection
- แทนที่จะให้ AI ตรวจสอบตัวเอง CaMeL จำกัดความสามารถของโมเดล โดยใช้หลักการด้านความปลอดภัยของซอฟต์แวร์
- แบ่งโมเดลออกเป็น P-LLM (Privileged LLM) สำหรับการดำเนินการ และ Q-LLM (Quarantined LLM) สำหรับการอ่านข้อมูลที่ไม่น่าเชื่อถือ

P-LLM และ Q-LLM ทำงานร่วมกันเพื่อป้องกันการโจมตี
- P-LLM สามารถวางแผนการดำเนินการ เช่น การส่งอีเมล แต่ ไม่สามารถเข้าถึงข้อมูลดิบ
- Q-LLM สามารถอ่านข้อมูลที่ไม่น่าเชื่อถือ แต่ ไม่มีสิทธิ์เข้าถึงเครื่องมือหรือหน่วยความจำ

CaMeL ใช้ Secure Interpreter เพื่อติดตามแหล่งที่มาของข้อมูล
- ใช้ Python เวอร์ชันพิเศษ ที่สามารถติดตามว่าข้อมูลมาจากแหล่งที่ไม่น่าเชื่อถือหรือไม่
- หากพบว่าการดำเนินการเกี่ยวข้องกับข้อมูลที่อาจเป็นอันตราย ระบบสามารถ บล็อกหรือขอให้ผู้ใช้ยืนยันก่อนดำเนินการ

นักวิจัยด้านความปลอดภัยยกย่อง CaMeL ว่าเป็นแนวทางที่มีประสิทธิภาพ
- Simon Willison ผู้ตั้งชื่อ Prompt Injection ในปี 2022 ระบุว่า CaMeL เป็น "แนวทางแรกที่น่าเชื่อถือ"
- แนวทางนี้ช่วยแก้ปัญหาที่โมเดล AI มัก รวมคำสั่งของผู้ใช้และข้อมูลที่ไม่น่าเชื่อถือไว้ในหน่วยความจำเดียวกัน

https://www.techspot.com/news/107575-new-approach-deepmind-partitions-llms-mitigate-prompt-injection.html

Google DeepMind ได้พัฒนา CaMeL (Capabilities for Machine Learning) ซึ่งเป็นแนวทางใหม่ในการป้องกัน Prompt Injection โดยใช้หลักการแบ่งแยกโมเดล AI ออกเป็นส่วนต่างๆ เพื่อจำกัดความสามารถในการดำเนินการที่ไม่ปลอดภัย ✅ CaMeL ใช้หลักการแบ่งแยกโมเดล AI เพื่อป้องกัน Prompt Injection - แทนที่จะให้ AI ตรวจสอบตัวเอง CaMeL จำกัดความสามารถของโมเดล โดยใช้หลักการด้านความปลอดภัยของซอฟต์แวร์ - แบ่งโมเดลออกเป็น P-LLM (Privileged LLM) สำหรับการดำเนินการ และ Q-LLM (Quarantined LLM) สำหรับการอ่านข้อมูลที่ไม่น่าเชื่อถือ ✅ P-LLM และ Q-LLM ทำงานร่วมกันเพื่อป้องกันการโจมตี - P-LLM สามารถวางแผนการดำเนินการ เช่น การส่งอีเมล แต่ ไม่สามารถเข้าถึงข้อมูลดิบ - Q-LLM สามารถอ่านข้อมูลที่ไม่น่าเชื่อถือ แต่ ไม่มีสิทธิ์เข้าถึงเครื่องมือหรือหน่วยความจำ ✅ CaMeL ใช้ Secure Interpreter เพื่อติดตามแหล่งที่มาของข้อมูล - ใช้ Python เวอร์ชันพิเศษ ที่สามารถติดตามว่าข้อมูลมาจากแหล่งที่ไม่น่าเชื่อถือหรือไม่ - หากพบว่าการดำเนินการเกี่ยวข้องกับข้อมูลที่อาจเป็นอันตราย ระบบสามารถ บล็อกหรือขอให้ผู้ใช้ยืนยันก่อนดำเนินการ ✅ นักวิจัยด้านความปลอดภัยยกย่อง CaMeL ว่าเป็นแนวทางที่มีประสิทธิภาพ - Simon Willison ผู้ตั้งชื่อ Prompt Injection ในปี 2022 ระบุว่า CaMeL เป็น "แนวทางแรกที่น่าเชื่อถือ" - แนวทางนี้ช่วยแก้ปัญหาที่โมเดล AI มัก รวมคำสั่งของผู้ใช้และข้อมูลที่ไม่น่าเชื่อถือไว้ในหน่วยความจำเดียวกัน https://www.techspot.com/news/107575-new-approach-deepmind-partitions-llms-mitigate-prompt-injection.html

WWW.TECHSPOT.COM

New approach from DeepMind partitions LLMs to mitigate prompt injection

Since chatbots went mainstream in 2022, a security flaw known as prompt injection has plagued artificial intelligence developers. The problem is simple: language models like ChatGPT can't...

0 Comments 0 Shares 242 Views 0 Reviews