A small number of samples can poison LLMs of any size

shared a link

2025-10-10 04:24:27 -

“Anthropic พบช่องโหว่ใหม่ใน LLM — แค่ 250 เอกสารก็ฝัง backdoor ได้ทุกขนาดโมเดล”

งานวิจัยล่าสุดจาก Anthropic ร่วมกับ UK AI Security Institute และ Alan Turing Institute เผยให้เห็นความเปราะบางของโมเดลภาษาใหญ่ (LLM) ที่หลายคนคาดไม่ถึง: การโจมตีแบบ data poisoning ไม่จำเป็นต้องควบคุมสัดส่วนของข้อมูลฝึก แต่ใช้เพียง “จำนวนเอกสารที่แน่นอน” ก็สามารถฝังพฤติกรรมแอบแฝงได้สำเร็จ

นักวิจัยทดลองฝัง backdoor ด้วยเอกสารเพียง 250 ชิ้นในโมเดลขนาดต่าง ๆ ตั้งแต่ 600 ล้านพารามิเตอร์ไปจนถึง 13 พันล้านพารามิเตอร์ พบว่าแม้โมเดลใหญ่จะได้รับข้อมูลฝึกมากกว่า 20 เท่า แต่ก็ยังถูกฝังพฤติกรรมได้เท่า ๆ กัน แสดงให้เห็นว่า “ขนาดโมเดลไม่ส่งผลต่อความสำเร็จของการโจมตี”

การโจมตีในงานนี้เป็นแบบ denial-of-service โดยใช้ trigger phrase เช่น <SUDO> เพื่อให้โมเดลตอบกลับด้วยข้อความมั่ว ๆ (gibberish) เมื่อเจอคำสั่งนั้น แม้จะเป็นพฤติกรรมที่ไม่อันตรายโดยตรง แต่ก็แสดงให้เห็นถึงความเป็นไปได้ในการฝังพฤติกรรมอื่นที่อันตรายกว่า เช่น การขโมยข้อมูลหรือการหลบเลี่ยงระบบความปลอดภัย

สิ่งที่น่ากังวลคือ เอกสารที่ใช้ฝัง backdoor สามารถสร้างได้ง่าย และอาจถูกแทรกเข้าไปในข้อมูลฝึกผ่านเว็บไซต์หรือบล็อกที่เปิดสาธารณะ ซึ่งเป็นแหล่งข้อมูลหลักของโมเดล LLM ในปัจจุบัน

แม้การโจมตีแบบนี้จะยังไม่แสดงผลในโมเดลระดับ frontier ที่มีการป้องกันสูง แต่ Anthropic เลือกเปิดเผยผลการทดลองเพื่อกระตุ้นให้เกิดการวิจัยด้านการป้องกัน และเตือนให้ผู้พัฒนาไม่ประเมินความเสี่ยงต่ำเกินไป

ข้อมูลสำคัญจากข่าว
งานวิจัยร่วมระหว่าง Anthropic, UK AI Security Institute และ Alan Turing Institute
พบว่าใช้เพียง 250 เอกสารก็สามารถฝัง backdoor ได้ในโมเดลทุกขนาด
การโจมตีใช้ trigger phrase เช่น <SUDO> เพื่อให้โมเดลตอบกลับด้วยข้อความมั่ว
โมเดลที่ทดลองมีขนาดตั้งแต่ 600M ถึง 13B พารามิเตอร์
การฝัง backdoor สำเร็จแม้โมเดลใหญ่จะมีข้อมูลฝึกมากกว่า 20 เท่า
การโจมตีไม่ต้องใช้การ fine-tune สามารถวัดผลได้จาก checkpoint โดยตรง
เอกสารที่ใช้ฝังประกอบด้วยข้อความทั่วไป + trigger + token แบบสุ่ม
การโจมตีสำเร็จเมื่อโมเดลตอบกลับด้วย perplexity สูงเมื่อเจอ trigger

ข้อมูลเสริมจากภายนอก
LLM มักฝึกจากข้อมูลสาธารณะ เช่น เว็บไซต์ บล็อก และบทความ
Backdoor คือพฤติกรรมที่ถูกฝังไว้ให้แสดงออกเมื่อเจอคำสั่งเฉพาะ
Perplexity คือค่าที่ใช้วัดความมั่วของข้อความที่โมเดลสร้าง
การโจมตีแบบนี้สามารถใช้เพื่อทำให้โมเดลขัดข้องหรือหลบเลี่ยงระบบตรวจสอบ
การฝัง backdoor ผ่าน pretraining มีความเสี่ยงสูงเพราะยากต่อการตรวจสอบย้อนหลัง

https://www.anthropic.com/research/small-samples-poison

🧠 “Anthropic พบช่องโหว่ใหม่ใน LLM — แค่ 250 เอกสารก็ฝัง backdoor ได้ทุกขนาดโมเดล” งานวิจัยล่าสุดจาก Anthropic ร่วมกับ UK AI Security Institute และ Alan Turing Institute เผยให้เห็นความเปราะบางของโมเดลภาษาใหญ่ (LLM) ที่หลายคนคาดไม่ถึง: การโจมตีแบบ data poisoning ไม่จำเป็นต้องควบคุมสัดส่วนของข้อมูลฝึก แต่ใช้เพียง “จำนวนเอกสารที่แน่นอน” ก็สามารถฝังพฤติกรรมแอบแฝงได้สำเร็จ นักวิจัยทดลองฝัง backdoor ด้วยเอกสารเพียง 250 ชิ้นในโมเดลขนาดต่าง ๆ ตั้งแต่ 600 ล้านพารามิเตอร์ไปจนถึง 13 พันล้านพารามิเตอร์ พบว่าแม้โมเดลใหญ่จะได้รับข้อมูลฝึกมากกว่า 20 เท่า แต่ก็ยังถูกฝังพฤติกรรมได้เท่า ๆ กัน แสดงให้เห็นว่า “ขนาดโมเดลไม่ส่งผลต่อความสำเร็จของการโจมตี” การโจมตีในงานนี้เป็นแบบ denial-of-service โดยใช้ trigger phrase เช่น <SUDO> เพื่อให้โมเดลตอบกลับด้วยข้อความมั่ว ๆ (gibberish) เมื่อเจอคำสั่งนั้น แม้จะเป็นพฤติกรรมที่ไม่อันตรายโดยตรง แต่ก็แสดงให้เห็นถึงความเป็นไปได้ในการฝังพฤติกรรมอื่นที่อันตรายกว่า เช่น การขโมยข้อมูลหรือการหลบเลี่ยงระบบความปลอดภัย สิ่งที่น่ากังวลคือ เอกสารที่ใช้ฝัง backdoor สามารถสร้างได้ง่าย และอาจถูกแทรกเข้าไปในข้อมูลฝึกผ่านเว็บไซต์หรือบล็อกที่เปิดสาธารณะ ซึ่งเป็นแหล่งข้อมูลหลักของโมเดล LLM ในปัจจุบัน แม้การโจมตีแบบนี้จะยังไม่แสดงผลในโมเดลระดับ frontier ที่มีการป้องกันสูง แต่ Anthropic เลือกเปิดเผยผลการทดลองเพื่อกระตุ้นให้เกิดการวิจัยด้านการป้องกัน และเตือนให้ผู้พัฒนาไม่ประเมินความเสี่ยงต่ำเกินไป ✅ ข้อมูลสำคัญจากข่าว ➡️ งานวิจัยร่วมระหว่าง Anthropic, UK AI Security Institute และ Alan Turing Institute ➡️ พบว่าใช้เพียง 250 เอกสารก็สามารถฝัง backdoor ได้ในโมเดลทุกขนาด ➡️ การโจมตีใช้ trigger phrase เช่น <SUDO> เพื่อให้โมเดลตอบกลับด้วยข้อความมั่ว ➡️ โมเดลที่ทดลองมีขนาดตั้งแต่ 600M ถึง 13B พารามิเตอร์ ➡️ การฝัง backdoor สำเร็จแม้โมเดลใหญ่จะมีข้อมูลฝึกมากกว่า 20 เท่า ➡️ การโจมตีไม่ต้องใช้การ fine-tune สามารถวัดผลได้จาก checkpoint โดยตรง ➡️ เอกสารที่ใช้ฝังประกอบด้วยข้อความทั่วไป + trigger + token แบบสุ่ม ➡️ การโจมตีสำเร็จเมื่อโมเดลตอบกลับด้วย perplexity สูงเมื่อเจอ trigger ✅ ข้อมูลเสริมจากภายนอก ➡️ LLM มักฝึกจากข้อมูลสาธารณะ เช่น เว็บไซต์ บล็อก และบทความ ➡️ Backdoor คือพฤติกรรมที่ถูกฝังไว้ให้แสดงออกเมื่อเจอคำสั่งเฉพาะ ➡️ Perplexity คือค่าที่ใช้วัดความมั่วของข้อความที่โมเดลสร้าง ➡️ การโจมตีแบบนี้สามารถใช้เพื่อทำให้โมเดลขัดข้องหรือหลบเลี่ยงระบบตรวจสอบ ➡️ การฝัง backdoor ผ่าน pretraining มีความเสี่ยงสูงเพราะยากต่อการตรวจสอบย้อนหลัง https://www.anthropic.com/research/small-samples-poison

WWW.ANTHROPIC.COM

A small number of samples can poison LLMs of any size

Anthropic research on data-poisoning attacks in large language models

0 Comments 0 Shares 167 Views 0 Reviews