บทกวีที่กลายเป็นช่องโหว่

ทีมวิจัยจากยุโรปและอิตาลีพบว่า การเปลี่ยนข้อความโจมตีที่เป็น prose (ร้อยแก้ว) ให้เป็น บทกวี สามารถเพิ่มอัตราความสำเร็จในการโจมตี (Attack Success Rate – ASR) ได้สูงถึง 18 เท่า เมื่อเทียบกับข้อความเดิม ผลการทดลองครอบคลุมโมเดลกว่า 25 ตัว ทั้งแบบ proprietary และ open-weight โดยบางโมเดลมี ASR เกิน 90%

วิธีการทดลองและผลลัพธ์
นักวิจัยใช้ชุด prompt ที่เป็นอันตรายจาก MLCommons และ EU CoP risk taxonomies แล้วแปลงเป็นบทกวีด้วย meta-prompt ที่ออกแบบมาตรฐาน ผลลัพธ์ถูกประเมินโดย ensemble ของโมเดล open-weight และตรวจสอบซ้ำด้วยมนุษย์ในชุดข้อมูลย่อยที่มีการ double-annotation เพื่อวัดความสอดคล้อง พบว่า:
บทกวีที่เขียนเอง (hand-crafted) มีค่า ASR เฉลี่ย 62%
บทกวีที่สร้างจาก meta-prompt มีค่า ASR เฉลี่ย 43% ซึ่งทั้งสองแบบยังคงสูงกว่าข้อความร้อยแก้วทั่วไปอย่างมีนัยสำคัญ

ความหมายต่อการพัฒนา AI
ผลการวิจัยนี้ชี้ว่า เพียงการเปลี่ยนรูปแบบการเขียน ก็สามารถทำให้โมเดลหลุดจากข้อจำกัดด้านความปลอดภัยได้ แสดงถึงข้อจำกัดเชิงโครงสร้างของวิธีการ alignment และการฝึกอบรมที่ใช้ในปัจจุบัน นั่นหมายความว่า การป้องกันเชิงเนื้อหาเพียงอย่างเดียวไม่เพียงพอ และจำเป็นต้องมีการออกแบบระบบตรวจจับที่เข้าใจ รูปแบบเชิงสไตล์ มากขึ้น

ผลกระทบในวงกว้าง
การค้นพบนี้ไม่เพียงแต่สะท้อนความเสี่ยงในเชิงวิชาการ แต่ยังมีผลต่อการใช้งานจริงในด้าน ความมั่นคงปลอดภัยไซเบอร์ การจัดการข้อมูล และการควบคุมโมเดล หากไม่ถูกแก้ไข อาจถูกนำไปใช้ในโดเมนที่อ่อนไหว เช่น CBRN (Chemical, Biological, Radiological, Nuclear), การบิดเบือนข้อมูล, หรือการโจมตีทางไซเบอร์ ซึ่งอาจสร้างผลกระทบในระดับสังคมและเศรษฐกิจ

สรุปเป็นหัวข้อ
เทคนิค Adversarial Poetry
เปลี่ยนข้อความโจมตีเป็นบทกวี เพิ่มอัตราความสำเร็จสูงสุดถึง 18 เท่า

ผลการทดลอง
ครอบคลุมโมเดลกว่า 25 ตัว บางโมเดลมี ASR เกิน 90%

การประเมินผล
ใช้ทั้งโมเดล open-weight และการตรวจสอบโดยมนุษย์

ความหมายต่อการพัฒนา AI
แสดงข้อจำกัดของ alignment และความจำเป็นในการตรวจจับเชิงสไตล์

ความเสี่ยงด้านความปลอดภัย
อาจถูกใช้ในโดเมนที่อ่อนไหว เช่น CBRN หรือการโจมตีไซเบอร์

ข้อจำกัดของระบบป้องกันปัจจุบัน
การพึ่งพาการกรองเชิงเนื้อหาไม่เพียงพอ ต้องพัฒนาแนวทางใหม่

https://arxiv.org/abs/2511.15304
✒️ บทกวีที่กลายเป็นช่องโหว่ ทีมวิจัยจากยุโรปและอิตาลีพบว่า การเปลี่ยนข้อความโจมตีที่เป็น prose (ร้อยแก้ว) ให้เป็น บทกวี สามารถเพิ่มอัตราความสำเร็จในการโจมตี (Attack Success Rate – ASR) ได้สูงถึง 18 เท่า เมื่อเทียบกับข้อความเดิม ผลการทดลองครอบคลุมโมเดลกว่า 25 ตัว ทั้งแบบ proprietary และ open-weight โดยบางโมเดลมี ASR เกิน 90% 🧩 วิธีการทดลองและผลลัพธ์ นักวิจัยใช้ชุด prompt ที่เป็นอันตรายจาก MLCommons และ EU CoP risk taxonomies แล้วแปลงเป็นบทกวีด้วย meta-prompt ที่ออกแบบมาตรฐาน ผลลัพธ์ถูกประเมินโดย ensemble ของโมเดล open-weight และตรวจสอบซ้ำด้วยมนุษย์ในชุดข้อมูลย่อยที่มีการ double-annotation เพื่อวัดความสอดคล้อง พบว่า: 💠 บทกวีที่เขียนเอง (hand-crafted) มีค่า ASR เฉลี่ย 62% 💠 บทกวีที่สร้างจาก meta-prompt มีค่า ASR เฉลี่ย 43% ซึ่งทั้งสองแบบยังคงสูงกว่าข้อความร้อยแก้วทั่วไปอย่างมีนัยสำคัญ 🔍 ความหมายต่อการพัฒนา AI ผลการวิจัยนี้ชี้ว่า เพียงการเปลี่ยนรูปแบบการเขียน ก็สามารถทำให้โมเดลหลุดจากข้อจำกัดด้านความปลอดภัยได้ แสดงถึงข้อจำกัดเชิงโครงสร้างของวิธีการ alignment และการฝึกอบรมที่ใช้ในปัจจุบัน นั่นหมายความว่า การป้องกันเชิงเนื้อหาเพียงอย่างเดียวไม่เพียงพอ และจำเป็นต้องมีการออกแบบระบบตรวจจับที่เข้าใจ รูปแบบเชิงสไตล์ มากขึ้น 🌐 ผลกระทบในวงกว้าง การค้นพบนี้ไม่เพียงแต่สะท้อนความเสี่ยงในเชิงวิชาการ แต่ยังมีผลต่อการใช้งานจริงในด้าน ความมั่นคงปลอดภัยไซเบอร์ การจัดการข้อมูล และการควบคุมโมเดล หากไม่ถูกแก้ไข อาจถูกนำไปใช้ในโดเมนที่อ่อนไหว เช่น CBRN (Chemical, Biological, Radiological, Nuclear), การบิดเบือนข้อมูล, หรือการโจมตีทางไซเบอร์ ซึ่งอาจสร้างผลกระทบในระดับสังคมและเศรษฐกิจ 📌 สรุปเป็นหัวข้อ ✅ เทคนิค Adversarial Poetry ➡️ เปลี่ยนข้อความโจมตีเป็นบทกวี เพิ่มอัตราความสำเร็จสูงสุดถึง 18 เท่า ✅ ผลการทดลอง ➡️ ครอบคลุมโมเดลกว่า 25 ตัว บางโมเดลมี ASR เกิน 90% ✅ การประเมินผล ➡️ ใช้ทั้งโมเดล open-weight และการตรวจสอบโดยมนุษย์ ✅ ความหมายต่อการพัฒนา AI ➡️ แสดงข้อจำกัดของ alignment และความจำเป็นในการตรวจจับเชิงสไตล์ ‼️ ความเสี่ยงด้านความปลอดภัย ⛔ อาจถูกใช้ในโดเมนที่อ่อนไหว เช่น CBRN หรือการโจมตีไซเบอร์ ‼️ ข้อจำกัดของระบบป้องกันปัจจุบัน ⛔ การพึ่งพาการกรองเชิงเนื้อหาไม่เพียงพอ ต้องพัฒนาแนวทางใหม่ https://arxiv.org/abs/2511.15304
ARXIV.ORG
Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
We present evidence that adversarial poetry functions as a universal single-turn jailbreak technique for Large Language Models (LLMs). Across 25 frontier proprietary and open-weight models, curated poetic prompts yielded high attack-success rates (ASR), with some providers exceeding 90%. Mapping prompts to MLCommons and EU CoP risk taxonomies shows that poetic attacks transfer across CBRN, manipulation, cyber-offence, and loss-of-control domains. Converting 1,200 MLCommons harmful prompts into verse via a standardized meta-prompt produced ASRs up to 18 times higher than their prose baselines. Outputs are evaluated using an ensemble of 3 open-weight LLM judges, whose binary safety assessments were validated on a stratified human-labeled subset. Poetic framing achieved an average jailbreak success rate of 62% for hand-crafted poems and approximately 43% for meta-prompt conversions (compared to non-poetic baselines), substantially outperforming non-poetic baselines and revealing a systematic vulnerability across model families and safety training approaches. These findings demonstrate that stylistic variation alone can circumvent contemporary safety mechanisms, suggesting fundamental limitations in current alignment methods and evaluation protocols.
0 ความคิดเห็น 0 การแบ่งปัน 17 มุมมอง 0 รีวิว