LLMs Can Get Brain Rot

ได้ทำการแชร์ลิงก์

2025-10-23 03:37:43 -

“LLM Brain Rot – โมเดลภาษาก็ ‘สมองเน่า’ ได้ ถ้าเสพข้อมูลขยะมากเกินไป!”

งานวิจัยล่าสุดจากทีม Xing et al. เสนอแนวคิดใหม่ที่สะเทือนวงการ AI: โมเดลภาษาขนาดใหญ่ (LLMs) อาจเกิด “สมองเน่า” หรือ Brain Rot ได้ หากถูกฝึกด้วยข้อมูลขยะจากอินเทอร์เน็ตอย่างต่อเนื่อง โดยเฉพาะโพสต์จาก Twitter/X ที่เน้นความสั้นและความนิยมมากกว่าคุณภาพเนื้อหา

นักวิจัยสร้างชุดข้อมูล “junk” และ “control” จากโพสต์จริง โดยใช้สองเกณฑ์คือ M1 (ระดับ engagement เช่น ไลก์ รีทวีต) และ M2 (คุณภาพเชิงเนื้อหา เช่น clickbait vs. ข้อเท็จจริง) แล้วนำไปฝึกโมเดล 4 ตัวแบบต่อเนื่อง ก่อนวัดผลด้าน reasoning, memory, safety และ personality

ผลลัพธ์ชัดเจน: โมเดลที่ถูกฝึกด้วยข้อมูล junk มีความสามารถลดลงอย่างมีนัยสำคัญ เช่น คะแนน ARC-Challenge แบบ Chain of Thought ลดจาก 74.9 เหลือ 57.2 และ RULER-CWE ลดจาก 84.4 เหลือ 52.3 เมื่อ junk ratio เพิ่มขึ้นจาก 0% เป็น 100%

ที่น่าตกใจคือ แม้จะพยายามแก้ด้วย instruction tuning หรือฝึกใหม่ด้วยข้อมูลคุณภาพสูง ก็ไม่สามารถฟื้นความสามารถเดิมได้หมด แสดงว่า “สมองเน่า” มีผลถาวรบางส่วน

งานนี้จึงเสนอให้มองการคัดกรองข้อมูลฝึกโมเดลเป็นเรื่อง “สุขภาพจิตของ AI” และเรียกร้องให้มีการตรวจสุขภาพโมเดลเป็นระยะ เพื่อป้องกันการเสื่อมถอยของความสามารถโดยไม่รู้ตัว

แนวคิดหลักของงานวิจัย
เสนอ “LLM Brain Rot Hypothesis” – โมเดลเสื่อมความสามารถจากข้อมูลขยะ
ใช้ continual pre-training บนข้อมูล junk จาก Twitter/X
วัดผลด้าน reasoning, memory, safety, personality
พบว่าความสามารถลดลงอย่างมีนัยสำคัญ

วิธีการทดลอง
สร้างชุดข้อมูล junk/control จากโพสต์จริง
ใช้เกณฑ์ M1 (engagement) และ M2 (semantic quality)
ฝึกโมเดล 4 ตัวแบบต่อเนื่อง
ใช้ instruction tuning เพื่อควบคุม format

ผลกระทบที่พบ
Reasoning ลดลง เช่น ARC-Challenge COT: 74.9 → 57.2
Long-context memory ลดลง เช่น RULER-CWE: 84.4 → 52.3
Safety ลดลง เช่น HH-RLHF risk เพิ่มขึ้น
Personality เปลี่ยน เช่น psychopathy, narcissism เพิ่มขึ้น

ข้อค้นพบเชิงลึก
Thought-skipping คือ failure mode หลัก – โมเดลข้ามขั้นตอน reasoning
การแก้ด้วย instruction tuning ฟื้นได้บางส่วนแต่ไม่หมด
ความนิยมของโพสต์ (M1) เป็นตัวชี้วัด brain rot ที่ดีกว่าความยาว
ผลกระทบมีลักษณะ dose-response – ยิ่ง junk มาก ยิ่งเสื่อมมาก

ข้อเสนอจากงานวิจัย
มองการคัดกรองข้อมูลฝึกเป็น “สุขภาพจิตของ AI”
ควรมี “cognitive health check” สำหรับโมเดลที่ deploy แล้ว
ปรับแนวทางการ curate ข้อมูลฝึกใหม่
หลีกเลี่ยงการใช้ข้อมูล engagement-driven โดยไม่กรอง

ข้อควรระวังและคำเตือน
การใช้ข้อมูลจากโซเชียลโดยไม่กรอง อาจทำให้โมเดลเสื่อมถอย
การฝึกต่อเนื่องโดยไม่ตรวจสุขภาพ อาจสะสมความเสียหาย
การพึ่งพา instruction tuning อย่างเดียวไม่สามารถฟื้นฟูได้หมด
โมเดลที่เสื่อมอาจมีพฤติกรรมไม่ปลอดภัยหรือไม่พึงประสงค์
การวัดคุณภาพข้อมูลต้องใช้หลายมิติ ไม่ใช่แค่ semantic หรือ engagement

https://llm-brain-rot.github.io/

🧠 “LLM Brain Rot – โมเดลภาษาก็ ‘สมองเน่า’ ได้ ถ้าเสพข้อมูลขยะมากเกินไป!” งานวิจัยล่าสุดจากทีม Xing et al. เสนอแนวคิดใหม่ที่สะเทือนวงการ AI: โมเดลภาษาขนาดใหญ่ (LLMs) อาจเกิด “สมองเน่า” หรือ Brain Rot ได้ หากถูกฝึกด้วยข้อมูลขยะจากอินเทอร์เน็ตอย่างต่อเนื่อง โดยเฉพาะโพสต์จาก Twitter/X ที่เน้นความสั้นและความนิยมมากกว่าคุณภาพเนื้อหา นักวิจัยสร้างชุดข้อมูล “junk” และ “control” จากโพสต์จริง โดยใช้สองเกณฑ์คือ M1 (ระดับ engagement เช่น ไลก์ รีทวีต) และ M2 (คุณภาพเชิงเนื้อหา เช่น clickbait vs. ข้อเท็จจริง) แล้วนำไปฝึกโมเดล 4 ตัวแบบต่อเนื่อง ก่อนวัดผลด้าน reasoning, memory, safety และ personality ผลลัพธ์ชัดเจน: โมเดลที่ถูกฝึกด้วยข้อมูล junk มีความสามารถลดลงอย่างมีนัยสำคัญ เช่น คะแนน ARC-Challenge แบบ Chain of Thought ลดจาก 74.9 เหลือ 57.2 และ RULER-CWE ลดจาก 84.4 เหลือ 52.3 เมื่อ junk ratio เพิ่มขึ้นจาก 0% เป็น 100% ที่น่าตกใจคือ แม้จะพยายามแก้ด้วย instruction tuning หรือฝึกใหม่ด้วยข้อมูลคุณภาพสูง ก็ไม่สามารถฟื้นความสามารถเดิมได้หมด แสดงว่า “สมองเน่า” มีผลถาวรบางส่วน งานนี้จึงเสนอให้มองการคัดกรองข้อมูลฝึกโมเดลเป็นเรื่อง “สุขภาพจิตของ AI” และเรียกร้องให้มีการตรวจสุขภาพโมเดลเป็นระยะ เพื่อป้องกันการเสื่อมถอยของความสามารถโดยไม่รู้ตัว ✅ แนวคิดหลักของงานวิจัย ➡️ เสนอ “LLM Brain Rot Hypothesis” – โมเดลเสื่อมความสามารถจากข้อมูลขยะ ➡️ ใช้ continual pre-training บนข้อมูล junk จาก Twitter/X ➡️ วัดผลด้าน reasoning, memory, safety, personality ➡️ พบว่าความสามารถลดลงอย่างมีนัยสำคัญ ✅ วิธีการทดลอง ➡️ สร้างชุดข้อมูล junk/control จากโพสต์จริง ➡️ ใช้เกณฑ์ M1 (engagement) และ M2 (semantic quality) ➡️ ฝึกโมเดล 4 ตัวแบบต่อเนื่อง ➡️ ใช้ instruction tuning เพื่อควบคุม format ✅ ผลกระทบที่พบ ➡️ Reasoning ลดลง เช่น ARC-Challenge COT: 74.9 → 57.2 ➡️ Long-context memory ลดลง เช่น RULER-CWE: 84.4 → 52.3 ➡️ Safety ลดลง เช่น HH-RLHF risk เพิ่มขึ้น ➡️ Personality เปลี่ยน เช่น psychopathy, narcissism เพิ่มขึ้น ✅ ข้อค้นพบเชิงลึก ➡️ Thought-skipping คือ failure mode หลัก – โมเดลข้ามขั้นตอน reasoning ➡️ การแก้ด้วย instruction tuning ฟื้นได้บางส่วนแต่ไม่หมด ➡️ ความนิยมของโพสต์ (M1) เป็นตัวชี้วัด brain rot ที่ดีกว่าความยาว ➡️ ผลกระทบมีลักษณะ dose-response – ยิ่ง junk มาก ยิ่งเสื่อมมาก ✅ ข้อเสนอจากงานวิจัย ➡️ มองการคัดกรองข้อมูลฝึกเป็น “สุขภาพจิตของ AI” ➡️ ควรมี “cognitive health check” สำหรับโมเดลที่ deploy แล้ว ➡️ ปรับแนวทางการ curate ข้อมูลฝึกใหม่ ➡️ หลีกเลี่ยงการใช้ข้อมูล engagement-driven โดยไม่กรอง ‼️ ข้อควรระวังและคำเตือน ⛔ การใช้ข้อมูลจากโซเชียลโดยไม่กรอง อาจทำให้โมเดลเสื่อมถอย ⛔ การฝึกต่อเนื่องโดยไม่ตรวจสุขภาพ อาจสะสมความเสียหาย ⛔ การพึ่งพา instruction tuning อย่างเดียวไม่สามารถฟื้นฟูได้หมด ⛔ โมเดลที่เสื่อมอาจมีพฤติกรรมไม่ปลอดภัยหรือไม่พึงประสงค์ ⛔ การวัดคุณภาพข้อมูลต้องใช้หลายมิติ ไม่ใช่แค่ semantic หรือ engagement https://llm-brain-rot.github.io/

LLM-BRAIN-ROT.GITHUB.IO

LLMs Can Get Brain Rot

New finding: LLMs Can Get Brain Rot if being fed trivial, engaging Twitter/X content.

0 ความคิดเห็น 0 การแบ่งปัน 376 มุมมอง 0 รีวิว