Titans + MIRAS: ก้าวใหม่ของความทรงจำระยะยาวใน AI

Google Research เปิดตัวสถาปัตยกรรม Titans และกรอบแนวคิด MIRAS เพื่อแก้ปัญหาการจัดการข้อมูลในลำดับยาวที่โมเดล Transformer แบบดั้งเดิมมักเจอข้อจำกัด เนื่องจากค่าใช้จ่ายในการคำนวณเพิ่มขึ้นอย่างมากเมื่อความยาวของ sequence ขยายตัว ทำให้ยากต่อการใช้งานในงานที่ต้องการการเข้าใจทั้งเอกสารหรือข้อมูลเชิงลึก เช่น การวิเคราะห์จีโนม

Titans ถูกออกแบบให้ผสมผสานความเร็วของ RNNs เข้ากับความแม่นยำของ Transformers โดยเพิ่มโมดูลความจำระยะยาวที่ทำงานเหมือน multi-layer perceptron (MLP) ซึ่งมีพลังในการสรุปข้อมูลจำนวนมากโดยไม่สูญเสียบริบทสำคัญ ขณะเดียวกัน MIRAS ทำหน้าที่เป็นกรอบทฤษฎีที่ช่วยให้โมเดลสามารถอัปเดตความจำได้แบบเรียลไทม์ โดยใช้แนวคิด “surprise metric” ในการเลือกเก็บข้อมูลที่สำคัญหรือผิดคาดเข้าสู่ความจำถาวร

จุดเด่นคือโมเดลไม่เพียงแต่เก็บข้อมูล แต่ยังสามารถ เรียนรู้ความสัมพันธ์และธีมหลัก ที่เชื่อมโยงข้อมูลต่างๆ ได้ทันที พร้อมทั้งมีระบบ momentum เพื่อเก็บข้อมูลที่เกี่ยวข้องต่อเนื่อง และ forgetting gate เพื่อจัดการความจำที่มีขีดจำกัด

MIRAS ยังนำเสนอการมองใหม่ต่อ sequence modeling โดยมองว่าโมเดลทุกแบบคือการออกแบบหน่วยความจำเชิงสัมพันธ์ (associative memory) ที่ต้องหาสมดุลระหว่างการเรียนรู้ใหม่กับการรักษาความรู้เดิม ทำให้สามารถสร้างสถาปัตยกรรมใหม่ที่มีความยืดหยุ่นและทรงพลังมากขึ้น เช่น YAAD, MONETA และ MEMORA ซึ่งถูกพัฒนาขึ้นเพื่อทดสอบแนวทางการจัดการความจำที่แตกต่างกัน

ผลการทดลองแสดงว่า Titans และ MIRAS variants สามารถทำงานได้ดีกว่าโมเดลล้ำสมัยอื่นๆ เช่น Transformer++ และ Mamba-2 โดยเฉพาะในงานที่ต้องใช้ long-context reasoning เช่นการประมวลผลเอกสารที่มีข้อมูลยาวกว่า 2 ล้าน tokens ซึ่ง Titans สามารถทำงานได้แม่นยำและมีประสิทธิภาพสูงกว่าแม้เทียบกับโมเดลขนาดใหญ่เช่น GPT-4

สรุปประเด็นสำคัญ
Titans Architecture
เพิ่มโมดูลความจำระยะยาวแบบ MLP เพื่อสรุปข้อมูลจำนวนมากโดยไม่สูญเสียบริบท

MIRAS Framework
กรอบทฤษฎีที่ช่วยให้โมเดลอัปเดตความจำแบบเรียลไทม์ด้วย “surprise metric”

กลไกสำคัญ
Momentum สำหรับเก็บข้อมูลต่อเนื่อง และ Forgetting Gate สำหรับลบข้อมูลที่ไม่จำเป็น

โมเดลใหม่จาก MIRAS
YAAD, MONETA, MEMORA ถูกออกแบบเพื่อทดสอบแนวทางการจัดการความจำที่แตกต่างกัน

ผลการทดลอง
Titans และ MIRAS variants ทำงานได้ดีกว่า Transformer++ และ Mamba-2 ในงาน long-context reasoning

ข้อท้าทาย
การจัดการความจำที่มีขีดจำกัดยังต้องพึ่งกลไกการลืม (weight decay) เพื่อไม่ให้ระบบล้นข้อมูล

https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/
🧠 Titans + MIRAS: ก้าวใหม่ของความทรงจำระยะยาวใน AI Google Research เปิดตัวสถาปัตยกรรม Titans และกรอบแนวคิด MIRAS เพื่อแก้ปัญหาการจัดการข้อมูลในลำดับยาวที่โมเดล Transformer แบบดั้งเดิมมักเจอข้อจำกัด เนื่องจากค่าใช้จ่ายในการคำนวณเพิ่มขึ้นอย่างมากเมื่อความยาวของ sequence ขยายตัว ทำให้ยากต่อการใช้งานในงานที่ต้องการการเข้าใจทั้งเอกสารหรือข้อมูลเชิงลึก เช่น การวิเคราะห์จีโนม Titans ถูกออกแบบให้ผสมผสานความเร็วของ RNNs เข้ากับความแม่นยำของ Transformers โดยเพิ่มโมดูลความจำระยะยาวที่ทำงานเหมือน multi-layer perceptron (MLP) ซึ่งมีพลังในการสรุปข้อมูลจำนวนมากโดยไม่สูญเสียบริบทสำคัญ ขณะเดียวกัน MIRAS ทำหน้าที่เป็นกรอบทฤษฎีที่ช่วยให้โมเดลสามารถอัปเดตความจำได้แบบเรียลไทม์ โดยใช้แนวคิด “surprise metric” ในการเลือกเก็บข้อมูลที่สำคัญหรือผิดคาดเข้าสู่ความจำถาวร จุดเด่นคือโมเดลไม่เพียงแต่เก็บข้อมูล แต่ยังสามารถ เรียนรู้ความสัมพันธ์และธีมหลัก ที่เชื่อมโยงข้อมูลต่างๆ ได้ทันที พร้อมทั้งมีระบบ momentum เพื่อเก็บข้อมูลที่เกี่ยวข้องต่อเนื่อง และ forgetting gate เพื่อจัดการความจำที่มีขีดจำกัด MIRAS ยังนำเสนอการมองใหม่ต่อ sequence modeling โดยมองว่าโมเดลทุกแบบคือการออกแบบหน่วยความจำเชิงสัมพันธ์ (associative memory) ที่ต้องหาสมดุลระหว่างการเรียนรู้ใหม่กับการรักษาความรู้เดิม ทำให้สามารถสร้างสถาปัตยกรรมใหม่ที่มีความยืดหยุ่นและทรงพลังมากขึ้น เช่น YAAD, MONETA และ MEMORA ซึ่งถูกพัฒนาขึ้นเพื่อทดสอบแนวทางการจัดการความจำที่แตกต่างกัน ผลการทดลองแสดงว่า Titans และ MIRAS variants สามารถทำงานได้ดีกว่าโมเดลล้ำสมัยอื่นๆ เช่น Transformer++ และ Mamba-2 โดยเฉพาะในงานที่ต้องใช้ long-context reasoning เช่นการประมวลผลเอกสารที่มีข้อมูลยาวกว่า 2 ล้าน tokens ซึ่ง Titans สามารถทำงานได้แม่นยำและมีประสิทธิภาพสูงกว่าแม้เทียบกับโมเดลขนาดใหญ่เช่น GPT-4 📌 สรุปประเด็นสำคัญ ✅ Titans Architecture ➡️ เพิ่มโมดูลความจำระยะยาวแบบ MLP เพื่อสรุปข้อมูลจำนวนมากโดยไม่สูญเสียบริบท ✅ MIRAS Framework ➡️ กรอบทฤษฎีที่ช่วยให้โมเดลอัปเดตความจำแบบเรียลไทม์ด้วย “surprise metric” ✅ กลไกสำคัญ ➡️ Momentum สำหรับเก็บข้อมูลต่อเนื่อง และ Forgetting Gate สำหรับลบข้อมูลที่ไม่จำเป็น ✅ โมเดลใหม่จาก MIRAS ➡️ YAAD, MONETA, MEMORA ถูกออกแบบเพื่อทดสอบแนวทางการจัดการความจำที่แตกต่างกัน ✅ ผลการทดลอง ➡️ Titans และ MIRAS variants ทำงานได้ดีกว่า Transformer++ และ Mamba-2 ในงาน long-context reasoning ‼️ ข้อท้าทาย ⛔ การจัดการความจำที่มีขีดจำกัดยังต้องพึ่งกลไกการลืม (weight decay) เพื่อไม่ให้ระบบล้นข้อมูล https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/
0 ความคิดเห็น 0 การแบ่งปัน 46 มุมมอง 0 รีวิว