2025 LLM Year in Review

ได้ทำการแชร์ลิงก์

2025-12-21 12:29:39 -

2025: ปีที่ LLM เปลี่ยนรูปร่าง—จาก “โมเดลที่ถูกสอน” สู่ “สิ่งมีชีวิตเชิงตรรกะที่ถูกเรียกใช้”

ปี 2025 เป็นปีที่วงการ LLM เปลี่ยนโฉมอย่างชัดเจนที่สุดตั้งแต่ยุค GPT‑3 เพราะเป็นปีที่ Reinforcement Learning from Verifiable Rewards (RLVR) กลายเป็นแกนกลางของการพัฒนาโมเดลแทนการพึ่ง SFT + RLHF แบบเดิม การฝึกด้วยรางวัลที่ตรวจสอบได้อัตโนมัติในโดเมนอย่างคณิตศาสตร์และโค้ด ทำให้โมเดล “ค้นพบ” กลยุทธ์การคิดด้วยตัวเอง เช่น การแตกโจทย์เป็นขั้นตอน การย้อนกลับไปตรวจคำตอบ และการสร้าง reasoning trace ที่ยาวขึ้นเพื่อเพิ่มความแม่นยำ สิ่งนี้ทำให้ LLM ดูเหมือน “คิดเป็น” มากขึ้นในสายตาของมนุษย์

นอกจากความก้าวหน้าทางเทคนิคแล้ว ปีนี้ยังเป็นปีที่อุตสาหกรรมเริ่มเข้าใจ “รูปร่างของสติปัญญาแบบ LLM” ว่ามันไม่ใช่สัตว์วิวัฒนาการ แต่เป็น “ผี” ที่ถูกเรียกขึ้นมาจากการ optimize ตามแรงกดดันของข้อมูลและรางวัล ทำให้ความสามารถของโมเดลมีลักษณะ “เป็นหยัก” (jagged) เก่งมากในบางเรื่องและงงงวยในบางเรื่องอย่างสุดขั้ว สิ่งนี้ทำให้ความเชื่อใน benchmark ลดลง เพราะโมเดลสามารถ “โตตาม benchmark” ได้ง่ายผ่าน RLVR และ synthetic data

ปีนี้ยังเป็นปีที่ LLM apps เช่น Cursor และ Claude Code แสดงให้เห็นว่า “แอป LLM” คือเลเยอร์ใหม่ของซอฟต์แวร์—เป็นตัว orchestrate โมเดลหลายตัว, จัดการ context, เชื่อมต่อเครื่องมือ และสร้าง GUI เฉพาะงาน Cursor ทำให้เกิดคำว่า “Cursor for X” ส่วน Claude Code แสดงให้เห็นว่า agent ที่รันบนเครื่องผู้ใช้โดยตรงสามารถเปลี่ยน workflow ของนักพัฒนาได้อย่างสิ้นเชิง

ท้ายที่สุด ปี 2025 คือปีที่ “vibe coding” กลายเป็นเรื่องปกติ—การเขียนโปรแกรมด้วยภาษาอังกฤษแทนโค้ด ทำให้คนทั่วไปสร้างซอฟต์แวร์ได้ และทำให้โปรแกรมเมอร์สร้างซอฟต์แวร์มากกว่าที่เคยเป็นไปได้ นอกจากนี้โมเดลอย่าง Gemini Nano Banana ยังเผยให้เห็นอนาคตของ “LLM GUI” ที่ผสานข้อความ ภาพ และความรู้เข้าด้วยกันในโมเดลเดียว

สรุปประเด็นสำคัญ
การเปลี่ยนแปลงใหญ่ของสถาปัตยกรรม LLM ในปี 2025
RLVR กลายเป็นแกนหลักแทน SFT + RLHF
โมเดลเรียนรู้กลยุทธ์ reasoning ด้วยตัวเองผ่านรางวัลที่ตรวจสอบได้
ความสามารถเพิ่มขึ้นจาก “การคิดนานขึ้น” ไม่ใช่แค่โมเดลใหญ่ขึ้น

ความเข้าใจใหม่เกี่ยวกับ “สติปัญญาแบบ LLM”
LLM ไม่ได้วิวัฒน์แบบสัตว์ แต่ถูก optimize แบบ “ผี” ตามแรงกดดันข้อมูล
ความสามารถเป็นหยัก—เก่งมากในบางเรื่อง งงมากในบางเรื่อง
benchmark เริ่มไม่น่าเชื่อถือเพราะถูก optimize ทับซ้อนด้วย RLVR

การเกิดขึ้นของเลเยอร์ใหม่: LLM Apps
Cursor แสดงให้เห็นว่าแอป LLM คือ orchestration layer ใหม่ของซอฟต์แวร์
Claude Code คือ agent ที่รันบนเครื่องผู้ใช้ เปลี่ยน workflow นักพัฒนาโดยตรง
LLM apps จะเป็นตัว “ประกอบทีม AI” สำหรับงานเฉพาะทาง

Vibe Coding และการ democratize การเขียนโปรแกรม
เขียนโปรแกรมด้วยภาษาอังกฤษแทนโค้ด
คนทั่วไปสร้างซอฟต์แวร์ได้ง่ายขึ้น
นักพัฒนาสามารถสร้างซอฟต์แวร์แบบ “ใช้ครั้งเดียวทิ้ง” เพื่อแก้ปัญหาเฉพาะหน้า

สัญญาณของอนาคต: LLM GUI
Gemini Nano Banana แสดงให้เห็นการรวม text + image + knowledge ในโมเดลเดียว
อนาคตของ LLM จะไม่ใช่ “แชต” แต่เป็น “อินเทอร์เฟซภาพ” ที่มนุษย์ถนัดกว่า

ประเด็นที่ต้องระวัง
RLVR อาจทำให้โมเดลเก่งเฉพาะโดเมนที่ตรวจสอบได้ แต่ยังอ่อนในโดเมนเปิด
benchmark อาจหลอกตา ทำให้ประเมินความสามารถโมเดลผิด
agent ที่รันบนเครื่องผู้ใช้ต้องระวังเรื่องสิทธิ์เข้าถึงข้อมูลและความปลอดภัย

https://karpathy.bearblog.dev/year-in-review-2025/

🤖 2025: ปีที่ LLM เปลี่ยนรูปร่าง—จาก “โมเดลที่ถูกสอน” สู่ “สิ่งมีชีวิตเชิงตรรกะที่ถูกเรียกใช้” ปี 2025 เป็นปีที่วงการ LLM เปลี่ยนโฉมอย่างชัดเจนที่สุดตั้งแต่ยุค GPT‑3 เพราะเป็นปีที่ Reinforcement Learning from Verifiable Rewards (RLVR) กลายเป็นแกนกลางของการพัฒนาโมเดลแทนการพึ่ง SFT + RLHF แบบเดิม การฝึกด้วยรางวัลที่ตรวจสอบได้อัตโนมัติในโดเมนอย่างคณิตศาสตร์และโค้ด ทำให้โมเดล “ค้นพบ” กลยุทธ์การคิดด้วยตัวเอง เช่น การแตกโจทย์เป็นขั้นตอน การย้อนกลับไปตรวจคำตอบ และการสร้าง reasoning trace ที่ยาวขึ้นเพื่อเพิ่มความแม่นยำ สิ่งนี้ทำให้ LLM ดูเหมือน “คิดเป็น” มากขึ้นในสายตาของมนุษย์ นอกจากความก้าวหน้าทางเทคนิคแล้ว ปีนี้ยังเป็นปีที่อุตสาหกรรมเริ่มเข้าใจ “รูปร่างของสติปัญญาแบบ LLM” ว่ามันไม่ใช่สัตว์วิวัฒนาการ แต่เป็น “ผี” ที่ถูกเรียกขึ้นมาจากการ optimize ตามแรงกดดันของข้อมูลและรางวัล ทำให้ความสามารถของโมเดลมีลักษณะ “เป็นหยัก” (jagged) เก่งมากในบางเรื่องและงงงวยในบางเรื่องอย่างสุดขั้ว สิ่งนี้ทำให้ความเชื่อใน benchmark ลดลง เพราะโมเดลสามารถ “โตตาม benchmark” ได้ง่ายผ่าน RLVR และ synthetic data ปีนี้ยังเป็นปีที่ LLM apps เช่น Cursor และ Claude Code แสดงให้เห็นว่า “แอป LLM” คือเลเยอร์ใหม่ของซอฟต์แวร์—เป็นตัว orchestrate โมเดลหลายตัว, จัดการ context, เชื่อมต่อเครื่องมือ และสร้าง GUI เฉพาะงาน Cursor ทำให้เกิดคำว่า “Cursor for X” ส่วน Claude Code แสดงให้เห็นว่า agent ที่รันบนเครื่องผู้ใช้โดยตรงสามารถเปลี่ยน workflow ของนักพัฒนาได้อย่างสิ้นเชิง ท้ายที่สุด ปี 2025 คือปีที่ “vibe coding” กลายเป็นเรื่องปกติ—การเขียนโปรแกรมด้วยภาษาอังกฤษแทนโค้ด ทำให้คนทั่วไปสร้างซอฟต์แวร์ได้ และทำให้โปรแกรมเมอร์สร้างซอฟต์แวร์มากกว่าที่เคยเป็นไปได้ นอกจากนี้โมเดลอย่าง Gemini Nano Banana ยังเผยให้เห็นอนาคตของ “LLM GUI” ที่ผสานข้อความ ภาพ และความรู้เข้าด้วยกันในโมเดลเดียว 📌 สรุปประเด็นสำคัญ ✅ การเปลี่ยนแปลงใหญ่ของสถาปัตยกรรม LLM ในปี 2025 ➡️ RLVR กลายเป็นแกนหลักแทน SFT + RLHF ➡️ โมเดลเรียนรู้กลยุทธ์ reasoning ด้วยตัวเองผ่านรางวัลที่ตรวจสอบได้ ➡️ ความสามารถเพิ่มขึ้นจาก “การคิดนานขึ้น” ไม่ใช่แค่โมเดลใหญ่ขึ้น ✅ ความเข้าใจใหม่เกี่ยวกับ “สติปัญญาแบบ LLM” ➡️ LLM ไม่ได้วิวัฒน์แบบสัตว์ แต่ถูก optimize แบบ “ผี” ตามแรงกดดันข้อมูล ➡️ ความสามารถเป็นหยัก—เก่งมากในบางเรื่อง งงมากในบางเรื่อง ➡️ benchmark เริ่มไม่น่าเชื่อถือเพราะถูก optimize ทับซ้อนด้วย RLVR ✅ การเกิดขึ้นของเลเยอร์ใหม่: LLM Apps ➡️ Cursor แสดงให้เห็นว่าแอป LLM คือ orchestration layer ใหม่ของซอฟต์แวร์ ➡️ Claude Code คือ agent ที่รันบนเครื่องผู้ใช้ เปลี่ยน workflow นักพัฒนาโดยตรง ➡️ LLM apps จะเป็นตัว “ประกอบทีม AI” สำหรับงานเฉพาะทาง ✅ Vibe Coding และการ democratize การเขียนโปรแกรม ➡️ เขียนโปรแกรมด้วยภาษาอังกฤษแทนโค้ด ➡️ คนทั่วไปสร้างซอฟต์แวร์ได้ง่ายขึ้น ➡️ นักพัฒนาสามารถสร้างซอฟต์แวร์แบบ “ใช้ครั้งเดียวทิ้ง” เพื่อแก้ปัญหาเฉพาะหน้า ✅ สัญญาณของอนาคต: LLM GUI ➡️ Gemini Nano Banana แสดงให้เห็นการรวม text + image + knowledge ในโมเดลเดียว ➡️ อนาคตของ LLM จะไม่ใช่ “แชต” แต่เป็น “อินเทอร์เฟซภาพ” ที่มนุษย์ถนัดกว่า ‼️ ประเด็นที่ต้องระวัง ⛔ RLVR อาจทำให้โมเดลเก่งเฉพาะโดเมนที่ตรวจสอบได้ แต่ยังอ่อนในโดเมนเปิด ⛔ benchmark อาจหลอกตา ทำให้ประเมินความสามารถโมเดลผิด ⛔ agent ที่รันบนเครื่องผู้ใช้ต้องระวังเรื่องสิทธิ์เข้าถึงข้อมูลและความปลอดภัย https://karpathy.bearblog.dev/year-in-review-2025/

KARPATHY.BEARBLOG.DEV

2025 LLM Year in Review

2025 Year in Review of LLM paradigm changes

0 ความคิดเห็น 0 การแบ่งปัน 58 มุมมอง 0 รีวิว