เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้
Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง
โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ
Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป
โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว
หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย
สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล
นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด
ข้อมูลพื้นฐานของ Apertus
พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL
มีสองขนาด: 8B และ 70B พารามิเตอร์
เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์
สถาปัตยกรรมและเทคนิคการเทรน
ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU
ใช้ optimizer AdEMAMix และ precision แบบ bfloat16
เทรนบน GPU GH200 จำนวน 4096 ตัว
ความสามารถด้านภาษาและความโปร่งใส
รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ
ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล
มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์
การใช้งานและการ deploy
รองรับ context ยาวถึง 65,536 token
ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX
มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป
การปฏิบัติตามกฎหมายและจริยธรรม
สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์
มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้
ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม
https://huggingface.co/swiss-ai/Apertus-70B-2509
Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง
โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ
Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป
โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว
หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย
สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล
นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด
ข้อมูลพื้นฐานของ Apertus
พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL
มีสองขนาด: 8B และ 70B พารามิเตอร์
เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์
สถาปัตยกรรมและเทคนิคการเทรน
ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU
ใช้ optimizer AdEMAMix และ precision แบบ bfloat16
เทรนบน GPU GH200 จำนวน 4096 ตัว
ความสามารถด้านภาษาและความโปร่งใส
รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ
ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล
มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์
การใช้งานและการ deploy
รองรับ context ยาวถึง 65,536 token
ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX
มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป
การปฏิบัติตามกฎหมายและจริยธรรม
สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์
มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้
ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม
https://huggingface.co/swiss-ai/Apertus-70B-2509
🎙️ เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้
Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง
โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ
Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป
โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว
หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย
สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล
นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด
✅ ข้อมูลพื้นฐานของ Apertus
➡️ พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL
➡️ มีสองขนาด: 8B และ 70B พารามิเตอร์
➡️ เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์
✅ สถาปัตยกรรมและเทคนิคการเทรน
➡️ ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU
➡️ ใช้ optimizer AdEMAMix และ precision แบบ bfloat16
➡️ เทรนบน GPU GH200 จำนวน 4096 ตัว
✅ ความสามารถด้านภาษาและความโปร่งใส
➡️ รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ
➡️ ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล
➡️ มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์
✅ การใช้งานและการ deploy
➡️ รองรับ context ยาวถึง 65,536 token
➡️ ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX
➡️ มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป
✅ การปฏิบัติตามกฎหมายและจริยธรรม
➡️ สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์
➡️ มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้
➡️ ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม
https://huggingface.co/swiss-ai/Apertus-70B-2509
0 Comments
0 Shares
2 Views
0 Reviews