เรื่องเล่าจากความตั้งใจล้วน ๆ: สร้างเว็บเสิร์ชเอนจินจากศูนย์ใน 2 เดือน ด้วย embedding 3 พันล้านรายการ
Wilson Lin นักพัฒนาสายเดี่ยวตัดสินใจท้าทายตัวเองด้วยโปรเจกต์สุดโหด—สร้างเว็บเสิร์ชเอนจินจากศูนย์ภายในเวลาแค่ 2 เดือน โดยไม่มีโครงสร้างพื้นฐาน ไม่มีทีม และไม่มีประสบการณ์ด้าน search engine มาก่อน จุดเริ่มต้นของเขาคือความไม่พอใจต่อเสิร์ชเอนจินปัจจุบันที่เต็มไปด้วย SEO spam และผลลัพธ์ที่ไม่ตรงกับความต้องการจริง
เขาเลือกใช้โมเดล SBERT เพื่อสร้าง neural embeddings กว่า 3 พันล้านรายการ โดยใช้ GPU ถึง 200 ตัว และสร้าง index จากหน้าเว็บกว่า 280 ล้านหน้า ด้วยระบบ crawler ที่สามารถดึงข้อมูลได้ถึง 50,000 หน้า/วินาที
ระบบ backend ใช้ RocksDB และ HNSW ที่ถูกแบ่ง shard บน 200 คอร์, RAM 4 TB และ SSD 82 TB โดยมี latency เฉลี่ยต่อคำค้นอยู่ที่ประมาณ 500 มิลลิวินาที
เขายังออกแบบระบบให้รองรับ query ที่ซับซ้อน เช่น “ฉันอยากใช้ S3 แทน Postgres แต่ต้องการ tag คอมเมนต์กับไฟล์ในอีก column” ซึ่ง search engine ทั่วไปไม่สามารถตอบได้ แต่ระบบของเขาสามารถเข้าใจบริบทและตอบได้อย่างแม่นยำ
Wilson Lin สร้างเว็บเสิร์ชเอนจินจากศูนย์ภายใน 2 เดือน
ใช้ GPU 200 ตัวสร้าง SBERT embeddings กว่า 3 พันล้านรายการ
ระบบ crawler ดึงข้อมูลได้ 50,000 หน้า/วินาที
สร้าง index จากหน้าเว็บกว่า 280 ล้านหน้า
ใช้ RocksDB และ HNSW บน 200 คอร์, RAM 4 TB, SSD 82 TB
latency เฉลี่ยต่อ query อยู่ที่ 500 มิลลิวินาที
รองรับ query ซับซ้อนที่ search engine ทั่วไปไม่เข้าใจ
เช่นคำถามที่มีบริบทหลายชั้นและความหมายแฝง
มีระบบ semantic context และ statement chaining เพื่อเข้าใจความหมาย
ช่วยให้ผลลัพธ์ตรงกับเจตนาของผู้ใช้มากขึ้น
เปิดให้ทดลองใช้งานผ่าน live demo
เป็นตัวอย่างของ search engine ที่ไม่พึ่ง keyword matching
Semantic search ใช้ vector embeddings เพื่อเข้าใจความหมายของข้อความ
ต่างจาก keyword search ที่จับคำตรงตัว
การสร้าง search engine ต้องใช้ความรู้หลายด้าน
เช่น NLP, ML, distributed systems, performance engineering
ระบบ semantic search สามารถเข้าใจความสัมพันธ์ระหว่างคำ
เช่น “dog” กับ “puppy” หรือ “laptop” กับ “computer”
การสร้าง golden dataset สำหรับ training เป็นความท้าทายใหญ่
เพราะต้องมีข้อมูลที่สะท้อนความหมายจริงของคำค้น
https://blog.wilsonl.in/search-engine/
Wilson Lin นักพัฒนาสายเดี่ยวตัดสินใจท้าทายตัวเองด้วยโปรเจกต์สุดโหด—สร้างเว็บเสิร์ชเอนจินจากศูนย์ภายในเวลาแค่ 2 เดือน โดยไม่มีโครงสร้างพื้นฐาน ไม่มีทีม และไม่มีประสบการณ์ด้าน search engine มาก่อน จุดเริ่มต้นของเขาคือความไม่พอใจต่อเสิร์ชเอนจินปัจจุบันที่เต็มไปด้วย SEO spam และผลลัพธ์ที่ไม่ตรงกับความต้องการจริง
เขาเลือกใช้โมเดล SBERT เพื่อสร้าง neural embeddings กว่า 3 พันล้านรายการ โดยใช้ GPU ถึง 200 ตัว และสร้าง index จากหน้าเว็บกว่า 280 ล้านหน้า ด้วยระบบ crawler ที่สามารถดึงข้อมูลได้ถึง 50,000 หน้า/วินาที
ระบบ backend ใช้ RocksDB และ HNSW ที่ถูกแบ่ง shard บน 200 คอร์, RAM 4 TB และ SSD 82 TB โดยมี latency เฉลี่ยต่อคำค้นอยู่ที่ประมาณ 500 มิลลิวินาที
เขายังออกแบบระบบให้รองรับ query ที่ซับซ้อน เช่น “ฉันอยากใช้ S3 แทน Postgres แต่ต้องการ tag คอมเมนต์กับไฟล์ในอีก column” ซึ่ง search engine ทั่วไปไม่สามารถตอบได้ แต่ระบบของเขาสามารถเข้าใจบริบทและตอบได้อย่างแม่นยำ
Wilson Lin สร้างเว็บเสิร์ชเอนจินจากศูนย์ภายใน 2 เดือน
ใช้ GPU 200 ตัวสร้าง SBERT embeddings กว่า 3 พันล้านรายการ
ระบบ crawler ดึงข้อมูลได้ 50,000 หน้า/วินาที
สร้าง index จากหน้าเว็บกว่า 280 ล้านหน้า
ใช้ RocksDB และ HNSW บน 200 คอร์, RAM 4 TB, SSD 82 TB
latency เฉลี่ยต่อ query อยู่ที่ 500 มิลลิวินาที
รองรับ query ซับซ้อนที่ search engine ทั่วไปไม่เข้าใจ
เช่นคำถามที่มีบริบทหลายชั้นและความหมายแฝง
มีระบบ semantic context และ statement chaining เพื่อเข้าใจความหมาย
ช่วยให้ผลลัพธ์ตรงกับเจตนาของผู้ใช้มากขึ้น
เปิดให้ทดลองใช้งานผ่าน live demo
เป็นตัวอย่างของ search engine ที่ไม่พึ่ง keyword matching
Semantic search ใช้ vector embeddings เพื่อเข้าใจความหมายของข้อความ
ต่างจาก keyword search ที่จับคำตรงตัว
การสร้าง search engine ต้องใช้ความรู้หลายด้าน
เช่น NLP, ML, distributed systems, performance engineering
ระบบ semantic search สามารถเข้าใจความสัมพันธ์ระหว่างคำ
เช่น “dog” กับ “puppy” หรือ “laptop” กับ “computer”
การสร้าง golden dataset สำหรับ training เป็นความท้าทายใหญ่
เพราะต้องมีข้อมูลที่สะท้อนความหมายจริงของคำค้น
https://blog.wilsonl.in/search-engine/
🔍🧠 เรื่องเล่าจากความตั้งใจล้วน ๆ: สร้างเว็บเสิร์ชเอนจินจากศูนย์ใน 2 เดือน ด้วย embedding 3 พันล้านรายการ
Wilson Lin นักพัฒนาสายเดี่ยวตัดสินใจท้าทายตัวเองด้วยโปรเจกต์สุดโหด—สร้างเว็บเสิร์ชเอนจินจากศูนย์ภายในเวลาแค่ 2 เดือน โดยไม่มีโครงสร้างพื้นฐาน ไม่มีทีม และไม่มีประสบการณ์ด้าน search engine มาก่อน จุดเริ่มต้นของเขาคือความไม่พอใจต่อเสิร์ชเอนจินปัจจุบันที่เต็มไปด้วย SEO spam และผลลัพธ์ที่ไม่ตรงกับความต้องการจริง
เขาเลือกใช้โมเดล SBERT เพื่อสร้าง neural embeddings กว่า 3 พันล้านรายการ โดยใช้ GPU ถึง 200 ตัว และสร้าง index จากหน้าเว็บกว่า 280 ล้านหน้า ด้วยระบบ crawler ที่สามารถดึงข้อมูลได้ถึง 50,000 หน้า/วินาที
ระบบ backend ใช้ RocksDB และ HNSW ที่ถูกแบ่ง shard บน 200 คอร์, RAM 4 TB และ SSD 82 TB โดยมี latency เฉลี่ยต่อคำค้นอยู่ที่ประมาณ 500 มิลลิวินาที
เขายังออกแบบระบบให้รองรับ query ที่ซับซ้อน เช่น “ฉันอยากใช้ S3 แทน Postgres แต่ต้องการ tag คอมเมนต์กับไฟล์ในอีก column” ซึ่ง search engine ทั่วไปไม่สามารถตอบได้ แต่ระบบของเขาสามารถเข้าใจบริบทและตอบได้อย่างแม่นยำ
✅ Wilson Lin สร้างเว็บเสิร์ชเอนจินจากศูนย์ภายใน 2 เดือน
➡️ ใช้ GPU 200 ตัวสร้าง SBERT embeddings กว่า 3 พันล้านรายการ
✅ ระบบ crawler ดึงข้อมูลได้ 50,000 หน้า/วินาที
➡️ สร้าง index จากหน้าเว็บกว่า 280 ล้านหน้า
✅ ใช้ RocksDB และ HNSW บน 200 คอร์, RAM 4 TB, SSD 82 TB
➡️ latency เฉลี่ยต่อ query อยู่ที่ 500 มิลลิวินาที
✅ รองรับ query ซับซ้อนที่ search engine ทั่วไปไม่เข้าใจ
➡️ เช่นคำถามที่มีบริบทหลายชั้นและความหมายแฝง
✅ มีระบบ semantic context และ statement chaining เพื่อเข้าใจความหมาย
➡️ ช่วยให้ผลลัพธ์ตรงกับเจตนาของผู้ใช้มากขึ้น
✅ เปิดให้ทดลองใช้งานผ่าน live demo
➡️ เป็นตัวอย่างของ search engine ที่ไม่พึ่ง keyword matching
✅ Semantic search ใช้ vector embeddings เพื่อเข้าใจความหมายของข้อความ
➡️ ต่างจาก keyword search ที่จับคำตรงตัว
✅ การสร้าง search engine ต้องใช้ความรู้หลายด้าน
➡️ เช่น NLP, ML, distributed systems, performance engineering
✅ ระบบ semantic search สามารถเข้าใจความสัมพันธ์ระหว่างคำ
➡️ เช่น “dog” กับ “puppy” หรือ “laptop” กับ “computer”
✅ การสร้าง golden dataset สำหรับ training เป็นความท้าทายใหญ่
➡️ เพราะต้องมีข้อมูลที่สะท้อนความหมายจริงของคำค้น
https://blog.wilsonl.in/search-engine/
0 ความคิดเห็น
0 การแบ่งปัน
45 มุมมอง
0 รีวิว