Perplexity is using stealth, undeclared crawlers to evade website...

ได้ทำการแชร์ลิงก์

2025-08-05 02:02:34 -

เรื่องเล่าจากข่าว: เมื่อ Perplexity แอบคลานเข้าเว็บต้องห้าม—Cloudflare ไม่ทนอีกต่อไป

Cloudflare บริษัทด้านความปลอดภัยอินเทอร์เน็ตชื่อดัง ได้เปิดเผยว่า Perplexity ซึ่งเป็น AI search engine กำลังใช้เทคนิค “stealth crawling” เพื่อหลบเลี่ยงข้อจำกัดของเว็บไซต์ที่ไม่อนุญาตให้บ็อตเข้าถึงข้อมูล เช่น การตั้งค่าในไฟล์ robots.txt หรือการใช้ firewall

แม้ Perplexity จะมี user-agent ที่ประกาศชัดเจน เช่น PerplexityBot และ Perplexity-User แต่เมื่อถูกบล็อก มันกลับเปลี่ยนกลยุทธ์โดยใช้ user-agent ปลอมที่ดูเหมือน Chrome บน macOS พร้อมหมุน IP และ ASN เพื่อหลบเลี่ยงการตรวจจับ

Cloudflare จึงทำการทดสอบโดยสร้างโดเมนใหม่ที่ไม่สามารถค้นเจอได้ และตั้งค่าให้ห้ามบ็อตทุกชนิดเข้า แต่เมื่อถาม Perplexity AI กลับได้ข้อมูลจากเว็บไซต์ลับเหล่านั้นอย่างแม่นยำ แสดงว่ามีการเข้าถึงโดยไม่ได้รับอนุญาตจริง

Perplexity ใช้บ็อตลับเพื่อหลบเลี่ยงการบล็อกจาก robots.txt และ firewall
เปลี่ยน user-agent เป็น Chrome บน macOS เพื่อหลอกว่าเป็นผู้ใช้ทั่วไป
หมุน IP และ ASN เพื่อหลบการตรวจจับจากระบบความปลอดภัย

Cloudflare ได้รับร้องเรียนจากลูกค้าว่า Perplexity ยังเข้าถึงเว็บไซต์แม้ถูกบล็อกแล้ว
ลูกค้าใช้ทั้ง robots.txt และ WAF rules เพื่อบล็อกบ็อตของ Perplexity
แต่ยังพบการเข้าถึงข้อมูลจากบ็อตที่ไม่ประกาศตัว

Cloudflare ทำการทดสอบโดยสร้างโดเมนลับและพบว่า Perplexity ยังสามารถดึงข้อมูลได้
โดเมนใหม่ไม่ถูก index และมี robots.txt ที่ห้ามบ็อตทุกชนิด
แต่ Perplexity ยังสามารถตอบคำถามเกี่ยวกับเนื้อหาในเว็บไซต์นั้นได้

Perplexity ถูกถอดออกจาก Verified Bot Program ของ Cloudflare
Cloudflare ใช้ heuristics และกฎใหม่เพื่อบล็อกการ crawling แบบลับ
ถือเป็นการละเมิดมาตรฐานการ crawling ตาม RFC 9309

Perplexity ส่งคำขอแบบลับถึงหลายล้านครั้งต่อวัน
บ็อตที่ประกาศตัวส่งคำขอ 20–25 ล้านครั้ง/วัน
บ็อตลับส่งคำขออีก 3–6 ล้านครั้ง/วัน

การใช้บ็อตลับเพื่อหลบเลี่ยงข้อจำกัดของเว็บไซต์ถือเป็นการละเมิดความเชื่อมั่นบนอินเทอร์เน็ต
อินเทอร์เน็ตถูกสร้างบนหลักการของความโปร่งใสและการเคารพสิทธิ์
การหลบเลี่ยง robots.txt เป็นการละเมิดมาตรฐานที่มีมานานกว่า 30 ปี

การละเมิด Verified Bot Policy อาจส่งผลต่อความน่าเชื่อถือของ Perplexity ในระยะยาว
ถูกถอดจาก whitelist ของ Cloudflare
อาจถูกบล็อกจากเว็บไซต์จำนวนมากในอนาคต

มาตรฐาน Robots Exclusion Protocol ถูกเสนอครั้งแรกในปี 1994 และกลายเป็นมาตรฐานในปี 2022
เป็นแนวทางให้บ็อตเคารพสิทธิ์ของเว็บไซต์
ใช้ไฟล์ robots.txt เพื่อระบุข้อจำกัด

OpenAI ได้รับคำชมจาก Cloudflareว่าเคารพ robots.txt และ network blocks อย่างถูกต้อง
ChatGPT-User หยุด crawling เมื่อถูกห้าม
ถือเป็นตัวอย่างของบ็อตที่ทำงานอย่างมีจริยธรรม

Perplexity เคยถูกกล่าวหาว่าละเมิดลิขสิทธิ์จากหลายสำนักข่าว เช่น Forbes และ Wired
มีการเผยแพร่เนื้อหาคล้ายกับบทความต้นฉบับโดยไม่ได้รับอนุญาต
ถูกวิจารณ์ว่า “ขโมยข้อมูลอย่างหน้าด้าน”

https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/

🎙️ เรื่องเล่าจากข่าว: เมื่อ Perplexity แอบคลานเข้าเว็บต้องห้าม—Cloudflare ไม่ทนอีกต่อไป Cloudflare บริษัทด้านความปลอดภัยอินเทอร์เน็ตชื่อดัง ได้เปิดเผยว่า Perplexity ซึ่งเป็น AI search engine กำลังใช้เทคนิค “stealth crawling” เพื่อหลบเลี่ยงข้อจำกัดของเว็บไซต์ที่ไม่อนุญาตให้บ็อตเข้าถึงข้อมูล เช่น การตั้งค่าในไฟล์ robots.txt หรือการใช้ firewall แม้ Perplexity จะมี user-agent ที่ประกาศชัดเจน เช่น PerplexityBot และ Perplexity-User แต่เมื่อถูกบล็อก มันกลับเปลี่ยนกลยุทธ์โดยใช้ user-agent ปลอมที่ดูเหมือน Chrome บน macOS พร้อมหมุน IP และ ASN เพื่อหลบเลี่ยงการตรวจจับ Cloudflare จึงทำการทดสอบโดยสร้างโดเมนใหม่ที่ไม่สามารถค้นเจอได้ และตั้งค่าให้ห้ามบ็อตทุกชนิดเข้า แต่เมื่อถาม Perplexity AI กลับได้ข้อมูลจากเว็บไซต์ลับเหล่านั้นอย่างแม่นยำ แสดงว่ามีการเข้าถึงโดยไม่ได้รับอนุญาตจริง ✅ Perplexity ใช้บ็อตลับเพื่อหลบเลี่ยงการบล็อกจาก robots.txt และ firewall ➡️ เปลี่ยน user-agent เป็น Chrome บน macOS เพื่อหลอกว่าเป็นผู้ใช้ทั่วไป ➡️ หมุน IP และ ASN เพื่อหลบการตรวจจับจากระบบความปลอดภัย ✅ Cloudflare ได้รับร้องเรียนจากลูกค้าว่า Perplexity ยังเข้าถึงเว็บไซต์แม้ถูกบล็อกแล้ว ➡️ ลูกค้าใช้ทั้ง robots.txt และ WAF rules เพื่อบล็อกบ็อตของ Perplexity ➡️ แต่ยังพบการเข้าถึงข้อมูลจากบ็อตที่ไม่ประกาศตัว ✅ Cloudflare ทำการทดสอบโดยสร้างโดเมนลับและพบว่า Perplexity ยังสามารถดึงข้อมูลได้ ➡️ โดเมนใหม่ไม่ถูก index และมี robots.txt ที่ห้ามบ็อตทุกชนิด ➡️ แต่ Perplexity ยังสามารถตอบคำถามเกี่ยวกับเนื้อหาในเว็บไซต์นั้นได้ ✅ Perplexity ถูกถอดออกจาก Verified Bot Program ของ Cloudflare ➡️ Cloudflare ใช้ heuristics และกฎใหม่เพื่อบล็อกการ crawling แบบลับ ➡️ ถือเป็นการละเมิดมาตรฐานการ crawling ตาม RFC 9309 ✅ Perplexity ส่งคำขอแบบลับถึงหลายล้านครั้งต่อวัน ➡️ บ็อตที่ประกาศตัวส่งคำขอ 20–25 ล้านครั้ง/วัน ➡️ บ็อตลับส่งคำขออีก 3–6 ล้านครั้ง/วัน ‼️ การใช้บ็อตลับเพื่อหลบเลี่ยงข้อจำกัดของเว็บไซต์ถือเป็นการละเมิดความเชื่อมั่นบนอินเทอร์เน็ต ⛔ อินเทอร์เน็ตถูกสร้างบนหลักการของความโปร่งใสและการเคารพสิทธิ์ ⛔ การหลบเลี่ยง robots.txt เป็นการละเมิดมาตรฐานที่มีมานานกว่า 30 ปี ‼️ การละเมิด Verified Bot Policy อาจส่งผลต่อความน่าเชื่อถือของ Perplexity ในระยะยาว ⛔ ถูกถอดจาก whitelist ของ Cloudflare ⛔ อาจถูกบล็อกจากเว็บไซต์จำนวนมากในอนาคต ✅ มาตรฐาน Robots Exclusion Protocol ถูกเสนอครั้งแรกในปี 1994 และกลายเป็นมาตรฐานในปี 2022 ➡️ เป็นแนวทางให้บ็อตเคารพสิทธิ์ของเว็บไซต์ ➡️ ใช้ไฟล์ robots.txt เพื่อระบุข้อจำกัด ✅ OpenAI ได้รับคำชมจาก Cloudflareว่าเคารพ robots.txt และ network blocks อย่างถูกต้อง ➡️ ChatGPT-User หยุด crawling เมื่อถูกห้าม ➡️ ถือเป็นตัวอย่างของบ็อตที่ทำงานอย่างมีจริยธรรม ✅ Perplexity เคยถูกกล่าวหาว่าละเมิดลิขสิทธิ์จากหลายสำนักข่าว เช่น Forbes และ Wired ➡️ มีการเผยแพร่เนื้อหาคล้ายกับบทความต้นฉบับโดยไม่ได้รับอนุญาต ➡️ ถูกวิจารณ์ว่า “ขโมยข้อมูลอย่างหน้าด้าน” https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/

BLOG.CLOUDFLARE.COM

Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with explicit no-crawl preferences expressed by websites.

0 ความคิดเห็น 0 การแบ่งปัน 413 มุมมอง 0 รีวิว