ข้อมูลเบื้องต้นเกี่ยวกับ robots.txt
ไฟล์ robots.txt จะบอก Crawler ของเครื่องมือค้นหาว่า URL ใดในเว็บไซต์ที่ Crawler เข้ามาได้
ซึ่งโดยหลักจะใช้เพื่อหลีกเลี่ยงไม่ให้มีการส่งคำขอมากเกินไป แต่ไม่ได้ใช้เพื่อกันหน้าเว็บออกจาก Google หากต้องการกันหน้าเว็บออกจาก Google ให้บล็อกการจัดทำดัชนีด้วย noindex
หรือป้องกันหน้าเว็บด้วยรหัสผ่าน
ไฟล์ robots.txt ใช้ทําอะไร
ไฟล์ robots.txt ใช้เพื่อจัดการปริมาณการเข้ามาของ Crawler เป็นหลัก และโดยปกติจะใช้เพื่อกันไฟล์ออกจาก Google ทั้งนี้ขึ้นอยู่กับประเภทของไฟล์ ดังนี้
robots.txt มีผลกับไฟล์ประเภทต่างๆ | |
---|---|
หน้าเว็บ |
คุณสามารถใช้ไฟล์ robots.txt สําหรับหน้าเว็บ (HTML, PDF หรือรูปแบบที่ไม่ใช่สื่อรูปแบบอื่นๆ ที่ Google อ่านได้) เพื่อจัดการปริมาณการ Crawl ได้หากคิดว่า Crawler ของ Google จะส่งคำขอเซิร์ฟเวอร์มากเกินไป หรือเพื่อหลีกเลี่ยงก��ร Crawl ที่ไม่สำคัญหรือในหน้าเว็บที่คล้ายกันของเว็บไซต์ หากบล็อกหน้าเว็บด้วยไฟล์ robots.txt URL ของหน้าจะยังคงปรากฏในผลการค้นหาได้ แต่ผลการค้นหาจะไม่มีคำอธิบาย ไฟล์ภาพ, ไฟล์วิดีโอ, ไฟล์ PDF และไฟล์ที่ไม่ใช่ HTML อื่นๆ ที่ฝังอยู่ในหน้าที่ถูกบล็อกจะได้รับการยกเว้นจากการ Crawl ด้วย เว้นแต่หน้าเว็บอื่นๆ ที่ได้รับอนุญาตให้ทำการ Crawl ไว้ หากเห็นหน้าเว็บของคุณในผลการค้นหาลักษณะนี้และต้องการแก้ไข ให้ลบรายการ robots.txt ที่บล็อกหน้าดังกล่าว หากต้องการซ่อนหน้าเว็บจาก Search ไปเลย ให้ใช้วิธีการอื่น |
ไฟล์สื่อ |
ใช้ไฟล์ robots.txt เพื่อจัดการปริมาณการ Crawl และป้องกันไม่ให้ไฟล์ภาพ วิดีโอ และเสียงปรากฏในผลการค้นหาของ Google การทำเช่นนี้ไม่ได้ป้องกันไม่ให้หน้าเว็บหรือผู้ใช้อื่นๆ ลิงก์ไปยังไฟล์ภาพ วิดีโอ หรือเสียงนั้นๆ |
ไฟล์ทรัพยากร | คุณสามารถใช้ไฟล์ robots.txt บล็อกไฟล์ทรัพยากรต่างๆ ได้ เช่น รูปภาพที่ไม่สำคัญ สคริปต์ หรือไฟล์รูปแบบ หากคิดว่าหน้าที่โหลดโดยไม่มีทรัพยากรเหล่านี้จะไม่ได้รับผลกระทบอย่างชัดเจนจากการขาดไฟล์ดังกล่าว อย่างไรก็ตาม หากไม่มีทรัพยากรเหล่านี้แล้วทำให้ Crawler ของ Google เข้าใจหน้าเว็บได้ยากขึ้น ก็อย่าบล็อกทรัพยากรเหล่านี้ เพราะจะทำให้ Google วิเคราะห์หน้าเว็บที่ต้องอาศัยทรัพยากรเหล่านั้นได้ไม่ดีเท่าที่ควร |
ทําความเข้าใจเรื่องข้อจํากัดของไฟล์ robots.txt
ก่อนที่จะสร้างหรือแก้ไขไฟล์ robots.txt คุณควรรู้ถึงข้อจำกัดของการบล็อก URL ด้วยวิธีนี้ และอาจใช้กลไกอื่นๆ เพื่อให้แน่ใจว่า URL ของคุณจะค้นไม่เจอในเว็บ ทั้งนี้ขึ้นอยู่กับเป้าหมายและสถานการณ์ของคุณ
-
เครื่องมือค้นหาบางรายการอาจไม่รองรับกฎ robots.txt
คำสั่งในไฟล์ robots.txt ไม่อาจบังคับให้ Crawler ทำงานกับเว็บไซต์ของคุณตามต้องการ เพราะการทำตามคำสั่งจะขึ้นอยู่กับตัว Crawler นั้นเอง แม้ว่า Googlebot และ Web Crawler ที่เชื่อถือได้อื่นๆ จะทำตามคำสั่งในไฟล์ robots.txt แต่ Crawler อื่นๆ อาจไม่ทำตามก็ได้ ดังนั้น ถ้าต้องการเก็บข้อมูลให้ปลอดภัยจาก Web Crawler เราขอแนะนำให้ใช้วิธีบล็อกอื่นๆ เช่น การปกป้องไฟล์ส่วนตัวในเซิร์ฟเวอร์ของคุณด้วยรหัสผ่าน -
Crawler ที่แตกต่างกันจะตีความไวยากรณ์ต่างกัน
แม้ว่า Web Crawler ที่เชื่อถือได้จะทำตามกฎในไฟล์ robots.txt แต่ Crawler แต่ละโปรแกรมอาจตีความกฎแตกต่างกันได้ คุณควรทราบถึงไวยากรณ์ที่เหมาะสมเพื่อจัดการกับ Web Crawler แบบต่างๆ เนื่องจากบางโปรแกรมอาจไม่เข้าใจบางคำสั่ง -
หน้าที่ไม่ได้รับอนุญาตในไฟล์ robots.txt จะยังจัดทําดัชนีได้หากลิงก์มาจากเว็บไซต์อื่น
แม้ว่า Google จะไม่ท��การ Crawl หรือจัดทำดัชนีเนื้อหาที่ robots.txt บล็อกไว้ แต่เราก็อาจยังพบและจัดทำดัชนี URL ที่ไม่อนุญาตได้หากลิงก์มาจากที่อื่นๆ ในเว็บ ดังนั้น ที่อยู่ URL และอาจรวมถึงข้อมูลอื่นๆ ที่เผยแพร่ต่อสาธารณะ เช่น anchor text ในลิงก์ที่เชื่อมโยงไปยังหน้าอาจยังคงปรากฏในผลการค้นหาของ Google วิธีป้องกันที่ถูกต้องเพื่อไม่ให้ URL ปรากฏในผลการค้นหาของ Google คือการตั้งรหัสผ่านป้องกันไฟล์ในเซิร์ฟเวอร์ ใช้แท็กmeta
noindex
หรือส่วนหัวการตอบกลับ หรือนำหน้าดังกล่าวออกไปเลย
สร้างหรืออัปเดตไฟล์ robots.txt
โปรดดูวิธีสร้างไฟล์ robots.txt หากคุณคิดว่าจำเป็นต้องใช้ หรือหากมีไฟล์อัปเดตอยู่แล้ว ให้ดูวิธีอัปเดต
หากต้องการข้อมูลเพิ่มเติม ลองไปที่แหล่งข้อมูลต่อไปนี้