อย่าให้ Search Engine มาใกล้ฉัน.....
เป็นธรรมดาอยู่เอง ที่คนทำเว็บอยากให้เว็บของตนมีชื่ออยู่ใน Search Engine และหากเราไม่กำหนดเก็บเกณฑ์ให้ Search Engine ในการเข้ามาเก็บหน้าเว็บเพจของเราผลที่อาจเกิดขึ้นคือ การที่ Search Engine เก็บหน้่าเว็บเพจหรือไฟล์ที่เราไม่ต้องการให้เก็บเช่น เราอาจมีไฟล์ หรือ โฟลเดอร์ส่วนตัว หรือส่วนที่กันไว้สำหรับสมาชิก เป็นต้น ดังนั้น จึงได้มีการกำหนดวิธีที่ป้องกันไม่ให้ spider หรือ bot เข้ามาเก็บหน้าเว็บเพจต้องห้ามของเรา ( Spider หรือ Bot เป็นโปรแกรมของ Search Engine ที่ทำตัวเป็นนักค้นหาและท่องเว็บจากนั้นจะทำการบอกให้ ระบบ Search Engine Database ว่าควรเก็บหน้าเว็บเพจนั้นไว้หรือไม่ )
ผมเคยเขียนเรื่อง robots.txt ไว้ใน www.seo.in.th คัดมาให้อ่านกันครับ
ไฟล์ robots.txt
robots.txt เป็น fileที่บอก Search engine ว่า " ไม่ต้องมาเก็บเว็บไซต์ของฉัน หรือหน้าเว็บบางหน้า หรือไฟล์บางไฟล์ ในเว็บของฉันนะ ไป index หรือเก็บไว้ในสารระบบเว็บของเธอนะจ๊ะ " โดยเราสามารถสร้างไฟล์นี้โดยใช้ text editor อย่างเช่น notepad, editor plus หรือจะใช้ Dreamweaver หรือ โปรแกรมสร้างเว็บแบบ WYSWYG แล้ว save as เป็น Text File ก็ได้
คำสั่งใน robots.txt เป็นดั่งนี้
-----------------------------------------------------
User-agent: * ---> ใส่ชื่อ bot ที่ต้องการ เช่น User-agent: msnbot ก็บอก msn ว่าไม่ต้องมา index เว็บของฉัน แต่ใส่ถ้า * ก็หมายถึงทุก S/E ไม่ต้องมา index
Disallow: / ---> บรรทัดนี้ ใส่ ชื่อ folder หรือ ชื่อ file หรือ File extension ที่ไม่ต้องการให้ถูกเก็บไป index
-----------------------------------------------------
Case Study
สำหรับ robots.txt
-
ถ้าไม่ต้องการให้ S/E ทุกยี่ห้อมาเก็บเว็บไซต์ทั้งเว็บไป index ใช้ข้อความข้างล่าง
User-agent: *
Disallow: /
-
ถ้าต้องการให้ S/E เฉพาะบางยี่ห้อมาเก็บเว็บไซต์ไป index ใช้ข้อความข้างล่าง เช่น msn ,google
User-agent: Googlebot
User-agent: msnbot
Disallow: [สังเกตุว่า ไม่มีเครื่องหมายใดหลัง disallow:]
User-agent: *
Disallow: /
หมายเหตุ ---> ในทางกลับกัน ถ้าไม่ต้องการให้ googlebot หรือ MSNbot ก็สลับบรรทัดกันระหว่างบรรทัด * กับ User-agent: Googlebot / User-agent: msnbot
-
ถ้าในกรณีของ ไม่ต้องการให้เก็บ Folder / File หรือ บาง File Extension ก็
User-agent: *
Disallow: /folder
Disallow: /file.extension อาทิ disallow:/indexhome.php ก็ไม่ต้องเก็บไฟล์ indexhome.php หรือ disallow:/indexhome.php?id ก็ไม่ต้องเก็บไฟล์ indexhome.php?[เป็น case ของ dynamic page]
Disallow:/*.file extension$ อาทิ disallow:/*.jpg$ ก็ไม่ต้องเก็บไฟล์ ที่มีนามสกุล jpg$
-----------------------------------------------------------
เหตุผลหลักๆที่ต้องใส่ robots.txt ก็เพราะต้องการป้องกันไม่ให้ robot ของ S/E มาเก็บข้อมูลที่เราไม่ต้องการให้แสดงใน S/E นั้น ๆอาจมีเหตุผลมาจากใน file/folder นั้น เป็น ความลับหรือ restriction zone/Log-in required zone เป็นต้น
ตำแหน่งที่วางrobots.txt ไว้ก็คือ root folder ของเรา ดูภาพตัวอย่างซึ่งเป็นไฟล์ robots.txt ของ Amazon.com

อย่างไรก็ดี หากเราไม่ต้องการให้ Search Engine เก็บหน้าเว็บเพจของเราเพียงหน้าสองหน้า หรือ เป็นไฟล์ที่เพิ่มภายหลังจากที่เรามีไฟล์ robots.txt แล้วและเราไม่อยากเปิด robots.txt ขึ้นมาแก้ไขก็สามารถกำหนด Code ดังนี้ ลงไปในหน้าเว็บใหม่นั้นได้เลยโดยระหว่าง TAG <head></head>
=================================================
<META NAME="ชื่อ ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
=================================================
เช่น
<html>
<head>
<title>หน้านี้ไม่ต้องเก็บ</title>
<META NAME="Googlebot" CONTENT="NOINDEX,NOFOLLOW">
<META NAME="MSNbot" CONTENT="NOINDEX,NOFOLLOW">
</head>
ที่นี้ ผู้อ่านคงมองภาพออกแล้วนะครับว่าเรา จะกำหนดไม่้ให้ Search Engine เข้ามายุ่มย่ามในเขตหวงห้ามของเราอย่างไร โดย mr.diy-seo (29 ม.ค.2549)
หัวข้ออื่น ๆ
: บทความหน้านี้ในเว็บไซต์เป็นลิขสิทธิ์ของเจ้าของเว็บไซต์ Thinkandclick.com หากต้องการนำไปใช้เพื่อเผยแพร่ืีที่มิใช่เพื่อการค้า กรุณากรอกข้อมูลขอเรื่องที่หน้า contact us
ไม่อนุญาติีดัดแปลง/แก้ไขหรือ copy เพื่อนำไปใช้โดยหวังผลทางการค้าในทุกวิธี :
|
|