www.thinkandclick.com

Main Menu
Home
E-marketing News
E-Marketing Tips
Search Engine Marketing
email marketing
E-Marketer Interview
Internet Statistics
E-Marketing Tools
User Menu
About Us
Contact Us
Thinkandclick เวอร์ชั่นเดิม

อย่าให้ Search Engine มาใกล้ฉัน..... PDF พิมพ์ อีเมล์
ความนิยมของผู้ชม: / 0
แย่มากดีมาก 
เขียนโดย mr.diy-seo (29 ม.ค.2549)   

เป็นธรรมดาอยู่เอง ที่คนทำเว็บอยากให้เว็บของตนมีชื่ออยู่ใน Search Engine และหากเราไม่กำหนดเก็บเกณฑ์ให้ Search Engine ในการเข้ามาเก็บหน้าเว็บเพจของเราผลที่อาจเกิดขึ้นคือ การที่ Search Engine เก็บหน้่าเว็บเพจหรือไฟล์ที่เราไม่ต้องการให้เก็บเช่น เราอาจมีไฟล์ หรือ โฟลเดอร์ส่วนตัว หรือส่วนที่กันไว้สำหรับสมาชิก เป็นต้น ดังนั้น จึงได้มีการกำหนดวิธีที่ป้องกันไม่ให้ spider หรือ bot เข้ามาเก็บหน้าเว็บเพจต้องห้ามของเรา ( Spider หรือ Bot เป็นโปรแกรมของ Search Engine ที่ทำตัวเป็นนักค้นหาและท่องเว็บจากนั้นจะทำการบอกให้ ระบบ Search Engine Database ว่าควรเก็บหน้าเว็บเพจนั้นไว้หรือไม่ )

ผมเคยเขียนเรื่อง robots.txt ไว้ใน www.seo.in.th คัดมาให้อ่านกันครับ

ไฟล์ robots.txt

robots.txt เป็น fileที่บอก Search engine ว่า " ไม่ต้องมาเก็บเว็บไซต์ของฉัน หรือหน้าเว็บบางหน้า หรือไฟล์บางไฟล์ ในเว็บของฉันนะ ไป index หรือเก็บไว้ในสารระบบเว็บของเธอนะจ๊ะ " โดยเราสามารถสร้างไฟล์นี้โดยใช้ text editor อย่างเช่น notepad, editor plus หรือจะใช้ Dreamweaver หรือ โปรแกรมสร้างเว็บแบบ WYSWYG แล้ว save as เป็น Text File ก็ได้

คำสั่งใน robots.txt เป็นดั่งนี้
-----------------------------------------------------------------------------------------------------------------------------------------

User-agent: * ---> ใส่ชื่อ bot ที่ต้องการ เช่น User-agent: msnbot ก็บอก msn ว่าไม่ต้องมา index เว็บของฉัน แต่ใส่ถ้า * ก็หมายถึงทุก S/E ไม่ต้องมา index
Disallow: / ---> บรรทัดนี้ ใส่ ชื่อ folder หรือ ชื่อ file หรือ File extension ที่ไม่ต้องการให้ถูกเก็บไป index

-----------------------------------------------------------------------------------------------------------------------------------------

Case Study สำหรับ robots.txt

  1. ถ้าไม่ต้องการให้ S/E ทุกยี่ห้อมาเก็บเว็บไซต์ทั้งเว็บไป index ใช้ข้อความข้างล่าง
    User-agent: *
    Disallow: /

  2. ถ้าต้องการให้ S/E เฉพาะบางยี่ห้อมาเก็บเว็บไซต์ไป index ใช้ข้อความข้างล่าง เช่น msn ,google

    User-agent: Googlebot
    User-agent: msnbot
    Disallow: [สังเกตุว่า ไม่มีเครื่องหมายใดหลัง disallow:]

    User-agent: *
    Disallow: /

    หมายเหตุ ---> ในทางกลับกัน ถ้าไม่ต้องการให้ googlebot หรือ MSNbot ก็สลับบรรทัดกันระหว่างบรรทัด * กับ User-agent: Googlebot / User-agent: msnbot

  3. ถ้าในกรณีของ ไม่ต้องการให้เก็บ Folder / File หรือ บาง File Extension ก็ใช้
    User-agent: *
    Disallow: /folder
    Disallow: /file.extension อาทิ disallow:/indexhome.php ก็ไม่ต้องเก็บไฟล์ indexhome.php หรือ disallow:/indexhome.php?id ถ้าไม่ต้องการเก็บไฟล์ indexhome.php?[เป็น case ของ dynamic page]
    Disallow:/*.file extension$ อาทิ disallow:/*.jpg$  ถ้าไม่ต้องการไฟล์ ที่มีนามสกุล jpg$

เหตุผลหลักๆที่ต้องใส่ robots.txt ก็เพราะต้องการป้องกันไม่ให้ robot ของ S/E มาเก็บข้อมูลที่เราไม่ต้องการให้แสดงใน S/E นั้น ๆอาจมีเหตุผลมาจากใน file/folder นั้น เป็น ความลับหรือ restriction zone/Log-in required zone เป็นต้น

ตำแหน่งที่วางrobots.txt ไว้ก็คือ root folder ของเรา ดูภาพตัวอย่างซึ่งเป็นไฟล์ robots.txt ของ Amazon.com

robot.txt ของ Amazon.com

อย่างไรก็ดี หากเราไม่ต้องการให้ Search Engine เก็บหน้าเว็บเพจของเราเพียงหน้าสองหน้า หรือ เป็นไฟล์ที่เพิ่มภายหลังจากที่เรามีไฟล์ robots.txt แล้วและเราไม่อยากเปิด robots.txt ขึ้นมาแก้ไขก็สามารถกำหนด Code ดังนี้ ลงไปในหน้าเว็บใหม่นั้นได้เลยโดยระหว่าง TAG <head></head>

=================================================

<META NAME="ชื่อ ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

=================================================

เช่น

<html>
<head>
<title>หน้านี้ไม่ต้องเก็บ</title>
<META NAME="Googlebot" CONTENT="NOINDEX,NOFOLLOW">
<META NAME="MSNbot" CONTENT="NOINDEX,NOFOLLOW">
</head>

ที่นี้ ผู้อ่านคงมองภาพออกแล้วนะครับว่าเรา จะกำหนดไม่้ให้ Search Engine เข้ามายุ่มย่ามในเขตหวงห้ามของเราอย่างไร


 
< ก่อนหน้า   ถัดไป >

Copyright © 2006 thinkandclick.com. All rights reserved. thinkandclick.com