Thứ Bảy, 18 tháng 1, 2014


File robots.txt sederhana menggunakan dua aturan :

    User-agent : aturan robot berikut berlaku untuk
    Disallow : URL yang akan diblokir

Kedua baris dianggap satu entri di file. Anda dapat memasukkan entri sebanyak yang Anda inginkan. Anda dapat menyertakan beberapa baris Disallow dan multiple user- agen di satu entri.

Setiap bagian dalam file robots.txt terpisah dan tidak membangun bagian-bagian sebelumnya. Sebagai contoh:

User-agent : *
Disallow : / folder1 /

User- Agent : Googlebot
Disallow : / folder2 /

Dalam contoh ini hanya URL pencocokan / folder2 / akan menjadi batasan bagi Googlebot.
User-agent dan bot

A user-agent adalah robot mesin pencari tertent . Database Web Robot mendaftar banyak bot umum. Anda dapat mengatur entri untuk diterapkan ke bot spesifik (dengan daftar nama) atau Anda dapat mengaturnya untuk berlaku untuk semua bot (dengan daftar tanda bintang). Entri yang berlaku untuk semua bot terlihat seperti ini :

User-agent : *

Google menggunakan beberapa bot yang berbeda  user-agent). Bot yang digunakan untuk pencarian web kami adalah Googlebot. Bot lain seperti Googlebot-Mobile dan Googlebot-Image mengikuti aturan yang Anda buat untuk Googlebot, tapi Anda dapat mengatur aturan khusus untuk bot khusus juga.

Cara Memblokir user-agent


Baris berisi Disallow daftar halaman yang ingin Anda blok. Anda dapat melihat daftar URL  atau pola tertentu. Entri harus dimulai dengan garis miring ( / ).

Untuk memblokir seluruh situs, gunakan garis miring.

    Disallow : /

Untuk memblokir direktori dan segala sesuatu di dalamnya , mengikuti nama direktori dengan garis miring.

    Disallow: / junk - direktori /

Untuk memblokir halaman, daftar halaman.

    Disallow : / private_file.html

Untuk menghapus gambar tertentu dari Google Images , tambahkan berikut :

    User-agent : Googlebot-Image
    Disallow: / images / dogs.jpg


Untuk menghapus semua gambar di situs Anda dari Google Images :

    User-agent : Googlebot -Image
  Disallow : /

Untuk memblokir file tipe file tertentu (Misalnya, .gif), gunakan berikut :

    User-agent : Googlebot
    Disallow: /*gif$.

Untuk mencegah halaman di situs Anda tidak yang ditelusuri, sementara masih menampilkan iklan AdSense pada halaman tersebut, melarang semua bot kecuali Mediapartners-Google. Hal ini membuat halaman muncul dalam hasil pencarian, tetapi memungkinkan robot Mediapartners-Google untuk menganalisis halaman untuk menentukan iklan yang akan ditampilkan. Mediapartners-Google robot tidak berbagi laman dengan agen-pengguna Google lainnya. Sebagai contoh:

      User-agent : *
    Disallow : /


    User-agent : Mediapartners-Google
    Allow : /

Perhatikan bahwa arahan adalah ini hal sensitive. Misalnya, Disallow: / junk_file.asp akan memblokir http://www.example.com/junk_file.asp, namun akan memungkinkan http://www.example.com/Junk_file.asp. Googlebot akan mengabaikan white-space (khususnya baris kosong) dan pengarahan dikenal di robots.txt.

Googlebot mendukung pengajuan file Sitemap melalui file robots.txt.

Pencocokan pola


Googlebot (tapi tidak semua mesin pencari) menghormati beberapa pencocokan pola.

Untuk mencocokkan urutan karakter, gunakan tanda bintang (*). Misalnya, untuk memblokir akses ke semua subdirektori yang dimulai dengan pribadi :

    User-agent : Googlebot
    Disallow: /*pribadi/


Untuk memblokir akses ke semua URL yang memuat tanda tanya (lebih khusus, setiap URL yang diawali dengan nama domain, diikuti beberapa string, diikuti dengan tanda tanya, diikuti beberapa string) (?) :

    User-agent : Googlebot
    Disallow: /*?


Untuk menentukan pencocokan akhir URL, gunakan $. Misalnya, untuk memblokir setiap URL yang berakhir dengan .xls. :

    User-agent : Googlebot
    Disallow: /*xls$.

Anda dapat menggunakan pencocokan pola ini dalam kombinasi dengan Izinkan direktif. Misalnya, jika ? menunjukkan ID sesi, Anda mungkin ingin mengecualikan semua URL yang berisi mereka untuk memastikan Googlebot tidak merangkak halaman duplikat. Tapi URL yang diakhiri dengan ? mungkin versi halaman yang Anda ingin disertakan. Untuk situasi ini, Anda dapat mengatur file robots.txt Anda sebagai berikut :

    User-agent : *
    Allow : /*$
    Disallow: /*?

Disallow : /*? akan memblokir URL yang memuat? (lebih khusus, itu akan memblokir URL yang diawali dengan nama domain, diikuti beberapa string, diikuti dengan tanda tanya, diikuti beberapa string).

Allow : /*$ akan mengizinkan URL yang diakhiri? (lebih khusus, itu akan memungkinkan setiap URL yang diawali dengan nama domain Anda, diikuti dengan string, diikuti oleh?, tanpa karakter setelah?).

Simpan file robots.txt Anda dengan men-download file atau menyalin isi ke file teks dan menyimpan sebagai robots.txt. Simpan file ke direktori tingkat tertinggi dari situs Anda. File robots.txt harus berada di root domain dan harus bernama "robots.txt". Sebuah file robots.txt yang terletak di subdirektori tidak valid, karena bot hanya memeriksa file ini di root domain.
Misalnya,
http://www.example.com/robots.txt adalah lokasi yang valid, tapi 
http://www.example.com/mysite/robots.txt tidak.

Sumber

0 nhận xét:

Đăng nhận xét

Bài đăng phổ biến