Rabu, 22 Juni 2011

Tutorial robots.txt dengan Google Webmaster Tools

Crawler Access Webmasters Tool
Gambar 1



file robots.txt adalah file yang buat untuk menginstruksikan web robots, crawlers, atau spider yang masuk kedalam web atau blog kamu. File robots.txt mengontrol masuknya web robots yang biasanya datang dari situs search engine. Dengan adanya robots.txt, kamu bisa memberikan restriksi (semacam filter) terhadap file atau direktori tertentu dalam web, agar web robot tidak begitu saja mengcrawl semua isi dari web kamu, begitu juga sebaliknya.
Saya sendiri menggunakan robots.txt dengan tujuan melakukan restriksi web robot dari search engine terhadap konten yang ter-generate dalam blog ini, sehingga saya bisa menentukan konten-konten apa saja yang bisa di filter dan tidak, untuk dimasukkan dalam search engine. File robots.txt ini bisa juga digunakan sebagai cara menghindari duplicate content yang bisa saja ada dalam blog kamu, dalam hal ini duplicate title dan duplicate description seperti yang tercatat dalam Google Webmasters Tools.
Cobalah untuk mempelajari tentang robots.txt dalam tutorial ini, bagaimana file robots.txt ini digunakan untuk mengontrol search engine/web robots terhadap suatu situs.
Dalam tutorial robots.txt ini, saya menjelaskan pembuatan file robots.txt berdasarkan tool yang ada dalam Google Webmasters.
Berikut langkah-langkah cara membuat robots.txt menggunakan Google Webmasters Tools:
1. Signup/sign in Google Webmasters Tools. Masuk di akun Google Webmasters dengan username dan password akun Google kamu.
2. Masuk di situs yang mau dibuatkan file robots.txt. (Tentu saja situs kamu harus diverifikasi terlebih dahulu, baca di sini: cara verifikasi situs lewat Google Webmasters Tools)
3. Crawler access. Pada navigasi dashboard sebelah kiri masuk di Site configuration >> Crawler access (lihat gambar 1, klik gambar untuk memperbesar)
4. Tool robots.txt. Kamu akan melihat tool yang digunakan untuk mengetes robots.txt yang berisi 2 kotak form lengkap dengan tombol test untuk memeriksa robots.txt bikinan kamu. Saya tidak menggunakan tool generate robots.txt karena masih terbatas penggunaannya. (lihat gambar 2 dan 3)
Form Protokol robots.txt
Gambar 2. Form ini menunjukkan tempat dimana kamu harus mengisi protokol robots.txt
Form File/ Direktori yang akan di-test
Gambar 3. Form ini menunjukkan tempat pengisian url file/direktori yang akan kamu test berdasarkan protokol robots.txt yang sudah kamu buat pada gambar 2.


5. User-agent: * artinya semua jenis robots yang diperintahkan menuruti protokol robots.txt, kamu bisa mengganti tan (*) dengan user agent yang lain. Contoh user-agent:

User-agent: ia_archiver
User-agent: Scooter
User-agent: ArchitextSpider
User-agent: fast
User-agent: Googlebot
User-agent: Googlebot-Images
User-agent: Mediapartners-Google
User-agent: Sidewinder
User-agent: Slurp
User-agent: Lycos_Spider_(T-Rex)
User-agent: Gulliver
User-agent: WebCrawler

6. Disallow: / dan Allow: / adalah protokol per-izinan apakah suatu file/direktori mau direstriksi atau tidak.
7. Cara pengisian form protokol robots.txt
Kamu cukup mengetikkan form protokol secara line by line. Berikut beberapa contoh kasus file atau direktori yang akan di isi dalam form protokol robots.txt:
A. Jika kamu tidak ingin semua user-agent/robots masuk ke dalam direktori blog kamu cukup mengisi form sbb:

User-agent: *
Disallow: /

B. Blok direktori dalam url.
Contoh: www.yourdomain.com/search/cara+membuat+blog
Direktori “/search/” akan direstriksi, beserta direktori/file setelahnya.

User-agent: *
Disallow: /search/

C. Blok file dalam url.
Contoh: www.yourdomain.com/foo/poster-artis.jpg
File poster-artis.jpg akan kita direstriksi.

User-agent: *
Disallow: /foo/poster-artis.jpg

D. Blok kata dalam url.
Contoh www.yourdomain.com/search/cara+membuat+blog
Kata “blog” dalam direktori “search” akan direstriksi.

User-agent: *
Disallow: /search/*blog

E. Blok semua url yang mengandung suatu spesial karakter.
Contoh www.yourdomain.com/search/cara+membuat+blog
Setiap url yang mengandung spesial karakter (+) akan direstriksi

User-agent: *
Disallow: /search/*+

F. Blok semua url yang diakhiri suatu spesial karakter.
Contoh www.yourdomain.com/search/cara+membuat+blog+
Setiap url yang berakhiran spesial karakter (+) akan direstriksi.

User-agent: *
Disallow: /search/*+$

G. Blok setiap awal suatu kata.
Contoh www.yourdomain.com/search/cara+membuat+blog
Setiap url yag ada kata “cara” dalam direktori “search” akan diblok.

User-agent: *
Disallow: /search/cara
 
H. Blok setiap file dengan suatu ekstension
Contoh www.yourdomain.com/search/cara+membuat+blog.html
Setiap url dalam direktori “search” yang mengandung ekstension “.html” akan di blok.

User-agent: *
Disallow: /search/*.html$

I. Mengizinkan kata tertentu yang direstriksi
Contoh
www.yourdomain.com/search/cara+membuat+blog
www.yourdomain.com/search/cara+membuat+blogs
Url dalam direktori “search” yang mengandung kata “blog” akan disallow tapi kata “blogs” tetap allow.

User-agent: *
Disallow: /search/*blog
Allow: /search/*blogs

J. Mengizinkan iklan Google Ads dalam web dapat dipantau oleh user-agent Google Ads.

User-Agent: MediaPartners-Google
Allow: /

K. Blok multiple url dan mengizinkan Google Ads user agent
Contoh
www.yourdomain.com/search/cara+membuat+blog
www.yourdomain.com/search/cari+duit+lewat+situs
www.yourdomain.com/search/tutorial+bikin+web
www.yourdomain.com/search/tutorial+bikin+weblog
Setiap url dalam direktori “search” yang mengandung kata “blog”,”duit”,dan “web” akan disallow, tapi kata “weblog” akan allow, dan Google Ads tetap bisa dipantau oleh user agent Google Ads.

User-agent: *
Disallow: /search/*blog
Disallow: /search/*blog
Disallow: /search/*blog
Allow: /search/*weblog

User-Agent: MediaPartners-Google
Allow: /


8. Tombol test. setelah kamu mengisi form protokol robots.txt dan menentukan url yang akan di test, silahkan klik tombol test untuk menilai apakah url tersebut disallow atau tidak.
9. Jika sudah yakin dengan semua protokol robots.txt yang kamu buat, kamu bisa kopas di notepad dan disimpan dengan nama robots.txt (semua lowercase) bukan Robots.txt.
10. Masukkan file tersebut ke direktori utama domain kamu dan cek dengan melihat alamat url http://yourdomain.com/robots.txt
Selamat mencoba sob! :)
 
 

Tidak ada komentar:

Posting Komentar