Home » SEO » Cara Setting Robots.txt

Cara Setting Robots.txt

10 Apr. 2010168 comments
Cara Setting Robots.txt

Robots.txt merupakan sebuah file yang terdapat dalam directory root dari suatu situs yang berguna untuk mengontrol halaman-halaman tertentu agar diindex oleh spider mesin pencari, atau untuk mengatur bagian-bagian tertentu supaya tidak diindex oleh search engine.

Secara default (jika dalam direktori blog atau web tidak ada file robots.txt maka akan memberikan informasi pada Search Engine bahwa seluruh bagian dari blog atau situs dapat dijelajahi dan dimasukkan dalam index-nya. Dan tidak semua bagian sebuah blog atau web itu perlu didatangi search engine, sebagai contoh untuk pengguna wordpress  dengan hosting sendiri bagian folder atau direktori wp-admin,  wp-content/cache, wp-content/plugins, wp-includes dll tidak perlu diindex, karena tidak ada gunanya, sebaliknya kalau direktori tersebut ikut diindex malah akan merugikan karena akan boros bandwidth dan juga mungkin mengandung data-data penting yang tidak boleh jadi konsumsi publik.

Dengan memblokir direktori atau file tertentu yang memang tidak perlu diindex, ini juga salah satu cara agar blog atau website menjadi lebih SEO, kenapa bisa begitu, karena waktu yang dibutuhkan search engine saat mendatangi blog kita tidaklah lama. Jadi dengan dicegahnya search engine merayapi direktori tertentu maka kesempatan mesin pencari untuk merayapi dan mengindex seluruh konten atau halaman web yang memang perlu ditampilkan (diindex) menjadi lebih besar (lebih diprioritaskan).

Sebagai Contoh anda bisa menggunakan setting seperti ini :

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*?*
Disallow: /*?

Setting ini akan mencegah search engine untuk merayapi dan mengindex file php, javascript, css dll.

Contoh lainnya :

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback/
Disallow: /feed/
Disallow: /tag/
Disallow: /author/
Disallow: /comments/
Disallow: /category/

Sitemap: http://domainanda.com/sitemap.xml
Sitemap: http://domainanda.com/sitemap.xml.gz

Setting ini akan mencegah search engine untuk merayapi dan mengindex direktori cgi-bin, wp-admin, wp-includes dll beserta seluruh file yang ada di dalam direktori tersebut. Jika anda menggunakan plugin Google XML Sitemap Generator bagian paling akhir dari file robots.txt bisa ditambahkan kode ini : Sitemap: http://domainanda.com/sitemap.xml dan Sitemap: http://domainanda.com/sitemap.xml.gz

Bagi yang menggunakan plugin Google XML Sitemap Generator, Platinum SEO Pack atau All in One SEO Pack dan kebetulan menyertakan category dan atau tag dalam indexnya, maka setting di bagian berikut harus dihapus supaya sinkron :

Disallow: /tag/
Disallow: /category/

Selain contoh di atas anda juga bisa membuat parameter-parameter tertentu misalnya, jika anda sering mengikuti program paid review dan tidak ingin Page Ranknya turun bisa menggunakan parameter seperti ini :

User-agent: Googlebot
Disallow: /review/

Ini setting khusus yang menggunakan struktur permalink dengan settingan seperti ini : /%category%/%postname%/ dan sebelumnya seluruh postingan paid review harus dijadikan satu dalam kelompok atau kategori review.

Contoh setting file robots.txt untuk mencegah duplikat kontent pada penggunaan plugin wordpress versi mobile misalnya pada plugin MobilePress. Tambahkan kode berikut ini di bawah User-agent: Googlebot :

Disallow: /*?
Disallow: /*?comments=true$
Disallow: /*?postcomment=true$

Contoh setting file robots.txt untuk mencegah duplikat kontent ketika kita menggunakan fitur reply to comments atau nested comments. Tambahkan kode berikut ini di bawah User-agent: Googlebot :

Disallow: *?replytocom

Contoh setting file robots.txt untuk mencegah duplikat kontent pada penggunaan plugin wordpress versi mobile misalnya pada plugin MobilePress. Tambahkan kode berikut ini di bawah User-agent: Googlebot :

Disallow: /*?
Disallow: /*?comments=true$
Disallow: /*?postcomment=true$

Page break atau pagination halaman atau membagi postingan ke dalam beberapa halaman bisa berpotensi untuk munculnya duplikat kontent di Google Webmaster Tool. Untuk mencegahnya tambahkan kode berikut ini di bawah User-agent: Googlebot :

User-agent: Googlebot
Disallow: /*/2*
Disallow: /*/3*
Disallow: /*/4*
Disallow: /*/5*
Disallow: /*/6*
Disallow: /*/7*
Disallow: /*/8*
Disallow: /*/9*
Disallow: /*/10*

Itu diasumsikan jika sebuah postingan dibuat sampai 10 halaman, jika lebih, bisa anda tambahkan nomor halaman yang akan dicegah untuk diindek di bawahnya, misalnya Disallow: /*/11* dan seterusnya.

Cara membuat file robots.txt :

  1. Buka Program Notepad anda.
  2. Masukkan setting atau parameter-parameter file robots.txt yang diinginkan, contoh yang saya gunakan untuk blog ini bisa dilihat di sini.
  3. Simpan dengan nama robots.txt.
  4. Upload file tersebut ke root direkori wordpress bisa lewat Cpanel atau FTP.
  5. Cara lainnya login ke Cpanel ~ klik File Manager, klik public_html, klik Icon New File (atas kiri), pada kotak New File Name : beri nama file  “robots.txt” (tanpa tanda petik) terus klik create New File.
  6. Kemudian buka file robots.txt tersebut, masukkan parameter-parameter settingan yang diinginkan. Kemudian simpan.

Jangan lupa validasi hasil pembuatan file robots.txt anda dengan mengunjungi link ini Robots.txt Checker, dan masukkan url file robots.txt anda (contoh http://namadomain.com/robots.txt) pada kotak yang tersedia kemudian lihat hasilnya apakah file robots.txt anda sudah benar-benar valid, jika masih banyak eror di situ dikasih informasi letak erornya.

Valid Robots.txtSelain file robots.txt yang saya tempatkan di root direktori, saya juga menempatkan settingan pengaturan robots pada meta tag yang saya letakkan di file header.php yang ada di folder theme yang saya gunakan, dan settingan ini sudah saya uji joba selama 3 bulan, hasilnya sangat signifikan dalam pengindekan blog ini oleh search engine.

Cara Setting Robots.txt Reviewed by: Alwi on Rating : 5
Mudah-mudahan artikel tentang Cara Setting Robots.txt ini bisa bermanfaat untuk anda, terima kasih.

Artikel Yang Mungkin Berkaitan :

  1. Tips Atau Cara Menulis Yang Baik Di Blog
  2. Cara Submit Blog atau Website di Google Webmasters
  3. Membuat Blog Bersahabat dengan Search Engine
  4. Cara Mencegah Duplicate Content Di Google Webmaster Tools
  5. Download Edisi Baru Google SEO Starter Guide 2010
  6. Strategi Optimasi SEO Di Tahun 2011
  7. Cara Mengoptimasi Halaman Kategori
  8. Daftar Ping Service WordPress
  9. Cara Membuat Breadcrumb Di WordPress
  10. Cara Setting Robots Meta Tag WordPress
  1. 9-2-2011 at 10:58 | #1

    terimakasih, lagi coba2 setting robots.txt nih, semoga saja ngga salah :)

  2. 14-2-2011 at 08:33 | #2

    Informasi yang sangat menarik, thank’s

  3. 8-3-2011 at 18:02 | #3

    disini banyak info penting :)
    thanks 4 share

  4. 26-3-2011 at 15:59 | #4

    om,tau cara setting wp robot gak?

  5. 1-4-2011 at 21:17 | #5

    om, udah ada kelanjutan artikel yg ini lom? sy tunggu artikel robotna yg bwt header.php

  6. 2-4-2011 at 02:16 | #6

    manfaat sekali gan, ga percuma blogwalking malem”, thx a lot of

  7. 2-4-2011 at 18:08 | #7

    Pak, saya mo coba lepas STT2. Pengaruhnya kan pada halaman search-nya nanti banyak yang ilang. Kalo misalnya saya atur robots-nya jadi dissallow:/search/ ntar pengaruhnya di halaman index google gimana ya? Halaman yang sebelumnya diindex gak akan berpengaruh?
    Saya agak takut dengan STT2 di blog, indexnya tinggi banget. Jangan sampe kena banned.
    Mohon sarannya … :-)

    Alwi Reply:

    Secara default halaman search memang harusnya gak ikut diindex walaupun sampai saat ini struktur spt itu sering dipakai baik oleh AGC atau STT2, tapi menurut saya nggak alami, kalau search-nya masih dari blog kita sendiri termasuk jika menggunakan STT2 dg link ke halaman search untuk saat ini menurut saya masih aman tapi yaitu tadi secara struktur index sebenarnya gak alami atau tidak default karena sering banget halaman search yg ikut diindex terkadang isinya sering nggak relevan dg kontent yg dicari oleh pengunjung, arah Google mungkin ke sana kedepannya supaya kontent yg ditampilkan diindexnya betul2 kontent yg diinginkan dan relevan dg apa yg dicari oleh pencari info,

    Untuk halaman search yg sudah diindek sebenarnya masih bisa tetap diindex/dibuka oleh pengunjung walau sudah tak pakai STT2 (tidak akan muncul halaman 404 error page) tapi struktur halaman searchnya harus diganti dulu spt struktur permalink ketika pasang STT2 dg link ke halaman search.

    Untuk menonaktifkan indek halaman search bisa juga pakai setting di file robots tapi harus disesuaikan juga setting yg di plugin AIO SEO atau Platinum SEO supaya jangan diindek.
    Untuk saat ini saya sedang uji coba halaman search ikut diindex tapi untuk STT2 msh pakai link ke postingan (keterbatsan bandwidth) pengen tau efek terhadap Google Panda yg suka menari2 heee … mungkin untuk jangka panjang efeknya baru bisa dinilai

    Abied Reply:

    Iya Pak. Itu masalahnya. Hostingan saya keyok. Pengunjung menggila hingga 30ribuan. Akhirnya lepas STT2, eh .. masih juga down. Thanks sarannya. :-)

    Abied Reply:

    O iya, saya malah sengaja ingin mengurangi halaman yang diindex Pak. Makanya khawatirnya kalo lepas STT2 malah kena banned.
    Pengaturan struktur permalink pada halaman search gimana ya Pak?

  8. 29-4-2011 at 11:10 | #8

    sebenarnya memakai plugin stt2 itu aman nggak sih pak, mohon pencerahannya, soalnya dimana2 kok pada ribut soal stt2 penyebab de index, mkasih pak alwi

  9. 2-5-2011 at 02:03 | #9

    Mas Alwi, meta tag untuk blogspot apa sama aja dengan wp ? Trus situs lain untuk ngecek meta tag blogger dimana ya mas ?

    Alwi Reply:

    Kalau tujuannya sama antara blogspot dg wp supaya blog menjadi lwbih SEO, cuman teknis/caranya yg berbeda. Untuk menganalisa meta tag Googling aja dg keyword Meta Tag Analyzer banyak banget tool online yg menyediakannya sehingga kita bisa mempelajari meta yg ada, apakah sudah bagus atau belum

  10. 3-5-2011 at 19:01 | #10

    Thank you for this, will save me alot of time!

    Tahnk you again

    Jon

Comment pages