Author by Yosef Doublehorn
Author by : Doublehorn
DAFTAR ISI
Protected by Copyscape Online Infringement Detector

31 Maret 2014

Robots.txt : Analisa Blocked URL website


Banyak pertanyaan di kalangan Blogger dan pengelola website tentang file robots.txt. Ada hal yang membingungkan ketika diajukan pertanyaan mengapa content website atau blog tidak boleh diindeks. Padahal dengan logika yang sederhana kita bisa bertanya :

Bukankah kita seharusnya senang jika search engine "membaca" dan mengindeks keseluruhan isi website blog tanpa kecuali?

Robots.txt dibuat agar content website tidak diindeks

Search-Engine-Spider-keyword-website
Jika kita tidak membuat file robots.txt, maka semua content website blog akan dirayapi dan diindeks oleh robot search engine. Tetapi bagi webmaster (admin website) dan Blogger profesional tidak akan menghendaki hal demikian. Mereka sadar bahwa tidak semua content boleh dirayapi robots search-engine (eg. Googlebot, Bingbots etc), apalagi ada content tertentu yang jika dirayapi akan berdampak buruk terhadap usaha optimisasi search engine (SEO).

  • Kapankah kita harus menggunakan file robots.txt?
    • File robots.txt dibutuhkan HANYA JIKA website mengandung content (posting) yang tidak ingin diindeks
    • File robots.txt (sering salah dinamai robot.txt, – tanpa “s” sehingga berarti singular bukan jamak) diciptakan untuk disallow (membatasi) file (dan direktori) website sehingga spiders (robots) search engine tidak mengakses content tersebut.

Untuk melihat URL mana yang telah diblokir (ketika spiders atau robots atau Googlebots merayapi situs), silahkan kunjungi Google Webmaster Tools >> halaman Blocked URLs di bagian Health. Disini Anda juga bisa melihat isi file robots.txt.

Bagaimana cara setting file robots.txt website?

Jika ingin semua search engine mengindex semua file dan folder seluruh konten situs, maka tidak diperlukan file robots.txt. Isi file robots.txt secara bawaan (DEFAULT) seperti berikut :

  • User-agent: Mediapartners-Google
    Disallow:

  • User-agent: *
    Disallow: /search 

  • Sitemap: ht*p://NAMABLOG.blogspot.com/feeds/posts/default?orderby=updated

Untuk kepentingan SEO Anda bisa mengedit isi file robots.txt menjadi :

  • User-agent: Mediapartners-Google
    Disallow:

  • User-agent: *
    Disallow: /*?updated-max=*

  • Sitemap: ht*p://NAMABLOG.blogspot.com/feeds/posts/default?orderby=updated


Atau alternatif snippet ini :

  • User-agent: Mediapartners-Google
    Disallow:

  • User-agent: *
    Disallow: /search?q=*
    Disallow: /*?updated-max=*

  • Sitemap: ht*p://NAMABLOG.blogspot.com/feeds/posts/default?orderby=updated

Sebaliknya jika Anda ingin mencegah isi sebuah halaman agar tidak terdaftar dalam indeks, bahkan jika situs lain juga ditautkan ke halaman tersebut, maka isi file robots.txt harus diedit. Dan Google tidak akan mengindeks konten halaman yang diblokir oleh robots.txt, namun Google masih mengindeks URL yang ditemukan Google dari link halaman situs lain.

Create a robots.txt file in website

File robots.txt ini berada di Root cPanel, untuk itu Anda harus punya akses ke root domain. File robots.txt yang paling simple hanya menggunakan 2 aturan, yaitu :
  • User-agent: the robot the following rule applies to :
    (terjemahannya, robot! aturan berikut ini berlaku untuk:)
  • Disallow: the URL you want to block
    (terjemahannya : URL yang ingin diblok)
Kedua baris di atas dianggap satu entri di file. Anda dapat memasukkan entri sebanyak yang Anda mau. Anda dapat memasukkan baris Disallow ganda dan User-agents ganda dalam satu entri. Setiap bagian dalam file robots.txt terpisah dan tidak membangun bagian sebelumnya.

User-agent adalah robot search engines spesifik. Web Robots Database mendaftar banyak robot biasa. Anda dapat mengatur entri untuk diterapkan ke bot tertentu (dengan mendaftarkan nama) atau Anda dapat mengatur entry untuk diberlakukan pada semua bot dengan listing tanda *). seperti terlihat di bawah ini :
  • User-agent: *
Google menggunakan beberapa bot yang berbeda (user-agents). Bot yang digunakan untuk pencarian web adalah Googlebot. Bot Google lain seperti Googlebot-Mobile dan Googlebot-Image mengikuti aturan yang Anda tetapkan untuk Googlebot, tetapi Anda dapat membuat aturan khusus untuk bot-bot khusus juga.

CONTOH 1 :
  • User-agent: *
    Disallow: /folder1/
  • User-Agent: Googlebot
    Disallow: /folder2/
Pada contoh diatas, URL matching dengan /folder2 / yang akan diblok (disallowed) oleh Googlebot

CONTOH 2 berikut ini untuk pengaturan file robots.txt, misalnya penerapan agar HANYA Googlebot yang tidak boleh mengindeks SELURUH halaman :
  • User-agent: Googlebot
    Disallow: /
CONTOH 3 berikut ini untuk MELARANG semua bot (atau semua search engine) merayapi dan mengindeks SELURUH halaman :
  • User-agent: *
    Disallow: /
Kode di atas dapat dibaca “Semua search engine statusnya disallow” atau dibatasi.

Validasi file robots.txt of website

Robots.txt checker ialah validator untuk analisa syntax file robots.txt, untuk memastikan formatnya valid dan sesuai dengan patokan Robot Exclusion Standard. Google Webmaster membutuhkan waktu untuk merayapi kembali robots.txt yang baru saja dimodifikasi. Karena Crawler merayapi secara terjadwal. Untuk melihat hasil, amatilah “Blocked URLs” Webmaster Tools.

Sebagai tambahan, untuk memeriksa validitasi robots.txt, dilakukan melalui robots.txt Checker. Masukkan ht*p://namablog.blogspot.com/robots.txt, kemudian klik tombol Check robots.txt Kemudian untuk testing apakah halaman blog tidak diblok lagi, coba Fetch as Google — pada Webmaster Tools — akan mengindikasikan salah satu alamat dari posting kita.“Success” atau “Denied by robots.txt”

Checker-validator-robots-txt-in-website-design
PERINGATAN : Error ALLOW pada blog Website Design
Merujuk warning “Line-6” – JANGAN GUNAKAN atribut  ALLOW  karena perintah tidak dikenal.

Allow: /
Unknown command. Acceptable commands are "User-agent" and "Disallow".
A robots.txt file doesn't say what files/directories you can allow but just what you can disallow. Please refer to Robots Exclusion Standard page for more informations.

Edit file robots.txt website blog

Edit setting file robots dilakukan dengan membuka Dashboard Blogger pakai alamat Gmail. Pada menu Drop-down pilih sub-menu :

SETTING >> PREFERENSI PENELUSURURAN >> AKTIFKAN Robots txt khusus dengan pilih opsi YA

Seperti gambar berikut.:

crawling-indexing-website-blog-blogger

By the way, selamat mencoba. Saya berharap ini bermanfat.


That's all we know


Comments

6 komentar:

http://website-download.blogspot.com/2012/11/robotstxt-checker-identifikasi-penyebab.html?showComment=1394333057384#c2439097834498377168'> 09/03/14, 09.44 Reply

wah ternyata caranya mudah sekali, kebetulan pada blog saya kena kasus seperti ini kang, terima kasih atas ilmunya... sangat bermanfaat untuk saya. ^^

http://website-download.blogspot.com/2012/11/robotstxt-checker-identifikasi-penyebab.html?showComment=1395972422157#c8277412541005679245'> 28/03/14, 09.07 Reply

Terimakasih kembali, Mas Faris. Blog mas - Berbagi Pengetahuan - juga bagus, kesan futuristik. Btw tengok-tengoklah blog saya yang lain http://yogya-batik.blogspot.com/

http://website-download.blogspot.com/2012/11/robotstxt-checker-identifikasi-penyebab.html?showComment=1396024376743#c8256915914384110132'> 28/03/14, 23.32 Reply

terima kasih kang, sudah saya kunjungi kang blog akang yang 1 lagi, sukses ya kang buat jualan batik nya... ^^

http://website-download.blogspot.com/2012/11/robotstxt-checker-identifikasi-penyebab.html?showComment=1414541788768#c2023768290421696545'> 29/10/14, 07.16 Reply

terima kasih mas, saya merasa dijebak oleh sebuah blog dengan memberikan contoh robot.txt yang membuat blog saya tidak bisa terlihat oleh google

http://website-download.blogspot.com/2012/11/robotstxt-checker-identifikasi-penyebab.html?showComment=1415036614990#c8680640788259536337'> 04/11/14, 00.43 Reply

Sekali lagi terimakasih atas harapan dan doa untuk blog jualan batik saya

http://website-download.blogspot.com/2012/11/robotstxt-checker-identifikasi-penyebab.html?showComment=1415036837648#c8103088152458687788'> 04/11/14, 00.47 Reply

Saya ikut prihatin mas Blinggos. Saya juga pernah alami masalah yang sama - blog tidak keindeks.

Posting Komentar di Website Design

-

Penelusuran topik khusus di blog ini
Loading