|
|
Командный файл поисковиков - Robots.txt
В этой краткой статье мы доступно рассматриваем
команды Robots.txt для поисковых роботов с примерами и советами реализации.
Если Вы не знаете, что это такое, но у Вас есть сайт, обязательно прочтите
эту статью, возможно, Вы найдете причину того, из-за чего к вам не заходят
поисковики или отыщите причину утечки секретной информации
Robots.txt - это обычный текстовый файл, наличие которого самым первым
проверяют поисковые роботы из-за того, что им, возможно, не придется
индексировать этот сайт, а соответственно, его время не будет потеряно зря.
Для этого создадим файл robots.txt и напишем в него:
User-Agent: * #Всем поисковым роботам
Disallow: / #Запрещено к индексации все (корневая директория)
Но поисковик может обнаружить и другой вариант:
User-Agent: * # Всем поисковым роботам
Disallow: /temp/ #Запрещена к индексации директория temp
Disallow: /virus/ #Запрещена к индексации директория virus
Также поисковой робот может обнаружить и такой вариант:
User-agent: Googlebot #Поисковый робот Google
Disallow: / #Запрещено к индексации все (корневая директория)
И смешанный вариант:
User-agent: Googlebot #Поисковый робот Google
Disallow: / #Запрещено к индексации все (корневая директория)
User-Agent: * # Всем поисковым роботам
Disallow: /temp/ #Запрещена к индексации директория temp
Disallow: /virus/ #Запрещена к индексации директория virus
Теперь давайте рассмотрим первый пример. На мой взгляд, он актуален для тех
сайтов, контент которых не должен распространяться с помощью поисковых
роботов. Например, закрытый сайт любителей Windows 3.11.
В варианте номер 2, как Вы заметили, отключены для индексации две
директории, одна с постоянно временной информацией (эдакая свалка) а вторая
со злостным вирусом. И первое, и второе не желательно распространять в
Интернете, т.к. уже все и так на грани информационного апокалипсиса. Поэтому
все, что не для всех, можно отключить. Вторая сторона медали состоит еще и в
том, что robots.txt общедоступен и любой может увидеть, что Вы там спрятали
(исключили из индексации), какие директории, файлы и загореться желанием
заполучить доступ именно к ним. Тем более, если Вы напишите Disallow: /virus/1.zip
уверен, что найти его после этого не составит труда даже ребенку. А «совсем
некоторые» вебмастера упорно продолжают развивать этот медот и вписывать,
таким образом, в robots.txt файлы, не подлежащие общественному просмотру.
И в последнем примере мы отключили индексацию для Google, а зачем он нам
нужен? Может быть, мы любим Рамблер, который по сей день не видит разницы
между htm и asp, php и т.д. А Google уже обрабатывает команды расширений в
robots.txt…
Пример (только для Googlebot):
Disallow: /temp/*.cgi #Запрещены к индексации все cgi файлы в директории
temp
или
Disallow: *.cgi #Запрещены к индексации все cgi файлы
Напоследок еще добавлю, что robots.txt нужно размещать в корневой директории
(Например: http://www.pcnews.biz/robots.txt), а сайт не имеющий robots.txt
возможно будет подвержен не регулярным набегам поисковых ботов.
Автор: Sun
http://www.pcnews.biz
|
|
|