использование robots.txt
________________________________________
Введение
Стандарт исключений для роботов по сути своей очень прост. Вкратце, это работает следующим образом:
Когда робот, соблюдающий стандарт заходит на сайт, он прежде всего запрашивает файл с названием «/robots.txt». Если такой файл найден, Робот ищет в нем инструкции, запрещающие индексировать некоторые части сайта.
Где размещать файл robots.txt
Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.
Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.
Что писать в файл robots.txt
В файл robots.txt обычно пишут нечто вроде:
Цитата:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.
Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются.
Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации.
Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами
Цитата:
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
Цитата:
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».
Закрыть от индексации только несколько каталогов
Цитата:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота
Цитата:
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным
Цитата:
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
Цитата:
User-agent: *
Disallow: /docs/
Либо вы можете запретить все запрещенные к индексации файлы:
Цитата:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html
(с) robotstxt.org.ru
самый полный перечень юзерагентов поисковых ботов
https://www.user-agents.org/index.shtml
кста там идет разделение и Описание (description)
Цитата:
B (Client) browser
C Link-, bookmark-, server- checking
D Downloading tool
P Proxy server, web filtering
R Robot, crawler, spider
S Spam or bad bot
з.ы. то что вы пишете как запрет индексировать поисковикам я смотрю в первую очередь =) /*да и не только я*/
кста намного проще не оставлять ссылок на этот файл/директорию.. тогда ее никто не проиндексит и найти тоже не реально/*ну разве сканером брутом*/
- Подпись автора
Я Хранитель Свеч на границе Тьмы Свет ковал мой меч для своей войны…
www.prizrak.ws Аниме Форум - для общения любителей аниме (японской анимации), манги и хентая. Новости, статьи по темам: безопасность, хакерство, программы. Игры и софт для WinOS, PocketPC, Linux/Unix и др. Архив игр, фильмов DVD, музыки mp3 и программного обеспечения. Теги: скачать anime, скачать мангу, скачать хентай, скачать яой, скачать юри, скачать аниме обои картинки, скачать музыку mp3, скачать фильмы dvd, скачать софт, скачать программы, скачать игры ^__^