Указание имени робота имеет больший приоритет при формировании файла, чем индексация без его упоминания. В файле robots.txt бот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или *. Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.
Следующим роботам Яндекса можно указать отдельные директивы:
- 'YandexBot' — основной индексирующий робот;
- 'YandexDirect' — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
- 'YandexDirectDyn' — робот генерации динамических баннеров, интерпретирует robots.txt особым образом; 'YandexMedia' — робот, индексирующий мультимедийные данные;
- 'YandexImages' — индексатор Яндекс.Картинок;
- 'YandexCatalog' — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
- 'YaDirectFetcher' — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
- 'YandexBlogs' — робот, индексирующий посты и комментарии;
- 'YandexNews' — робот Яндекс.Новостей;
- 'YandexPagechecker' — валидатор микроразметки;
- 'YandexMetrika' — робот Яндекс.Метрики;
- 'YandexMarket' — робот Яндекс.Маркета;
- 'YandexCalendar' — робот Яндекс.Календаря.