Охота на быстробота: вычисляем заход в индекс по логам

    Охота на быстробота: вычисляем заход в индекс по логам

    Прошлый пост про методы проверки индекса зашел отлично, поэтому копаем глубже. Сегодня препарируем логи сервера. Это единственный объективный способ понять, что происходит с сайтом в первые минуты жизни, пока Вебмастер тормозит.

    Сразу снимем розовые очки: в логах User-Agent у обычного робота и быстробота (Orange Index) чаще всего одинаковый – YandexBot/3.0. Но нам важен не «паспорт» робота, а последовательность его действий.

    Дано: Свежий лендинг (index.html, Robots.txt, Sitemap.xml, favicon.ico).
    Задача: Поймать момент, когда сайт залетел в базу.

    Ниже размещен пошаговый разбор индексации Favicon.

    Этап 1. Добавление в Вебмастер

    Как только вы добавляете сайт в панель, Яндекс делает контрольный «прозвон». Обычно это два запроса с разных IP, но с одним юзер-агентом.

    45.10.240.120 ... "GET / HTTP/1.1" 200 ... "YandexWebmaster/2.0"
    45.10.240.131 ... "GET / HTTP/1.1" 200 ... "YandexWebmaster/2.0"

    Они проверяют, что сайт вообще отдает 200 OK.

    Этап 2. Информационный шум (его может и не быть)

    Между делом в логах всплывает мусор:

    186.2.167.154 ... "UGAResearchAgent/1.0"
    186.2.167.50 ... "Chrome/143.0..."

    Не ведитесь. Это сканеры и скрипты, маскирующиеся под браузеры будущего. Просто игнорируйте и смотрите только на IP-адреса Яндекса (подсети 45.x, 213.x, 5.x, 77.x и др.).

    Этап 3. Основной заход (Индексация)

    Робот возвращается за контентом. Тут важна очередность:

    1. Проверка правил (Robots.txt)

    45.10.240.111 ... "GET /robots.txt ..." 200 ... "YandexBot/3.0"
    Первым делом бот читает инструкцию: можно ли ему здесь находиться.

    2. Скачивание страницы (HTML)

    45.10.240.120 ... "GET / ..." 200 ... "YandexBot/3.0"
    Иногда этих запросов тоже может быть два. Главное – код 200.

    3. Проверка структуры (Sitemap)

    45.10.240.118 ... "GET /sitemap.xml ..." 200 ... "YandexBot/3.0"
    Если карта сайта указана, он пойдет и по ней.

    Этап 4. Итоговый сигнал (Фавикон)

    45.10.240.168 ... "GET /favicon.ico ..." 304 0 ... "YandexFavicons/1.0"

    Это самый важный маркер.

    • Обратите внимание: статус 304 (Not Modified) и размер 0 байт – это нормально! Значит, Яндекс уже видел файл или получил заголовки кэширования.
    • Суть: Запрос фавиконки происходит на финальной стадии. Если пришел YandexFavicons – значит, HTML распарсен, и поисковик формирует сниппет для выдачи.

    Спустя пару минут после этой строчки страница обычно появляется в поиске (кстати не всегда, иногда есть некая очередь на индексацию).

    Итоговый чек-лист

    Мониторим логи и ждем полный комплект ботов:

    1. YandexWebmaster/2.0 (обычно 2 шт.) – проверил доступность.
    2. YandexBot/3.0 (robots.txt) – проверил разрешения.
    3. YandexBot/3.0 (index.html) – забрал контент.
    4. YandexBot/3.0 (sitemap.xml) – проверил карту.
    5. YandexFavicons/1.0 – забрал иконку.

    Собрали «флеш-рояль»? Можно идти проверять выдачу через url: или цитатный поиск и другие варианты из поста.