8 марта 20254 мин134
Поделиться

Если вы не хотите, чтобы поисковые системы индексировали ваш сайт или его отдельные страницы, существует несколько способов заблокировать доступ поисковым ботам.
В этом руководстве рассмотрим все возможные методы — от robots.txt и мета-тегов до серверных директив, HTTP-заголовков и защиты паролем. А в конце расскажем, как проверить, работает ли запрет на индексацию, чтобы избежать неприятных случайностей.
1. Запрет индексации через robots.txt
robots.txt — это текстовый файл в корневой директории сайта, который сообщает поисковым ботам, какие страницы можно индексировать, а какие нет.Как полностью запретить индексацию всего сайта
User-agent: *Disallow: / Принцип работы:- User-agent: * — правило применяется ко всем поисковым системам.
- Disallow: / — запрещает доступ ко всему сайту.
Запрет индексации отдельных страниц и папок
User-agent: * Disallow: /admin/ Disallow: /private.htmlДанный код запрещает индексировать папку /admin/ и страницу private.html.
Запрет индексации для конкретных ботов
User-agent: Googlebot Disallow: /Этот код запретит индексацию сайта только Googlebot, но другие поисковики смогут его сканировать.
Разрешить индексацию, но запретить сканирование
User-agent: *Crawl-delay: 10Директива Crawl-delay устанавливает задержку в секундах между запросами робота к серверу, снижая нагрузку.
Запрет индексации изображений
User-agent: Googlebot-Image Disallow: /Этот код запрещает Google индексировать изображения сайта.
2️. Запрет индексации через мета-тег robots
Файл robots.txt запрещает только сканирование, но не индексацию, тогда мета-тег robots поможет полностью закрыть страницу от индексации. Его добавляют в <head> HTML-страницы:<meta name="robots" content="noindex, nofollow">Как это работает:
- noindex — запрещает индексацию страницы.
- nofollow — запрещает поисковым ботам следовать по ссылкам на этой странице.
Запрет индексации, но разрешение на переход по ссылкам
<meta name="robots" content="noindex, follow">Страница не попадет в индекс, но ссылки на ней будут проиндексированы.
Запрет индексации только для Google
<meta name="googlebot" content="noindex">Аналогично можно использовать name=»bingbot», name=»yandex», name=»duckduckbot».
3. Запрет индексации через X-Robots-Tag (HTTP-заголовок)
Этот метод удобен для скрытия изображений, PDF-файлов, API-эндпоинтов, где нельзя редактировать HTML-код.Как запретить индексацию с помощью заголовка в .htaccess (Apache):
Header set X-Robots-Tag "noindex, nofollow"Запрещает индексировать весь сайт.
Закрытие только PDF-файлов:
<FilesMatch ".pdf$"> Header set X-Robots-Tag "noindex, nofollow" </FilesMatch>Этот код запрещает поисковикам индексировать все PDF-документы на сайте.
Запрет индексации картинок:
<FilesMatch «.(jpg|png|gif)$»> Header set X-Robots-Tag «noindex» </FilesMatch> Исключает изображения из индекса Google.4️. Запрет индексации на уровне сервера
На уровне веб-сервера можно настроить запрет поисковым ботам через конфигурационные файлы.Запрет индексации в nginx
Добавьте в конфигурацию сервера:location / { add_header X-Robots-Tag "noindex, nofollow"; }Поисковые системы не смогут индексировать страницы.
Закрытие сайта через 403 Forbidden
Этот метод полностью запрещает доступ к сайту, в том числе для пользователей. location / { deny all; }5. Защита паролем через .htpasswd
Если сайт в разработке, лучше защитить его паролем. Создайте файл .htpasswd и добавьте логин и пароль:user:$apr1$HJH7dkeq$U7dkeq9GnR8/1JY2KwO1/(Пароль можно сгенерировать с помощью .htpasswd-генератора.) В .htaccess настройте защиту:
AuthType Basic AuthName "Закрытый сайт" AuthUserFile /var/www/.htpasswd Require valid-userТеперь ни поисковые системы, ни пользователи не смогут зайти без пароля.
Как проверить, закрыт ли сайт от индексации?
Посмотреть robots.txt
Открываем https://адрес-вашего-сайта/robots.txt и смотрим, какие правила заданы.Проверить мета-тег noindex
- Открываем страницу в браузере.
- Жмем Ctrl+U (Просмотр кода).
- Ищем <meta name=»robots» content=»noindex»>.
Через Google Search Console
Перед проверкой URL в Google Search Console нужно подтвердить права на сайт.- Открываем Google Search Console → Проверка URL.
- Вводим адрес страницы.
- Если видим «Заблокировано robots.txt» или «Исключено по мета-тегу noindex» — индексации нет.
Через Яндекс Вебмастер
Чтобы узнать, индексируется ли страница Яндексом, необходимо сначала авторизоваться.- Открываем Яндекс Вебмастер → слева в меню «Индексирование».
- Выбираем функцию «Проверка ответа сервера».
- В открывшемся окне вставляем URL нужной страницы в специальное поле и запускаем проверку. Если страница закрыта от роботов, сервис уведомит об этом.
Проверка страниц в индексе
Вбиваем в строку поисковых запросов Google или Яндекс:site:example.comЕсли страницы не находятся, значит, сайт закрыт от индексации. Как видите, существует множество способов скрыть сайт от поисковиков — выбирайте тот, который лучше всего подходит под ваши задачи!
Поделиться