Полное руководство по метатегам robots и x-robots-tag

Тег и как его применять

Тег — это структурная единица HTML разметки, а все что внутри, называют содержанием элемента.

Что такое тег <noindex>?

<noindex> — тег, который используется для закрытия определенных участков текста. Контент внутри будет недоступен для индексации поисковыми системами, такими как Yandex и Rambler. То есть, с его помощью, мы запрещаем боту сканировать часть контента. Эту конструкцию правильно использовать внутри <body></body> в таком виде:

<noindex>нас не увидят</noindex>

Важно помнить: не стандартизирован компанией Google и не относится к официальной разметке HTML. Поэтому, будет вызывать ошибки в коде

Так как Google этот тег не знает, то и скрыть контент от индексации не сможет.

Валидность HTML сохраняется с использованием специальной конструкции:

<!--noindex-->Мы спрятались 0_0<!--/noindex-->

Когда использовать?

На тот случай, когда мы не хотим затрагивать основной контент страницы, а только скрыть определенные служебные участки текста. Тогда на помощь приходить тег который не разрешит поисковикам добавить выбранный участок в индексную базу.

“А смысл нам что-то скрывать?” — спросите вы.

А поисковый робот ответит: “Берегите уникальность своего контента и это вернется вам высокими позициями в выдаче”.

Поисковые системы любят сайты с уникальным наполнением и за это благодарят их высокими позициями в выдаче. На ранжирование влияет ряд негативных факторов:

  • выдержки из законодательства;
  • цитирование чужих авторов;
  • служебный контент на вашем ресурсе;
  • периодически дублирующий текст;
  • сохранить контент от переспама ключевыми словами для Yandex и Rambler.

Test robots.txt using Search Console

The robots.txt Tester tool in Search Console (under Crawl) is a popular and largely effective way to check a new version of your file for any errors before it goes live, or test a specific URL to see whether it’s blocked:

However, this tool doesn’t work exactly the same way as Google, with some subtle differences in conflicting Allow/Disallow rules which are the same length.

The robots.txt testing tool reports these as Allowed, however Google has said ‘If the outcome is undefined, robots.txt evaluators may choose to either allow or disallow crawling. Because of that, it’s not recommended to rely on either outcome being used across the board.’

For more detail, read . 

Суть тега

Тег <noindex> – это HTML-тег, который запрещает Яндексу индексировать ту или иную область страницы сайта. Для поисковой системы Google этот тег не работает, более того, в Google вообще не предусмотрена возможность исключения части текста страницы из индекса.

Заблуждение №1. Основная ошибка людей, которые используют этот тег, заключается в убеждении, что если часть какого-либо текста помещена между открывающимся и закрывающимся тегом <noindex>, то робот Яндекса не станет читать и анализировать этот текст.

Единственное, что данный тег запрещает – это помещение содержимого в индексную базу, но это содержимое в любом случае будет прочитано и проанализировано роботом.

Пример: На странице вашего сайта расположен некоторый текст, использующий прямые вхождения предложений из других сторонних источников. Следовательно, эти предложения снижают уникальность вашего текста, а вам необходимо, чтобы уникальность была 100%. Вы решаете закрыть эти предложения тегом <noindex>, чтобы Яндекс считал ваш текст уникальным. Это заблуждение.

Абсолютно весь текст вашей страницы будет прочитан и обработан роботом, и ему будет известно, что текст вашей страницы не является уникальным.

Сама суть тега <noindex> – «не индексировать», значит запрета на чтение нет.

Предположим, что поисковый робот зашел на вашу страницу и начал сканировать содержимое. В какой-то момент робот находит открытие тега <noindex>, что является сигналом роботу – дальше текст не индексировать. Но чтобы найти то место кода, где тег <noindex> закрывается, роботу необходимо прочесть содержимое, идущее после открытия данного тега. Следовательно, даже теоретически нельзя запретить роботам читать содержимое с помощью тега <noindex>.

Для чего же тогда нужен тег <noindex>?

Он нужен непосредственно для того, чтобы запретить роботу выдавать в выдаче своей поисковой системы какую-либо информацию. Это могут быть, к примеру, контакты, которые по каким-либо причинам не должны отображаться в выдаче.

Заблуждение №2. Ещё одно заблуждение, которое часто встречается среди владельцев сайтов, – это мнение, что ссылка, помещенная в тег <noindex>, не будет учтена поисковым роботом. Как я говорил ранее, всё, что находится внутри тега <noindex>, будет прочитано и проанализировано роботом Яндекса. И ссылки не являются исключением. Единственное отличие размещенных обычным образом ссылок от ссылок в теге <noindex> – это то, что текст (анкор) ссылки не будет проиндексирован.

Существует два способа написания тега <noindex> в коде:

  1. <noindex>Текст, запрещённый к индексированию</noindex>
  2. <!–noindex–>Текст, запрещённый к индексированию<!–/noindex–>

Второй вариант более верный. Так как тег не входит в официальную спецификацию языка разметки HTML, то его присутствие в коде может вызвать недопонимание у других поисковых систем, которые будут считать его наличие за ошибку. Чтобы сделать код страницы валидным, для всех поисковых роботов рекомендуется использовать закомментированный вариант написания

Яндекс такое написание распознает, а другие поисковые роботы не будет обращать внимание на его присутствие

1 Использование Robots.txt для изображений

Robots.txt – это файл, расположенный в корне вашего сайта, который предоставляет роботам Google, Bing и других поисковых систем инструкции о том, что сканировать, а что нет. Хотя robots.txt обычно используется для управления поисковым трафиком и поисковыми роботами (мобильными и настольными), его также можно использовать для предотвращения появления изображений в результатах поиска Google.

Файл robots.txt обычных веб-сайтов WordPress будет выглядеть так:

Стандартный файл robots.txt начинается с инструкции для пользовательского агента и символа звездочки. Звездочка – это инструкция для всех ботов, которые приходят на сайт, следовать всем инструкциям, приведенным ниже.

Держите ботов подальше от определенных цифровых файлов, используя Robot.txt

Robots.txt также можно использовать, чтобы остановить сканирование поисковыми системами цифровых файлов, таких как PDF, JPEG или MP4. Чтобы заблокировать сканирование файлов PDF и JPEG при поиске, необходимо добавить в файл robots.txt следующее:

PDF файлы

Картинки

Если вы хотите заблокировать индексирование и отображение всех изображений .GIF в поиске изображений Google, разрешив при этом другие форматы изображений, такие как JPEG и PNG, вам следует использовать следующие правила:

Важно: приведенные выше фрагменты просто исключат ваш контент из индексации сторонними сайтами, такими как Google. Они по-прежнему доступны, если кто-то знает, где искать

Чтобы сделать файлы приватными, чтобы никто не мог получить к ним доступ, вам нужно будет использовать другой метод, например, эти плагины ограничения содержимого.

Googlebot-Image может использоваться для блокировки изображений и определенного расширения изображения от появления в поиске изображений Google. Если вы хотите исключить их из всех поисков Google, например, из веб-поиска и изображений, рекомендуется вместо этого использовать пользовательский агент Googlebot.

Другие пользовательские агенты Google для различных элементов на веб-сайте включают Googlebot-Video для видео, применяемых в разделе видео Google в Интернете. Точно так же использование пользовательского агента Googlebot заблокирует отображение всех видео в видеороликах Google, веб-поиске или мобильном веб-поиске.

Имейте в виду, что использование Robots.txt не является подходящим методом блокировки важных или конфиденциальных файлов и содержимого из-за следующих ограничений:

  • Robots.txt может инструктировать только хорошо подготовленных поисковых роботов; другие несовместимые поисковые системы и боты могут просто игнорировать его инструкции.
  • Robots.txt не мешает вашему серверу отправлять эти страницы и файлы неавторизованным пользователям по запросу.
  • Поисковые системы по-прежнему могут находить и индексировать заблокированные вами страницы и контент, если на них есть ссылки с других веб-сайтов и источников.
  • Robots.txt доступен для всех, кто затем сможет прочитать все предоставленные вами инструкции и получить прямой доступ к этому контенту и файлам.

Чтобы заблокировать поисковую индексацию и более эффективно защитить вашу личную информацию, используйте вместо этого следующие методы.

Метатег robots: cинтаксис, виды и примеры

Напомним, что метатег robots — это информация для робота в html-коде. Этот тег размещают в верхнем разделе <head> в html-документе и у него неизменно есть два атрибута — name и content, в которых указывают название робота и директивы для него. Атрибуты метатега всегда должны быть заполнены. В упрощенном виде он выглядит так:

Атрибут name 

Этот параметр определяет тип метатега в зависимости от данных страницы, которые он передает поисковым системам. Например, meta name=»description» — краткое описание страницы в сниппете; meta name=»viewport» нужен для оптимизации сайта для мобильных устройств; meta http-equiv=»Content-Type» задает тип документа и его кодировки.

В случае с метатегом meta name=»robots» атрибут name содержит имя робота, для которого действуют правила, перечисленные в атрибуте content. Его функция аналогична директиве User-agent в robots.txt, содержащей идентификатор бота той или иной поисковой системы. 

Значение robots используют, если нужно обратиться к краулерам всех поисковиков. Тег meta «googlebot», «yandex» или «любой другой бот» говорит о том, что инструкции адресованы соответствующему поисковому роботу. Если краулеров несколько, для каждого создают отдельный тег. 

Атрибут content 

Этот атрибут содержит команды, с помощью которых управляют индексированием контента на странице и отображением его элементов в результатах поиска. В него добавляют директивы из приведенных выше таблиц.

Примечания:

  • Оба атрибута не чувствительны к регистру.
  • Если значения атрибутов отсутствуют или заполнены неверно, бот проигнорирует запрет индексации. 
  • При обращении к нескольким роботам используют отдельный метатег robots для каждого. Директивы атрибута content можно перечислять через запятую в одном метатеге robots.

Файл robots.txt и метатег robots meta

При обходе сайта поисковые боты в первую очередь обращаются к файлу robots.txt. В нем они получают рекомендации по сканированию страниц и затем переходят к их обработке. Поэтому если доступ к странице закрыт в файле robots.txt, робот не сможет просканировать страницу и обнаружить в коде запрет индексации. 

Если страница содержит атрибут noindex, но при этом закрыта от сканирования в robots.txt, она может отобразиться в результатах поиска — например, если робот найдет страницу, перейдя по обратной ссылке из другого источника. Содержимое файла robots.txt является общедоступным, поэтому нельзя быть уверенными, что на «закрытые» страницы не будет переходов.

Следовательно, закрывая страницу от индексации метатегом robots, стоит убедиться в отсутствии препятствий для ее сканирования в файле robots.txt. К исключениям, когда robots.txt имеет смысл использовать для скрытия из индекса, относятся изображения.

Как внедрять метатег robots

Через html-редактор

Редактирование страниц аналогично работе с текстовым файлом. Нужно найти документ, открыть его в текстовом редакторе, добавить метатеги robots в раздел <head> и сохранить. 

Страницы находятся в корневом каталоге сайта, куда можно перейти из персонального аккаунта хостинг-провайдера или по FTP. Перед внесением правок стоит сохранить исходный вариант документа.

Через CMS

Более простой способ закрыть страницу от индексации — через админпанель CMS. Например, SEO-плагины «All in one SEO» и «Yoast SEO» для WordPress дают возможность запретить индексацию или переходы по ссылкам в режиме редактирования страницы.

Как проверить метатег robots

Поисковой машине нужно время, чтобы проиндексировать/деиндексировать страницу. Чтобы убедиться в отсутствии страницы в поиске, нужно воспользоваться сервисом для вебмастеров или плагином для браузера, проверяющим метатеги, например, SEO META in 1 CLICK для Chrome.

Google и Яндекс дают возможность проверить наличие страницы в индексе — для этого есть инструмент «Проверка URL» Google Search Console и аналогичная опция «Проверить статус URL» в Яндекс.Вебмастере.

Если анализ страницы показал, что метатег robots не сработал, нужно проверить, не заблокирован ли этот URL в файле robots.txt, обратившись к этому файлу через строку браузера или используя инструмент для проверки от или Яндекса.

Также проверить наличие страниц в индексе для разных поисковых систем можно с помощью инструмента «Проверка индексации» в SE Ranking.

Тег noindex

Noindex применяется для того, чтобы сообщить роботу «Яндекса» о том, что нельзя индексировать определенные части веб-страницы. Тег размещается в HTML-коде и имеет закрывающий тег. Контент, оказавшийся между открывающим и закрывающим тегами, будет игнорироваться ботом.

Тег noindex был придуман «Яндексом», и в настоящее время только два поисковика учитывают его: «Яндекс» и «Рамблер». Боты других поисковых систем игнорируют тег и все равно индексируют всю веб-страницу полностью. Кроме того, тег не может запретить индексировать гиперссылки и передавать по ним вес другому веб-ресурсу.

Запрещающий тег Noindex для Яндекса
Тег Noindex

Валидность

Тег <noindex> не стандартизирован, поэтому его применение может привести к появлению ошибок в коде. Вследствие этого его записывают немного по-другому. В коде страницы этот тег выглядит так:

<!—noindex—>

«Текст, который не должен индексироваться Яндексом»

<!—/noindex—>

Восклицательные знаки и дефисы применяются для валидации кода. Если не использовать эти символы (а писать без них, как это бывает с обычными тегами), то проверка на валидность будет показывать ошибку.

При верном использовании этого тега страница будет правильно восприниматься «Яндексом», Google и другими поисковыми роботами. При этом «Яндекс» поймет, что часть контента надо исключить из индексации, а Google сделает вывод, что в коде нет ошибок, и будет индексировать полностью. У поисковой системы «Гугл» нет аналогичного тега, несмотря на то, что у такого элемента есть много плюсов.

Когда применяется noindex

Этот тег приносит неоспоримую пользу веб-ресурсу. Его применяют, когда надо:

  • скрыть от ботов часть HTML-кода, например коды счетчиков;

  • запретить индексировать часто меняющийся текст веб-страницы, который бессмысленно добавлять в индекс;

  • скрыть неуникальные фрагменты текста, чтобы не терять позиции в поисковой выдаче из-за неуникальности.

Директивы Meta Robots, которые стоит использовать в SEO

Как мы видим из предыдущей таблицы, не все атрибуты метатега Robots поддерживаются поисковой системой Google, под которую оптимизируют сайты большинство разработчиков и SEO-специалистов. Поэтому рассмотрим те атрибуты метатега Robots, которые поддерживаются Google:

  1. nosnippet,
  2. noimageindex,
  3. noarchive,
  4. unavailable_after.

Все они прописываются в блоке страницы, к которой вы хотите применить те или иные инструкции по индексации.

Nosnippet

Для решения проблемы вам следует использовать инструкцию следующего вида:

Также важно учитывать, что атрибут nosnippet отключает и отображение расширенных сниппетов в результатах поиска. К тому же, исследование HubSpot показало, что сниппеты с расширенной информацией получают в два раза больше кликов

Соответственно, отключение сниппета может стать причиной снижения CTR вашего сайта или отдельных его страниц

К тому же, исследование HubSpot показало, что сниппеты с расширенной информацией получают в два раза больше кликов. Соответственно, отключение сниппета может стать причиной снижения CTR вашего сайта или отдельных его страниц.

Noimageindex

Директива noimageindex позволит скрыть графический контент на вашем сайте из результатов поиска по картинкам. Это может быть полезно, если вы, к примеру, хотите разместить на своём блоге уникальные изображения и при этом минимизировать риск воровства.

Чтобы запретить поисковым системам индексировать изображения, задайте в блоке html-документа следующую директиву:

Действие необходимо повторить с каждой страницей, которая содержит изображения, которые вы хотите скрыть от поисковиков. Учитывайте, что если другие сайты уже ссылались на ваши изображения, поисковики могут продолжать индексировать их.

Запрещая индексацию изображений, не забывайте о том, что поиск по картинкам может приносить хороший дополнительный трафик вашему сайту.

Noarchive

Вопреки распространённому мнению, директива noarchive никак не влияет на ранжирование — эту информацию подтвердил в своем Твиттере ведущий аналитик компании Google, специалист отдела качества поиска по работе с вебмастерами Джон Мюллер (John Mueller).

Unavailable_after

Директива unavailable_after наиболее актуальна для страниц с акционными предложениями. Так как по истечению времени действия акции они теряют свою актуальность, вы можете указать поисковикам дату крайнего срока индексации контента. Дату и время нужно указывать в формате RFC 850.

К примеру, если вам нужно исключить возможность индексации страницы после 25 марта 2019 года, используйте метатег следующего вида:

Отдельно отметим, что для правильного функционирования тега необходимо, чтобы он был прописан до первого обхода роботом. В таком случае запрос на удаление из поисковой выдачи займёт примерно сутки после указанной даты.

Types of robots meta directives

There are two main types of robots meta directives: the meta robots tag and the x-robots-tag. Any parameter that can be used in a meta robots tag can also be specified in an x-robots-tag.

We’ll talk about both the meta robots and x-robots tag directives below.

Meta robots tag

The meta robots tag, commonly known as «meta robots» or colloquially as a «robots tag,» is part of a web page’s HTML code and appears as code elements within a web page’s section:

Code sample:

<pre><meta name=»robots» content=»»></pre>

While the general tag is standard, you can also provide directives to specific crawlers by replacing the «robots» with the name of a specific user-agent. For example, to target a directive specifically to Googlebot, you’d use the following code:

<meta name="googlebot" content="">

Want to use more than one directive on a page? As long as they’re targeted to the same «robot» (user-agent), multiple directives can be included in one meta directive – just separate them by commas. Here’s an example:

<meta name="robots" content="noimageindex, nofollow, nosnippet">

This tag would tell robots not to index any of the images on a page, follow any of the links, or show a snippet of the page when it appears on a SERP.

If you’re using different meta robots tag directives for different search user-agents, you’ll need to use separate tags for each bot.

Updates from 29/08/2018:

I wanted to take the time and mention the new figures from 29th of August 2018.

The number of websites that I analyze has increased dramatically. The original article referred to the data extracted from 50,000 hotel websites. Now I analyze ~875,000 unique hotel websites (unique domains).

The findings from these 875,000+ hotel websites shows that 1.502% of hotel websites use NOINDEX or NONE as their meta robots value.

The percentage doesn’t seem high, but that’s over 13,000 of hotel websites that effectively block all search engine bots from indexing their websites.

Granted, some of them are doing this while performing maintenance on their websites. Other websites are actually trying to keep a low profile and display their business only via direct linking.

Проверка правильности Meta Robots и его содержимого в Netpeak Spider

Перед проверкой атрибутов Meta Robots важно узнать, какие страницы индексируются на сайте, иначе не будет смысла внедрять вышеописанные атрибуты. Программа доступна для операционных систем Microsoft Windows и Mac OS, поддержка платформы Linux в данный момент не доступна, но находится в разработке

Вы можете пользоваться бесплатной версией в течение 14 дней без каких либо ограничений

Программа доступна для операционных систем Microsoft Windows и Mac OS, поддержка платформы Linux в данный момент не доступна, но находится в разработке. Вы можете пользоваться бесплатной версией в течение 14 дней без каких либо ограничений.

Воспользуйтесь промокодом при оформлении заказа и получите специальную скидку 10% на покупку Netpeak Spider и Netpeak Checker!

С помощью Netpeak Spider вы можете найти запрещённые к индексации страницы. На таких страницах программа делает особый акцент, отмечая ошибками:

  • Заблокировано в Meta Robots. Показывает страницы, запрещённые к индексации с помощью инструкции в блоке .
  • Nofollow в Meta Robots. Показывает страницы, содержащие инструкции в блоке .

Для проверки сайта откройте программу и перейдите на вкладку «Параметры» на боковой панели. Найдите раздел «Индексация» и проверьте, отмечен ли галочкой пункт «Meta Robots». Если пункт не будет отмечен, программа не проанализирует метатег, и вы в финальном отчёте не увидите данных о нём.

Для сканирования всего сайта введите его начальный URL в адресную строку и нажмите кнопку «Старт». Если вам необходимо просканировать список страниц, зайдите в меню «Список URL» и выберите удобный вам способ добавления URL (ввести вручную, загрузить из файла или Sitemap, вставить из буфера обмена), после чего запустите сканирование.

По завершению сканирования получить информацию о Meta Robots вы можете несколькими путями:

1. В основной таблице на вкладке «Все результаты». В столбце Meta Robots просмотрите директивы, которые содержатся в соответствующем теге каждой из просканированных страниц.

2. На вкладке «Ошибки» боковой панели. Найдите ошибки, связанные с Meta Robots, и кликните по их названию. В таблице отфильтрованных результатов вы увидите полный список страниц, на которых были найдены эти ошибки.

3. На вкладке «Дашборд». Вы можете просмотреть данные в виде диаграмм об индексируемых страницах на сайте, а также узнать причины их неиндексируемости. Кликните на интересующую вас область, чтобы получить список страниц, соответствующих тому или иному значению.

4. На вкладке «Сводка» на боковой панели. Здесь вы можете ознакомиться как закрытыми от индексации страницами, так и посмотреть, какие ещё значения помимо noindex, nofollow заданы в метатеге Robots. Найдите пункт «Meta Robots» со списком всех имеющихся на сайте директив. Кликните на любую из них, чтобы ознакомиться со страницами, на которых они были найдены.

При необходимости вы можете воспользоваться функцией «Экспорт», чтобы выгрузить отфильтрованные результаты в отдельный файл формата на свой компьютер. Нажмите на кнопку «Экспорт» в левом верхнем углу над результатами сканирования или выберите в соответствующем меню команду «Результаты в текущей таблице».

Заключение

Метатег robots и тег x-robots — это инструменты для управления индексацией и отображением страниц сайта в результатах поиска. Отличаются они способом реализации: метатег robots указывают в коде страницы, а X-Robots-Tag — в файле конфигурации на сервере. У них есть и другие особенности:

  • Если robots.txt отвечает за сканирование страниц роботом, то meta robots и X-Robots-Tag влияют на попадание контента в индекс поисковиков. Их настройка является частью технической оптимизации.
  • Оба подхода направлены на запрет индексации, но при использовании X-Robots-Tag робот получает информацию без необходимости обхода страницы, что экономит краулинговый бюджет.
  • Если в файле robots.txt стоит запрет сканирования страницы, директива метатега или заголовка для нее не сработает. 
  • Ошибки в настройках метатега robots и X-Robots-Tag могут привести к попаданию нежелательных страниц в индекс и проблемам в работе сайта. Вносить правки нужно внимательно или доверить это вебмастеру.

Просмотры:
3 296

Анна Чудная

Анна – фрилансер в сфере продвижения сайтов, который также пишет статьи для тех, кто хочет лучше разбираться в теме SEO и интернет-маркетинга.

Последние 2 года Аня работает удаленно и ведет образ жизни «цифрового кочевника», пробуя жить понемногу в разных городах и странах. Также ее вдохновляет природа, пешие и велосипедные прогулки.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector