Оптимизированный Robots.txt для Opencart и других CMS

opencart

Я заканчиваю доделывать интернет магазин одному из своих заказчиков на платформе opencart3 и перед выкладкой его в интернет и началом его индексирования поисковыми системами решил посмотреть на официальном форуме по Opencart как там дела обстоят с robots.txt к третьей версии, да и вообще почитать что и кто там порекомендует основываясь на своем опыте. Честно скажу, был немного удивлен, потому как там, информация был из серии:

используйте стандартный робот из коробки и все дела!

как вы понимаете этот вариант может устроить если тех,  кто вообще не разбирается и у кого есть впереди свободных пару лет на тесты и изучение поведения паучков)

Следующим шагом решил попытать счастье у своих коллег, но был и там опечален, потому как даже те, кто позиционирует себя как веб студия выкладывали один и тот же скопированный у другого robots без каких то либо пояснений и обоснований – что очень опечалило меня и в итоге буду писать статью на свой стандартный robots.txt который себя зарекомендовал на многих сайтах и ни один год уже в работе и пока не знаю с ним бед!

Итак, представляю Вам идеальный и правильный файл robots.txt для Opencart, WordPress, Bitrix, Joomla, Shop-Script, MODX, NetCat, UMI.CMS, Drupal  оптимизированный под СЕО продвижение в Яндексе и Гугле!

Фал Robots.txt

User-agent: *
Disallow: /admin
Disallow: /system
Disallow: /login
Disallow: /forgot-password
Disallow: /index.php?*
Disallow: /*route=*
Disallow: /*?*
Disallow: /*&*

User-agent: YandexImages
Disallow: /
Allow: /image/

User-agent: Googlebot-Image
Disallow: /
Allow: /image/

Sitemap: https://site/sitemap.xls

Данный ROBOTS.TXT работает при условии:

  1. что у вас включено ЧПУ для всех ссылок
  2. стоят canonical на всех ненужных для индексации страницах
  3. есть четкое понимание, что должно быть в индексе, а что нет!

 

Но что бы объяснить Вам почему мой файл в разы меньше чем те, которые представлены в интернете прошу Вас прочитать весь текст ниже.

User-agent: *

На всех сайтах я постоянно вижу да и что говорить на моем блоге https://www.nibbl.ru/robots.txt висит тоже “детище” какого то очень “высоко квалифицированного” блогера который рекомендовал делать именно такие роботсы на wordpress, но так как это было ну очень давно, а я блогом особо не занимаюсь и успеваю только писать статьи мне некогда заняться его оптимизацией.

Так вот, все рекомендуют делать директиву User-agent:  для всех и каждой поисковой системы)  Тоесть все инструкции начинаются с того, что сначала идет блок правил:

  1. User-agent:*
  2. User-agent: Yandex
  3. User-agent: Google
  4. и т.д.

и самое смешное что правила одни и те же для каждого паука!  Для наглядности посмотрим на скрин с яндекс помощи:
robots.txt по правилам яндекса

Комментарий:

  • Фиолетовый маркер – в них учитываются подстроки Yandex (регистр значения не имеет) или  – тут четко дается понять, что яндексу все равно, что будет указанно, главное должно быть или-или
  • Зеленый маркер – Если обнаружена строка User-agent: Yandex, то строка User-agent: * не учитывается – соответственно это правило действует и наоборот! Если обнаружена User-agent: * то яндекс не будет учитывать User-agent: Yandex

Тоесть тут уже четко дано понять, что для яндекса все равно будет это звездочка или Yandex  он будет учитывать первую считанную директиву и с ней работать!

Вывод: Не нужно плодить блоки директив для каждой поисковой системы достаточно все сделать в User-agent: *

Исключение: как вы понимаете бывают и исключения, если вам надо, что бы в одной поисковой системе это индексировалось, а в другой нет – тогда имеет смысл распределять правила для каждого поискового бота! Но это из разряда какого то мистицизма или шизофрении))))

Allow и Disallow :

Директивы которые позволяют нам дать запрет на показ или индексирование разделов или страниц сайта!

Сразу хочу пояснить что эти директивы не означают, что поисковики не будут ходить по этим ссылкам!!! Они только означают, что эти страницы не попадут в индекс!  Все поисковые роботы сканируют Ваш сайт вдоль и поперек и знают о нем больше чем вы!

По правилам логики разрешения и запрета сперва должны идти разрешающие правила Allow, а только потом идет Disallow (у запрета всегда больший приоритет) , это можно увидеть на самом сайте яндекса https://yandex.ru/robots.txt

блок строк:

Allow: /local
Disallow: /local/api
Disallow: /local/create
Disallow: /local/profile
Disallow: /local/*?event_id

Мы разрешаем индексировать категорию local, НО страницы или подкатегории с именами: api, create, profile и event_id Запрещено!

Для более подробного разбора можно почитать в яндекс помощи (читать)

если почитать инструкцию яндекса, то можно данный код оптимизировать и упростить в несколько строк, для примера в опенкарте есть стандартный страницы:

https://сайт/index.php?route=account/wishlist
https://сайт/index.php?route=checkout/simplecheckout
https://сайт/index.php?route=account/account
https://сайт/index.php?route=account/simpleregister
https://сайт/index.php?route=account/login
https://сайт/index.php?route=product/manufacturer
https://сайт/index.php?route=product/special
https://сайт/index.php?route=information/sitemap
https://сайт/index.php?route=product/compare
https://сайт/index.php?route=account/simpleedit
https://сайт/index.php?route=account/password
https://сайт/index.php?route=account/address

и т.д.

что бы не засорять файл robots перечислениями мы просто пропишем повторяющееся элемент во всех этих строках и закроем его к индексации.

Disallow: /*route=*

таким образом у нам не будут индексироваться данные страниц и все остальные которые имеют в своем url текст route= что бы подкрепить мои слова фактами, вот берем стандартную утилиту яндекс вебмастера, в которой можно проверить на индексацию страницы запрещены она или нет:

яндекс вебмастер проверка страниц robots

Как видите, все страницы запрещены к индексации, тогда как рабочие страницы индексируются нормально!

robots проверка в яндекс вебмастере

и все эти правила можно оптимизировать для всех популярных CMS на сегодняшний день:

Виде Бонуса выкладываю стандартные robots.txt для самых популярных CMS России и Мира

 

HOST

от 20 марта 2018 года на официальном блоге яндекс вебмастеров выложена статья по поводу прекращения поддержик директивы host – статья 

robots директива host

где черным по белому сказано:

её можно удалить из robots.txt или оставить, робот её просто игнорирует

 

Sitemap

Файл sitemap.xml – это файл или как его еще называют карта сайта, который содержит все актуальные страницы сайта которые необходимо показать поисковым роботам для улучшения индексации. С помощью sitemap мы сообщаем поисковым системам (Яндексу и Гуглу), какие страницы Вашего сайта нужно индексировать, как часто обновляется информация на сайте, а также индексирование каких страниц наиболее важно.

Это очень важный файл для интернет магазинов у которых количество страниц очень большое и есть проблемы с индексацией – карта сайта эту проблему решает!

noindex

Это конечно не относится к самому файлу robots.txt но имеет прямое отношение к индексации сайта! Это использование метатег  <meta name=”robots” content=”noindex, follow”>  который четко запрещает к индексации страницы сайта, а также передачу ссылочного веса.

С помощью этого метатега вы можете полностью контролировать и управлять поисковыми роботами на каждой отдельной странице сайта:

  • noindex – Не индексировать текст страницы.
  • nofollow – Не переходить по ссылкам на странице
  • none –    Соответствует директивам noindexnofollow
  • noarchive – Не показывать ссылку на сохраненную копию в результатах поиска
  • noyaca – Не использовать сформированное автоматически описание
  • all – Соответствует директивам index и follow — разрешено индексировать текст и ссылки на странице

Бонус

Стандартный robots.txt для Opencart

[su_spoiler title=”Посмотреть стандартный robots.txt для Ocstore  “]

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter=
Disallow: /*&filter=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=

User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter=
Disallow: /*&filter=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=

Clean-param: tracking

[/su_spoiler]

Стандартный robots.txt для WordPress

[su_spoiler title=”Посмотреть стандартный robots.txt для WordPress”]
User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /*?*
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: */attachment/*
[/su_spoiler]

Стандартный robots.txt для Bitrix

[su_spoiler title=”Скачать стандартный robots.txt для Bitrix”]

User-agent: *
Disallow: /bitrix/
Disallow: /search/
Allow: /search/map.php
Disallow: /auth/
Disallow: /auth.php
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*index.php$
[/su_spoiler]

 

Стандартный robots.txt для Umi-cms

[su_spoiler title=”Скачать стандартный robots.txt для umi-cms”]
User-Agent: Googlebot
Disallow: /?
Disallow: /dlya_vstavki/
Disallow: /admin
Disallow: /index.php
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /emarket/gateway
Disallow: /go-out.php
Disallow: /cron.php
Disallow: /filemonitor.php
Disallow: /search

User-Agent: Yandex
Disallow: /?
Disallow: /dlya_vstavki/
Disallow: /admin
Disallow: /index.php
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /emarket/gateway
Disallow: /go-out.php
Disallow: /cron.php
Disallow: /filemonitor.php
Disallow: /search

User-Agent: *
Disallow: /?
Disallow: /dlya_vstavki/
Disallow: /admin
Disallow: /index.php
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /emarket/gateway
Disallow: /go-out.php
Disallow: /cron.php
Disallow: /filemonitor.php
Disallow: /search

Host: http://ваш сайт
Sitemap: http://ваш сайт
Crawl-delay: 3

[/su_spoiler]

Стандартный robots.txt для Webasyst / Shop-Script

[su_spoiler title=”Скачать стандартный robots.txt для Webasyst или shop-script”]
User-agent: *
Crawl-delay: 2

[/su_spoiler]

Стандартный robots.txt для Joomla

[su_spoiler title=”Скачать стандартный robots.txt для Joomla”]
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

[/su_spoiler]

На этом все! Надеюсь что моя статья была Вам полезна, если у вас есть чем дополнить или покритиковать пишите в комментариях.

admin
Оцените автора
NIBBL
Добавить комментарий

  1. Аркадий

    Спасибо, профессор!

    Только вот никак не въеду, почему мы запрещаем для ocStore индексацию каталога? Не в нем ли находятся все значимые страницы сайта?

    И еще в начале статьи вы писали, что достаточно указать одну строку Disallow: /*route=* Тем не менее в бонусном файле её не употребили, а записали четыре строки с повтором Disallow: /*route=
    Disallow: /*route=account/
    Disallow: /*route=affiliate/
    Disallow: /*route=checkout/
    Disallow: /*route=product/search

    И еще. Сначала у меня был ТОЧНО такой же “бонусный” роботс, сохранившийся по умолчанию от продавца. Я долго не обращал на него внимания, однако через 5 (!!!) месяцев ожидания, не дождавшись в результатах поиска Яндекса ни одного намека на мой сайт, глянул в роботс и увидел кучу Disallow, в том числе на каталог, удалил их все. После этого по прошествии всего пары недель сайт стал появляться в яндексе. Вот такая суровая практика. И сейчас я в растерянности, какие же запрещающие директивы поставить, дабы ограничить индексацию ненужных страниц?

    Ответить
    1. admin автор

      подходить к роботсу надо очень аккуратно и с трезвой головой.

      Ответить
  2. Илья

    яндекс вебмастер сильно ругался на такие ссылки сайт/volt-engineering-amper-t-e-16-1-80-v2-0?manufacturer_id=15, запретил в роботе Disallow: /*?manufacturer_id=*. Правильно?

    Ответить
    1. admin автор

      достаточно сделать так:
      Disallow: /*?

      Ответить