Продолжаю марафон, в ходе которого я рассказываю, как создать хороший сайт для заработка на продаже вечных ссылок и контексте. После прохождения 6 статей марафона, сайт почти готов. Теперь нужно его немного оптимизировать для поисковых систем.

Во-первых, рекомендую почитать рекомендации Яндекса по созданию сайта. Нужно было раньше дать на них ссылки, но и сейчас «самое время». Так вот, в этом руководстве для правильного индексирования сайта, веб-мастерам рекомендуется использовать файл robots.txt и создать карту сайта в формате XML. Начнем с карты сайта.

Sitemaps XML

Из Википедии:

Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации

Чтобы создать карту сайта XML в WordPress нужно скачать плагин Google XML Sitemaps и установить его. Про установку читайте тут.

Чтобы сделать sitemap.xml в DLE нужно зайти в админку и в списке всех разделов найти пункт «Карта сайта для Google и Yandex. Данный модуль предназначен для создания карт сайта для поисковых систем Google и Yandex.» Дальше разберетесь :).

Если вы используете другой движок, ищите информацию по созданию карты сайта в XML в поисковиках.

Файл Robots.txt

О том, что такое robots.txt и для чего он нужен, читайте здесь. Разобравшись с этой статьей, вы поймете как сделать правильный robots.txt и что в нем писать.

Говоря простым языком, файл Robots.txt нужен для того, чтобы запретить индексацию ненужных страниц нашего сайта. Под ненужными страницами понимаются страницы не содержащие полезной информации и делающие сайт менее качественным в глазах поисковой системы. Например страницы RSS фида, страницы поиска, регистрации, профили пользователей, страницы, дублирующие информацию и т.д.

Я приведу свои примеры файла robots txt для wordpress и для DLE и коротко их прокомментирую.

Robots.txt для wordpress

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Disallow: /*page/
Disallow: /tag/
Disallow: /?s=

Sitemap: http://vash-site.ru/sitemap.xml

Host: vash-site.ru

Что у нас получается:
Allow: /wp-content/uploads/
Разрешаем индексировать папку wp-content/uploads/. Чтобы робот индексировал картинки и прочие файлы, которые мы загрузили.

Disallow: /cgi-bin
Запрещаем индексировать все, что лежит в папке cgi-bin

Disallow: /wp-login.php
Запрет индексации страницы wp-login.php. Вход в админку не несет никакой полезной информации и его нужно запретить к индексации.

Disallow: /wp-register.php
То же самое и со страницей регистрации – wp-register.php.

Disallow: /xmlrpc.php
Запрещаем индексацию файла xmlrpc.php. Какой-то файлик, который отвечает за вызов удаленных процедур в WP.

Disallow: /wp-admin/
Запрещаем индексировать админ панель WordPress.

Disallow: /wp-includes/
Даем указание не индексировать файлы, находящиеся в директории wp-includes

Disallow: /wp-content/
Запрещаем индексацию в директории wp-content. Внутри нее у нас лежат папки: с темами themes, плагинами – plugins, папка cache, если используются плагины для кеширования страниц и т.д. То есть, куча бесполезного, что не нужно индексировать. Единственное что представляет ценность это папка wp-content/uploads/, но мы ее уже разрешили индексировать в начале.

Disallow: /trackback/
Disallow: */trackback/

Что-то связанное с трекбеками. Подглядел где-то и включил в свой файл robots.txt

Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=

Запрещаем индексацию всего, что связано с фидами. Тоже где-то подглядел, особо не разбирался.

Disallow: /page/
Запрет индексации страниц с постами. (Страница 1 из 12345678»…В конец ») В принципе страницы содержат полезную информацию, но индексировать их не нужно. Потому что страницы не оптимизируются по каким-либо запросами содержат дублированный контент.

Disallow: /tag/
Также будет правильным запретить тэги (метки). Яндекс не очень любит их из-за дублированного контента. Но если грамотно распределять посты по меткам и в анонсах статей писать уникальные описания, и к каждой статье не добавлять кучу меток, а одну-две, то можно и разрешить индексировать тэги. Лично я на своем новом сайте запрещаю.

Disallow: /?s=
Не индексируем страницы результатов поиска. Вот это просто обязательно.

Sitemap: http://vash-site.ru/sitemap.xml
Указываем поисковому роботу путь к карте сайта в формате xml.

Host: vash-site.ru
Обозначаем что сайт vash-site.ru является главным зеркалом.

Robots.txt для DLE

Правильный robots.txt для dle также как и для Worrdpress должен запретить индексацию ненужных страниц. В зависимости от типа выбранного ЧПУ в настройках DLE файл роботс.тхт будет различным. Вот что я пишу в общем случае в файле robots.txt для dle:

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin.php
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=search
Disallow: /index.php?do=pm
Disallow: /engine/
Disallow: /index.php?do=register
Disallow: /index.php?do=addnews
Disallow: /autobackup.php
Disallow: /backup/
Disallow: /user/
Disallow: /language/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /index.php?do=stats
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Disallow: /*print
Disallow: /*page/
Disallow: /templates/
Disallow: /tags/

Sitemap: http://vash-site.ru/sitemap.xml

Host: vash-site.ru

Теперь подробнее:
Disallow: /cgi-bin/
Папка cgi-bin не будет индексироваться.

Disallow: /admin.php
Закрываем от индексации админ панель DLE

Disallow: /index.php?do=lastcomments
Запрещаем индексить страницу с последними комментариями.

Disallow: /index.php?do=feedback
Запрет индексации страницы «Обратная связь».

Disallow: /index.php?do=lostpassword
Страница восстановления пароля тоже не будет индексироваться.

Disallow: /index.php?do=search
Запрещаем индексировать страницы с результатами поиска.

Disallow: /index.php?do=pm
Не индексируем персональные сообщения пользователей (ПМ)

Disallow: /engine/
Запрещаем индексировать каталог engine, в котором у нас хранится cache, modules и прочее.

Disallow: /index.php?do=register
Закрываем от поисковиков страницу регистрации новых юзеров.

Disallow: /index.php?do=addnews
И страницу добавления новостей.

Disallow: /autobackup.php
Disallow: /backup/

Прячем от индексации бекапы.

Disallow: /user/
Запрет на индексацию профилей пользователей.

Disallow: /language/
Запрещаем языковые фалы.

Disallow: /favorites/
Не индексируем то, что находится в избранном у пользователя.

Disallow: /statistics.html
Disallow: /index.php?do=stats

Запрет на индексацию страницы «Статистика».

Disallow: /index.php?subaction=newposts
Disallow: /newposts/

Не индексируем страницу «непрочитанных новостей» .

Disallow: /*print
Не индексируем «распечатанные страницы». Это будет правильным, не только потому что так мы избавляемся от дублированного контента, но еще и потому, что в поиске могут участвовать распечатанные страницы, а не основные страницы. Тогда пользователь не увидит рекламы, а просто текст новости – нам это не выгодно.

Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад << 1 2 3 4 5 6 7 8 9 10 … 26 >> Следующая страница) .

Disallow: /templates/
Запрет на индексацию каталога с шаблонами – templates.

Disallow: /tags/
Не индексируем тэги. Это не обязательно, но я бы закрывал тэги от индексации.

Sitemap: http://vash-site.ru/sitemap.xml
Указываем путь к файлу с картой сайта в формате XML.

Host: vash-site.ru
Обозначаем что vash-site.ru является главным зеркалом.

Надеюсь проблем не возникнет и вы составите правильный Robots.txt. Или можете взять такой же как привел я.

Только обратите внимание: vash-site.ru обязательно замените на домен вашего сайта.