Марафон, день 7. Создаем файл Robots.txt и карту сайта в XML
Продажа ссылок 28.06.2010Продолжаю марафон, в ходе которого я рассказываю, как создать хороший сайт для заработка на продаже вечных ссылок и контексте. После прохождения 6 статей марафона, сайт почти готов. Теперь нужно его немного оптимизировать для поисковых систем.
Во-первых, рекомендую почитать рекомендации Яндекса по созданию сайта. Нужно было раньше дать на них ссылки, но и сейчас «самое время». Так вот, в этом руководстве для правильного индексирования сайта, веб-мастерам рекомендуется использовать файл robots.txt и создать карту сайта в формате XML. Начнем с карты сайта.
Sitemaps XML
Из Википедии:
Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации
Чтобы создать карту сайта XML в Wordpress нужно скачать плагин Google XML Sitemaps и установить его. Про установку читайте тут.
Чтобы сделать sitemap.xml в DLE нужно зайти в админку и в списке всех разделов найти пункт «Карта сайта для Google и Yandex. Данный модуль предназначен для создания карт сайта для поисковых систем Google и Yandex.» Дальше разберетесь
.
Если вы используете другой движок, ищите информацию по созданию карты сайта в XML в поисковиках.
Файл Robots.txt
О том, что такое robots.txt и для чего он нужен, читайте здесь. Разобравшись с этой статьей, вы поймете как сделать правильный robots.txt и что в нем писать.
Говоря простым языком, файл Robots.txt нужен для того, чтобы запретить индексацию ненужных страниц нашего сайта. Под ненужными страницами понимаются страницы не содержащие полезной информации и делающие сайт менее качественным в глазах поисковой системы. Например страницы RSS фида, страницы поиска, регистрации, профили пользователей, страницы, дублирующие информацию и т.д.
Я приведу свои примеры файла robots txt для wordpress и для DLE и коротко их прокомментирую.
Robots.txt для wordpress
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Disallow: /*page/
Disallow: /tag/
Disallow: /?s=Sitemap: http://vash-site.ru/sitemap.xml
Host: vash-site.ru
Что у нас получается:
Allow: /wp-content/uploads/
Разрешаем индексировать папку wp-content/uploads/. Чтобы робот индексировал картинки и прочие файлы, которые мы загрузили.
Disallow: /cgi-bin
Запрещаем индексировать все, что лежит в папке cgi-bin
Disallow: /wp-login.php
Запрет индексации страницы wp-login.php. Вход в админку не несет никакой полезной информации и его нужно запретить к индексации.
Disallow: /wp-register.php
То же самое и со страницей регистрации – wp-register.php.
Disallow: /xmlrpc.php
Запрещаем индексацию файла xmlrpc.php. Какой-то файлик, который отвечает за вызов удаленных процедур в WP.
Disallow: /wp-admin/
Запрещаем индексировать админ панель Wordpress.
Disallow: /wp-includes/
Даем указание не индексировать файлы, находящиеся в директории wp-includes
Disallow: /wp-content/
Запрещаем индексацию в директории wp-content. Внутри нее у нас лежат папки: с темами themes, плагинами – plugins, папка cache, если используются плагины для кеширования страниц и т.д. То есть, куча бесполезного, что не нужно индексировать. Единственное что представляет ценность это папка wp-content/uploads/, но мы ее уже разрешили индексировать в начале.
Disallow: /trackback/
Disallow: */trackback/
Что-то связанное с трекбеками. Подглядел где-то и включил в свой файл robots.txt
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Запрещаем индексацию всего, что связано с фидами. Тоже где-то подглядел, особо не разбирался.
Disallow: /page/
Запрет индексации страниц с постами. (Страница 1 из 12345678»…В конец ») В принципе страницы содержат полезную информацию, но индексировать их не нужно. Потому что страницы не оптимизируются по каким-либо запросами содержат дублированный контент.
Disallow: /tag/
Также будет правильным запретить тэги (метки). Яндекс не очень любит их из-за дублированного контента. Но если грамотно распределять посты по меткам и в анонсах статей писать уникальные описания, и к каждой статье не добавлять кучу меток, а одну-две, то можно и разрешить индексировать тэги. Лично я на своем новом сайте запрещаю.
Disallow: /?s=
Не индексируем страницы результатов поиска. Вот это просто обязательно.
Sitemap: http://vash-site.ru/sitemap.xml
Указываем поисковому роботу путь к карте сайта в формате xml.
Host: vash-site.ru
Обозначаем что сайт vash-site.ru является главным зеркалом.
Robots.txt для DLE
Правильный robots.txt для dle также как и для Worrdpress должен запретить индексацию ненужных страниц. В зависимости от типа выбранного ЧПУ в настройках DLE файл роботс.тхт будет различным. Вот что я пишу в общем случае в файле robots.txt для dle:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin.php
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=search
Disallow: /index.php?do=pm
Disallow: /engine/
Disallow: /index.php?do=register
Disallow: /index.php?do=addnews
Disallow: /autobackup.php
Disallow: /backup/
Disallow: /user/
Disallow: /language/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /index.php?do=stats
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Disallow: /*print
Disallow: /page/
Disallow: /templates/
Disallow: /tags/Sitemap: http://vash-site.ru/sitemap.xml
Host: vash-site.ru
Теперь подробнее:
Disallow: /cgi-bin/
Папка cgi-bin не будет индексироваться.
Disallow: /admin.php
Закрываем от индексации админ панель DLE
Disallow: /index.php?do=lastcomments
Запрещаем индексить страницу с последними комментариями.
Disallow: /index.php?do=feedback
Запрет индексации страницы «Обратная связь».
Disallow: /index.php?do=lostpassword
Страница восстановления пароля тоже не будет индексироваться.
Disallow: /index.php?do=search
Запрещаем индексировать страницы с результатами поиска.
Disallow: /index.php?do=pm
Не индексируем персональные сообщения пользователей (ПМ)
Disallow: /engine/
Запрещаем индексировать каталог engine, в котором у нас хранится cache, modules и прочее.
Disallow: /index.php?do=register
Закрываем от поисковиков страницу регистрации новых юзеров.
Disallow: /index.php?do=addnews
И страницу добавления новостей.
Disallow: /autobackup.php
Disallow: /backup/
Прячем от индексации бекапы.
Disallow: /user/
Запрет на индексацию профилей пользователей.
Disallow: /language/
Запрещаем языковые фалы.
Disallow: /favorites/
Не индексируем то, что находится в избранном у пользователя.
Disallow: /statistics.html
Disallow: /index.php?do=stats
Запрет на индексацию страницы «Статистика».
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Не индексируем страницу «непрочитанных новостей» .
Disallow: /*print
Не индексируем «распечатанные страницы». Это будет правильным, не только потому что так мы избавляемся от дублированного контента, но еще и потому, что в поиске могут участвовать распечатанные страницы, а не основные страницы. Тогда пользователь не увидит рекламы, а просто текст новости – нам это не выгодно.
Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад << 1 2 3 4 5 6 7 8 9 10 … 26 >> Следующая страница) .
Disallow: /templates/
Запрет на индексацию каталога с шаблонами – templates.
Disallow: /tags/
Не индексируем тэги. Это не обязательно, но я бы закрывал тэги от индексации.
Sitemap: http://vash-site.ru/sitemap.xml
Указываем путь к файлу с картой сайта в формате XML.
Host: vash-site.ru
Обозначаем что vash-site.ru является главным зеркалом.
Надеюсь проблем не возникнет и вы составите правильный Robots.txt. Или можете взять такой же как привел я.
Только обратите внимание: vash-site.ru обязательно замените на домен вашего сайта.
Можно почитать:
Преимущество вступления сайта в Яндекс Каталог.


8-300-167
28.06.2010 в 14:54
Всем привет
Второй комментатор получит ссылку с этого поста на свой блог
[Ответить]
28.06.2010 в 15:18
Спасибо за полезную информацию, роботс.тхт в вордпрес, готов!!)
[Ответить]
9SEO Reply:
Июнь 28th, 2010 at 23:03
Не за что. Успехов в продвижении! (с меня ссылка. завтра проставлю)
[Ответить]
28.06.2010 в 15:26
Наконец дождался продолжения марафона. До файла роботс никогда руки не доходили. Вот теперь сделаю, спасибо за инфу.
[Ответить]
28.06.2010 в 15:44
Спасибо. Хорошие рекомендации. Многие почему-то вообне игнорируют robots.txt
[Ответить]
Fan SEO Reply:
Июнь 29th, 2010 at 14:51
Я был один из таких людей
Материал понравился, пересмотрю свое мнение
[Ответить]
28.06.2010 в 15:49
Вставлю свои 5 копеек. Нужно соблюдать порядок правил. Например
Disallow: /wp-content/
Allow: /wp-content/upload/
Для яндекса запретит папку wp-content и дальше он правила не смотрит, поэтому правильно написать сначала более конкретные правила, а в конце общие.
Disallow: */feed/ запрещает все страницы, в конце адреса которых есть /feed/
[Ответить]
9SEO Reply:
Июнь 28th, 2010 at 23:05
Ага все верно. Спасибо за 5 копеек
[Ответить]
28.06.2010 в 18:02
Спасибо за инфу ребята, как раз разбираюсь с настройкой Robots.txt на своем новом сайте, жалко что не прописали его для сайтов на Joomla, но думаю с вашими подсказками сам разберусь.
[Ответить]
28.06.2010 в 19:55
О) саня вернулся) по асе еще не скучаешь? лучше работается?
че там как фарма, остальные планы?
и напиши уже про сеоквейк))
А марафон – хорошо..да) на этой неделе покончу с сессией и либо пойду в армию, либо займусь работой, кста тож подумываю над небольшим женским сайтиком. даа, а еще напишу тебе туеву хучу текста))
p.s. ты ж хотел вроде торт из сайдбара убрать?
[Ответить]
9SEO Reply:
Июнь 28th, 2010 at 23:08
Здорова
…
По асе не скучаю. Щас вообще не работается, потому что Саня хочет влюбицца, а точнее найти красивую леди, поэтому фарма отдыхает. Про сеоквейк надо написать, как и обещал
Я ща тебе письмеццо лучше на почту черкану, расскажу все подробно
[Ответить]
28.06.2010 в 23:33
Crawl-delay забыл.
Когда уже в аське появишься? Аська любви ни как не помешает)
[Ответить]
9SEO Reply:
Июнь 28th, 2010 at 23:41
Ща тебе тоже на почту черкану, что и D_hunter_’у писал
[Ответить]
9SEO Reply:
Июнь 28th, 2010 at 23:41
Crawl-delay не использую.
[Ответить]
28.06.2010 в 23:42
Учитывая, что ты на эске – зря)) У них бывают задержки на серверах нефиговые. В любом случае хуже не будет.
[Ответить]
9SEO Reply:
Июнь 29th, 2010 at 12:08
Хз. Не замечал пока проблем. Все нормально индексируется
[Ответить]
29.06.2010 в 01:24
“Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад <> Следующая страница) .”
Зачем этот то убирать? Или всё таки нужно убрать, ты то есть хочешь только полные новости оставить?
[Ответить]
9SEO Reply:
Июнь 29th, 2010 at 12:11
Оставляю главную, категории и полные новости. То, что будет оптимизироваться и продвигаться
Остальное – хлам) Страницы почти не приносят трафик, а лишь делают дополнительные дубли контента. Зачем тогда их индексировать?
*Понятно, если ссылки в сапе продавать, то страницы лучше оставить. А так я в них смысла не вижу.
[Ответить]
29.06.2010 в 05:17
И мне в аську черкани, забыл ГрИшУ, а я яй((
[Ответить]
9SEO Reply:
Июнь 29th, 2010 at 12:12
Какая аська? Какой ГрИша? Ты о чем. Я ж написал, что в аське не сижу. ТОлько почта
[Ответить]
29.06.2010 в 17:40
Спасибо за полезную статью! Карту уже сделал! Буду приниматься за robots.txt
[Ответить]
29.06.2010 в 18:12
Спасибо от робот тхт многое зависит но вот что то всё запрещаем а что разрешить?
[Ответить]
30.06.2010 в 00:01
Везде искал нужную инфу для файла robots. Спасибо, будем юзать.
[Ответить]
30.06.2010 в 03:35
Приветствую!
Кто либо может объяснить для чего вот эти строки в robots.txt для DLE
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Я так понимаю, закрывают от индексации непрочитанные новости? Или я ошибаюсь?
Заранее спасибо!
[Ответить]
30.06.2010 в 16:38
Опа) заберу ка я роботс.тхт от дле на свои проекты. Спасибо!
[Ответить]
01.07.2010 в 02:53
Спасибо за статью – но мне лучше page оставить – я в бирже – а так да сейчас полезу некоторые нюансы исправлять – давно хотел переделать робота – руки не доходили
[Ответить]
02.07.2010 в 19:17
Давно я не мог разобраться с робтсом, но после этого поста все стало на свои места. Спасибо большое.
[Ответить]
03.07.2010 в 01:49
Отлично! Ждем восьмого дня.
[Ответить]
03.07.2010 в 02:13
Привет. Ответ, пожалуйста, на следующие вопросы. Имеется уникальный контент (сканирование книг).
1. Не пострадает ли индексация сайта и пр. если не использовать для сайта движок, а разместить как статичные html страницы?
2. Как лучше выкладывать контент (все сразу, с перерывами, с какими перерывами)?
Спасибо.
[Ответить]
03.07.2010 в 14:19
Ммм…а для phpbb3 не напишете как создавать?
[Ответить]
04.07.2010 в 17:04
спасибо за роботс.тхт, да и вообще за весь это марафон, полезно почитать
[Ответить]
05.07.2010 в 19:12
а как бысть с роботом для юкоза?
[Ответить]
D_hunter_ Reply:
Июль 6th, 2010 at 17:41
там вообще то стандартный есть
[Ответить]
05.07.2010 в 23:51
Сделал 2 блога на WP но никогда не правил robot.txt и не делал карту. Удивлялся почему у людей получается продвижение лучше. Теперь стало понятно.
[Ответить]
D_hunter_ Reply:
Июль 6th, 2010 at 17:40
ололо ну да, давай, сделай карту и сразу будешь в топе, а сделаешь роботс- яндекс поставит твой сайт вместо своей стартовой, ну ну
[Ответить]
07.07.2010 в 02:16
Постоянно слежу за марафоном,взял себе кое-что из вашего роботс.тхт Жду продолжения
[Ответить]
07.07.2010 в 16:17
“Второй комментатор получит ссылку с этого поста” – вот почему, блин, я как всегда вовремя?)))
Я в водрпрессе роботс пустым оставляю и ничего – ни банов ни санкций. Просто главное не переборьщить с тегами и архивами))
[Ответить]
10.07.2010 в 13:24
Спасибо большое за подробное объяснение. Уже сделал себе и карту и файлик. Думаю индексация теперь пойдет резвее.
[Ответить]
10.07.2010 в 21:18
Не согласен с роботс.тхт ля дле ,тэги наоборот нужно открывать для индексирования!!!!!!!
[Ответить]
12.07.2010 в 15:37
Уважаемые коллеги! Столкнулась с непонятной вещью в продвижении нашего сайта, нужен ВАШ СОВЕТ:
В вебвизоре смотрю статистику сайта и вижу очень много заходов по паре секунд, с прямого трафика, но на разные страницы сайта. При этом такие заходы повторяются по много раз, ежедневно, просматривают только одну страницу. Посетители из разных регионов, есть даже их других стран.
Вы не могли бы подсказать, что это может быть и зачем?
[Ответить]
Yuri Reply:
Июль 20th, 2010 at 14:11
Это либо поисковые роботы, либо восстановленные сессии в фоновых вкладках.
[Ответить]
15.07.2010 в 18:53
Являюсь постоянным читателем вашего марафона. Информацию о robots.txt возьму на заметку!
[Ответить]
17.07.2010 в 23:18
А про Джумлу нет? Эх, придется самой пытаться врубиться.
[Ответить]
20.07.2010 в 23:12
Может боты или атакует кто ? есть спец плагины для этого – через поисковики поюзайте и найдете
[Ответить]
29.07.2010 в 21:29
Блин каждый день захожу на Ваш блог. Когда уже будет продолжение марафона?
Наверное автор все-таки нашел себе красивую даму сердца и забил на все…
[Ответить]
08.08.2010 в 03:15
Вах! Вот это полёт мысли))) детально работаете, за что конечно огромное спасибо. По некоторым моментам просвятился. Не знал раньше что robots.txt так гибок.
[Ответить]
12.08.2010 в 17:06
Мои сайты на WordPress, но вот хочу попробовать сделать сайт на Joomla. Погуглил, нашел много способов создания файла robots.txt , а вот что означают эти строчки узнал только у Вас. Теперь, попробую своими руками сделать этот файл.
[Ответить]
15.08.2010 в 00:35
Думаю что все эти премудрости не сильно повлияют на позиции сайта. Это все без условно делать нужно, но большую пользу принесет попадание в каталог яндекса, хоть и удовольствие это дорогое.
[Ответить]
01.09.2010 в 10:04
Мне как раз для нового блога нужен роботс, спасибо
[Ответить]