Продолжаю марафон, в ходе которого я рассказываю, как создать хороший сайт для заработка на продаже вечных ссылок и контексте. После прохождения 6 статей марафона, сайт почти готов. Теперь нужно его немного оптимизировать для поисковых систем.
Во-первых, рекомендую почитать рекомендации Яндекса по созданию сайта. Нужно было раньше дать на них ссылки, но и сейчас «самое время». Так вот, в этом руководстве для правильного индексирования сайта, веб-мастерам рекомендуется использовать файл robots.txt и создать карту сайта в формате XML. Начнем с карты сайта.
Sitemaps XML
Из Википедии:
Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации
Чтобы создать карту сайта XML в WordPress нужно скачать плагин Google XML Sitemaps и установить его. Про установку читайте тут.
Чтобы сделать sitemap.xml в DLE нужно зайти в админку и в списке всех разделов найти пункт «Карта сайта для Google и Yandex. Данный модуль предназначен для создания карт сайта для поисковых систем Google и Yandex.» Дальше разберетесь .
Если вы используете другой движок, ищите информацию по созданию карты сайта в XML в поисковиках.
Файл Robots.txt
О том, что такое robots.txt и для чего он нужен, читайте здесь. Разобравшись с этой статьей, вы поймете как сделать правильный robots.txt и что в нем писать.
Говоря простым языком, файл Robots.txt нужен для того, чтобы запретить индексацию ненужных страниц нашего сайта. Под ненужными страницами понимаются страницы не содержащие полезной информации и делающие сайт менее качественным в глазах поисковой системы. Например страницы RSS фида, страницы поиска, регистрации, профили пользователей, страницы, дублирующие информацию и т.д.
Я приведу свои примеры файла robots txt для wordpress и для DLE и коротко их прокомментирую.
Robots.txt для wordpress
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Disallow: /*page/
Disallow: /tag/
Disallow: /?s=Sitemap: http://vash-site.ru/sitemap.xml
Host: vash-site.ru
Что у нас получается:
Allow: /wp-content/uploads/
Разрешаем индексировать папку wp-content/uploads/. Чтобы робот индексировал картинки и прочие файлы, которые мы загрузили.
Disallow: /cgi-bin
Запрещаем индексировать все, что лежит в папке cgi-bin
Disallow: /wp-login.php
Запрет индексации страницы wp-login.php. Вход в админку не несет никакой полезной информации и его нужно запретить к индексации.
Disallow: /wp-register.php
То же самое и со страницей регистрации — wp-register.php.
Disallow: /xmlrpc.php
Запрещаем индексацию файла xmlrpc.php. Какой-то файлик, который отвечает за вызов удаленных процедур в WP.
Disallow: /wp-admin/
Запрещаем индексировать админ панель WordPress.
Disallow: /wp-includes/
Даем указание не индексировать файлы, находящиеся в директории wp-includes
Disallow: /wp-content/
Запрещаем индексацию в директории wp-content. Внутри нее у нас лежат папки: с темами themes, плагинами – plugins, папка cache, если используются плагины для кеширования страниц и т.д. То есть, куча бесполезного, что не нужно индексировать. Единственное что представляет ценность это папка wp-content/uploads/, но мы ее уже разрешили индексировать в начале.
Disallow: /trackback/
Disallow: */trackback/
Что-то связанное с трекбеками. Подглядел где-то и включил в свой файл robots.txt
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Запрещаем индексацию всего, что связано с фидами. Тоже где-то подглядел, особо не разбирался.
Disallow: /page/
Запрет индексации страниц с постами. (Страница 1 из 12345678»…В конец ») В принципе страницы содержат полезную информацию, но индексировать их не нужно. Потому что страницы не оптимизируются по каким-либо запросами содержат дублированный контент.
Disallow: /tag/
Также будет правильным запретить тэги (метки). Яндекс не очень любит их из-за дублированного контента. Но если грамотно распределять посты по меткам и в анонсах статей писать уникальные описания, и к каждой статье не добавлять кучу меток, а одну-две, то можно и разрешить индексировать тэги. Лично я на своем новом сайте запрещаю.
Disallow: /?s=
Не индексируем страницы результатов поиска. Вот это просто обязательно.
Sitemap: http://vash-site.ru/sitemap.xml
Указываем поисковому роботу путь к карте сайта в формате xml.
Host: vash-site.ru
Обозначаем что сайт vash-site.ru является главным зеркалом.
Robots.txt для DLE
Правильный robots.txt для dle также как и для Worrdpress должен запретить индексацию ненужных страниц. В зависимости от типа выбранного ЧПУ в настройках DLE файл роботс.тхт будет различным. Вот что я пишу в общем случае в файле robots.txt для dle:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin.php
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=search
Disallow: /index.php?do=pm
Disallow: /engine/
Disallow: /index.php?do=register
Disallow: /index.php?do=addnews
Disallow: /autobackup.php
Disallow: /backup/
Disallow: /user/
Disallow: /language/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /index.php?do=stats
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Disallow: /*print
Disallow: /*page/
Disallow: /templates/
Disallow: /tags/Sitemap: http://vash-site.ru/sitemap.xml
Host: vash-site.ru
Теперь подробнее:
Disallow: /cgi-bin/
Папка cgi-bin не будет индексироваться.
Disallow: /admin.php
Закрываем от индексации админ панель DLE
Disallow: /index.php?do=lastcomments
Запрещаем индексить страницу с последними комментариями.
Disallow: /index.php?do=feedback
Запрет индексации страницы «Обратная связь».
Disallow: /index.php?do=lostpassword
Страница восстановления пароля тоже не будет индексироваться.
Disallow: /index.php?do=search
Запрещаем индексировать страницы с результатами поиска.
Disallow: /index.php?do=pm
Не индексируем персональные сообщения пользователей (ПМ)
Disallow: /engine/
Запрещаем индексировать каталог engine, в котором у нас хранится cache, modules и прочее.
Disallow: /index.php?do=register
Закрываем от поисковиков страницу регистрации новых юзеров.
Disallow: /index.php?do=addnews
И страницу добавления новостей.
Disallow: /autobackup.php
Disallow: /backup/
Прячем от индексации бекапы.
Disallow: /user/
Запрет на индексацию профилей пользователей.
Disallow: /language/
Запрещаем языковые фалы.
Disallow: /favorites/
Не индексируем то, что находится в избранном у пользователя.
Disallow: /statistics.html
Disallow: /index.php?do=stats
Запрет на индексацию страницы «Статистика».
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Не индексируем страницу «непрочитанных новостей» .
Disallow: /*print
Не индексируем «распечатанные страницы». Это будет правильным, не только потому что так мы избавляемся от дублированного контента, но еще и потому, что в поиске могут участвовать распечатанные страницы, а не основные страницы. Тогда пользователь не увидит рекламы, а просто текст новости – нам это не выгодно.
Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад << 1 2 3 4 5 6 7 8 9 10 … 26 >> Следующая страница) .
Disallow: /templates/
Запрет на индексацию каталога с шаблонами – templates.
Disallow: /tags/
Не индексируем тэги. Это не обязательно, но я бы закрывал тэги от индексации.
Sitemap: http://vash-site.ru/sitemap.xml
Указываем путь к файлу с картой сайта в формате XML.
Host: vash-site.ru
Обозначаем что vash-site.ru является главным зеркалом.
Надеюсь проблем не возникнет и вы составите правильный Robots.txt. Или можете взять такой же как привел я.
Только обратите внимание: vash-site.ru обязательно замените на домен вашего сайта.
Всем привет Второй комментатор получит ссылку с этого поста на свой блог
Спасибо за полезную информацию, роботс.тхт в вордпрес, готов!!)
Не за что. Успехов в продвижении! (с меня ссылка. завтра проставлю)
Наконец дождался продолжения марафона. До файла роботс никогда руки не доходили. Вот теперь сделаю, спасибо за инфу.
Спасибо. Хорошие рекомендации. Многие почему-то вообне игнорируют robots.txt
Я был один из таких людей Материал понравился, пересмотрю свое мнение
Вставлю свои 5 копеек. Нужно соблюдать порядок правил. Например
Disallow: /wp-content/
Allow: /wp-content/upload/
Для яндекса запретит папку wp-content и дальше он правила не смотрит, поэтому правильно написать сначала более конкретные правила, а в конце общие.
Disallow: */feed/ запрещает все страницы, в конце адреса которых есть /feed/
Ага все верно. Спасибо за 5 копеек
Спасибо за инфу ребята, как раз разбираюсь с настройкой Robots.txt на своем новом сайте, жалко что не прописали его для сайтов на Joomla, но думаю с вашими подсказками сам разберусь.
О) саня вернулся) по асе еще не скучаешь? лучше работается?
че там как фарма, остальные планы?
и напиши уже про сеоквейк))
А марафон — хорошо..да) на этой неделе покончу с сессией и либо пойду в армию, либо займусь работой, кста тож подумываю над небольшим женским сайтиком. даа, а еще напишу тебе туеву хучу текста))
p.s. ты ж хотел вроде торт из сайдбара убрать?
Здорова
По асе не скучаю. Щас вообще не работается, потому что Саня хочет влюбицца, а точнее найти красивую леди, поэтому фарма отдыхает. Про сеоквейк надо написать, как и обещал …
Я ща тебе письмеццо лучше на почту черкану, расскажу все подробно
Crawl-delay забыл.
Когда уже в аське появишься? Аська любви ни как не помешает)
Ща тебе тоже на почту черкану, что и D_hunter_’у писал
Crawl-delay не использую. 8)
Учитывая, что ты на эске — зря)) У них бывают задержки на серверах нефиговые. В любом случае хуже не будет.
Хз. Не замечал пока проблем. Все нормально индексируется
«Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад <> Следующая страница) .»
Зачем этот то убирать? Или всё таки нужно убрать, ты то есть хочешь только полные новости оставить?
Оставляю главную, категории и полные новости. То, что будет оптимизироваться и продвигаться Остальное — хлам) Страницы почти не приносят трафик, а лишь делают дополнительные дубли контента. Зачем тогда их индексировать?
*Понятно, если ссылки в сапе продавать, то страницы лучше оставить. А так я в них смысла не вижу.
И мне в аську черкани, забыл ГрИшУ, а я яй((
Какая аська? Какой ГрИша? Ты о чем. Я ж написал, что в аське не сижу. ТОлько почта
Спасибо за полезную статью! Карту уже сделал! Буду приниматься за robots.txt
Спасибо от робот тхт многое зависит но вот что то всё запрещаем а что разрешить?
Везде искал нужную инфу для файла robots. Спасибо, будем юзать.
Приветствую!
Кто либо может объяснить для чего вот эти строки в robots.txt для DLE
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Я так понимаю, закрывают от индексации непрочитанные новости? Или я ошибаюсь?
Заранее спасибо!
Опа) заберу ка я роботс.тхт от дле на свои проекты. Спасибо!
Спасибо за статью — но мне лучше page оставить — я в бирже — а так да сейчас полезу некоторые нюансы исправлять — давно хотел переделать робота — руки не доходили
Давно я не мог разобраться с робтсом, но после этого поста все стало на свои места. Спасибо большое.
Отлично! Ждем восьмого дня.
Привет. Ответ, пожалуйста, на следующие вопросы. Имеется уникальный контент (сканирование книг).
1. Не пострадает ли индексация сайта и пр. если не использовать для сайта движок, а разместить как статичные html страницы?
2. Как лучше выкладывать контент (все сразу, с перерывами, с какими перерывами)?
Спасибо.
Ммм…а для phpbb3 не напишете как создавать?
спасибо за роботс.тхт, да и вообще за весь это марафон, полезно почитать
а как бысть с роботом для юкоза?
там вообще то стандартный есть
Сделал 2 блога на WP но никогда не правил robot.txt и не делал карту. Удивлялся почему у людей получается продвижение лучше. Теперь стало понятно.
ололо ну да, давай, сделай карту и сразу будешь в топе, а сделаешь роботс- яндекс поставит твой сайт вместо своей стартовой, ну ну
Постоянно слежу за марафоном,взял себе кое-что из вашего роботс.тхт Жду продолжения
«Второй комментатор получит ссылку с этого поста» — вот почему, блин, я как всегда вовремя?)))
Я в водрпрессе роботс пустым оставляю и ничего — ни банов ни санкций. Просто главное не переборьщить с тегами и архивами))
Спасибо большое за подробное объяснение. Уже сделал себе и карту и файлик. Думаю индексация теперь пойдет резвее.
Не согласен с роботс.тхт ля дле ,тэги наоборот нужно открывать для индексирования!!!!!!!
Уважаемые коллеги! Столкнулась с непонятной вещью в продвижении нашего сайта, нужен ВАШ СОВЕТ:
В вебвизоре смотрю статистику сайта и вижу очень много заходов по паре секунд, с прямого трафика, но на разные страницы сайта. При этом такие заходы повторяются по много раз, ежедневно, просматривают только одну страницу. Посетители из разных регионов, есть даже их других стран.
Вы не могли бы подсказать, что это может быть и зачем?
Это либо поисковые роботы, либо восстановленные сессии в фоновых вкладках.
Являюсь постоянным читателем вашего марафона. Информацию о robots.txt возьму на заметку!
А про Джумлу нет? Эх, придется самой пытаться врубиться.
Может боты или атакует кто ? есть спец плагины для этого — через поисковики поюзайте и найдете
Блин каждый день захожу на Ваш блог. Когда уже будет продолжение марафона?
Наверное автор все-таки нашел себе красивую даму сердца и забил на все…
Вах! Вот это полёт мысли))) детально работаете, за что конечно огромное спасибо. По некоторым моментам просвятился. Не знал раньше что robots.txt так гибок.
Мои сайты на WordPress, но вот хочу попробовать сделать сайт на Joomla. Погуглил, нашел много способов создания файла robots.txt , а вот что означают эти строчки узнал только у Вас. Теперь, попробую своими руками сделать этот файл.
Думаю что все эти премудрости не сильно повлияют на позиции сайта. Это все без условно делать нужно, но большую пользу принесет попадание в каталог яндекса, хоть и удовольствие это дорогое.
Мне как раз для нового блога нужен роботс, спасибо
да, много есть написанного, но вот я посмотрел на те файлы и папки, что в вордпрессе, так там еще осталось немного, с которыми я не знаю что делать, даже не знаю для чего они нужны. так что половина работы сделана, но за направление, куда идти, спасибо
С роботом разобрался Thenks. Можно поинтересоваться про настройки постоянных ссылок, вижу у вас на сайте все темы заканчиваются знаком / а на других блогах .html или вовсе крякообразы Как следует настараивать то?
самая вменяемая инструкция по файлу роботс.тхт из тех что я встречал, вот понадобилось сейчас чтобы разобраться про то, как не раздражать яшу с гошей дублированным контентом — сразу про марафон вспомнил-)
спасибо, скопировал себе файлик.
кстати, классный плагин, когда наводишь на имя комментатора показывает всю его активность на форуме.
А почему для WP не скрыть бы в придачу архивы и категории? Ведь это также дублированный контент
Про архивы забыл. Но! Я их никогда не вывожу. Зачем они нужны? Ими никто не пользуется, они только место занимают. А категории закрывать не стоит. Категории при грамотном подходе дают порядочно трафа.
Имею на сайте два типа ссылок на одну страницу (цифры на конце это номер товара и соответственно таких типов страниц много — от 1 до 10000)
http://www.ххххх/1160
http://www.ххххх/1160/0
…..
http://www.ххххх/11020
http://www.ххххх/11020/0
и т.д.
как мне закрыть от индексации
http://www.ххххх/1160/0
С помощью роботс такое не сделаешь наверное. Не будешь же вписывать все номера товаров) Я бы саму страницу http://www.ххххх/1160/0 закрыл в noindex.
Здравствуйте!
Подскажите пожалуйста как в Robots.txt закрыть внешние ссылки на моем сайте, например рекламу Google? или другую ссылку?
А вы не запрещаете индексирование категорий? /category — наравне с метками
Если это правильный робот, то почему-же у тебя он не прописан….
И скажи, для чего закрывать от индекса те же изображения, если с помощью них создается дополнительно ключевое слово!
Короче в твоем роботе есть ошибки, которое неготивно отобразится на результат сайта в поисковике. Проще сразу все запретить. Вот по поводу повторяющихся статей в dle я полностью согласен,но также надо поставить запрет на индекс популярные новости, календарь и т.п. Но вот с тегами, ты погорячился, это серьезная ошибка которая приведет к неполной индексации сайта. При помощи тегов, у меня на сайте, поисковики проидексировали почти весь сайт, когда в вебмастере ещё не индексировался. Надо дуиать, что запрещать, а что разрешать, чтобы потом поисковики не выдовали ошибку при индексе!
Решил добавить, чо с нововведением яшки надо закрывать все, что повторяется, или вы окажетесь в топе Г*С*
картинки не стоит закрывать ! это реально класная вещь с помощью которых можно немного быстрее сайт продвинуть!
Лучший блог где всё про robots для dle расписано)) Я бы только убрал строчку Disallow: /page/ из него, а строчку с тегами оставил))
Привет!
То есть я так понимаю, что если на странице site.ru/tag/money будут аннонсы статей с этим тегом — то на этой странице фактически будет дублированный и уже существующий на нашем сайте контент, хоть и в смешанном порядке, да?
Теперь непонятно, нужно ли запрещать к индексакции страницы типа site.ru/razdel/2 (то есть вторая страница анносов)? У тебя написано, что нужно. НО если запрещать их к индексаци, то будет страдать внутренняя перелинковка?
И соответственно сразу вопрос, нужно ли закрывать к индексации раздел site.ru/razdel/ (на котором аннонсы статей), ведь по сути на этой странице собран кусочками контент, который дублирует контент на тех или иных страницах? Если эту страницу не нужно закрывать от индексации — то почему нужно закрывать site.ru/razdel/2 ?
Заранее спасибо за ответы
Такой вот вопрос возник. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08??
А то в яндекс вебмастере показывается, что это вот про индексировалось: сайт.ру/2012/08.
То есть как я понимаю архив в индексацию влез?
Файл robots.txt ничего не разрешает («Allow: /wp-content/uploads/», а только запрещает!
всем привет..вот у меня robots.txt на dle выглядит так:
User-agent: *
Disallow: /*print
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /2011/
Disallow: /tags/
Disallow: /page/
Disallow: */page/*
Disallow: /uploads/
Disallow: /newposts/
Disallow: /lastnews/
Disallow: /engine/
Disallow: /favorites/
Disallow: /language/
Disallow: /index.php?do=register
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?subaction=newposts
Host: http://site.ru
Sitemap: http://site.ru/sitemap.xml
Он правильно сделан или как?
что нужно удалить а что оставить?? нужна небольшая помощь..
Привет. Всех с Новым годом! Хотел узнать у админа каким плагином реализована оценка постов?
для wordpress пользуюсь таким robots.txt
User-agent: *
Disallow: /wp-
Disallow: /page/
Disallow: /author/
Disallow: /*.php
Disallow: /*?*
Disallow: */feed
Host: example.com
Sitemap: http://example.com/sitemap.xml
категории и теги закрываются выборочно мета-тегом robots плагином headspace2
А что, хороший роботс получился. Теперь им пользуюсь
Прошу разъяснить, как запретить поисковикам (к примеру google) с помощью файла robots.txt индексировать все внешние ссылка, не указывая конкретно в каждой ссылке nofollow.
Прошу разъяснить, по какой причине в DLE в файле robots.txt
нужен такой пункт:
Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад <> Следующая страница).
Спасибо за фаил для вордпресс! Я его себе установила.
Хочу задать вам вопрос. Вы считаете ненужным индексировать страницы с постами. Эти страницы вообще не будут индексироваться? Может лучше удалить комментарии и индексировать страницы?
Посоветуйте, как мне лучше поступить?
К сожалению, не вся информаци в этом посте уже актуальна. По-крайней мере, в отношении Google. Дело в том, что Google уже индексирует CSS и Javascript, а это означает, что нужно дать доступ к wp-includes. Более того, такую блокировку уже убрали со стандартного robots.txt в WordPress.
Более информацию вы можете найти здесь: https://yoast.com/wordpress-robots-txt-example/
Вывод один: следите за новостями! Ничего не стоит на месте.