В этой записи я расскажу о ситуации, с которой может столкнуться владелец СДЛ – нарушение авторских прав и воровство контента с сайта. Странно, конечно, называть это «воровством», но так повелось.
Да и как это тухлое дело не назови, смысл не меняется. Сначала расскажу реальные истории, потом — о том, как бороться с ворами. В конце коротко опишу о методах защиты контента от ворующих подлецов.

Боремся с воровством контента

Мой друг писал статью 3 часа, старался. Опубликовал её на своем молодом сайте. А через месяц увидел, что его статью разместил какой-то пузатый сайт. Статью сграбили «как есть» вместе с картинками и оформлением. Никаких ссылок на источник не указали. Через некоторое время дружище пошел смотреть позиции в Яндексе по запросам этой статьи и увидел, что страница по ним вообще улетела за топ 100. Начал проверять выдачу по кускам текста из статьи, и в топе увидел только страницу сайта вора. Вот так-то.

Я тоже решил посмотреть, как обстоит дело с уникальностью моих статей. Проверил те статьи, которые в прошлом давали траф, а сейчас почему-то запросы потеряли позиции. И о чудо! (с) Такая же фигня..

Сначала проверил один сайт. Статьи, которые я публиковал еще в 2010 году, были «сворованы» и скопированы в 2012-2013г на другие ресурсы. Почему-то алгоритмы Яндекса (а кое-где и Гугла) решили, что эти сайты более хороши и присвоил авторство статей им. То есть в выдаче по запросам из статьи сайты находятся выше. Многие запросы просто улетели в топ 100, некоторые незначительно потеряли позиции.

«Вот это прикол», — сказал я себе. Что самое печальное – сервис от ЯВМ «Оригинальные тексты» не всегда «работает». Я все статьи в него добавляю. Но, как написано в самом ЯВМ:

«Обратите внимание, что мы не гарантируем учет вашей заявки в работе поисковых алгоритмов.»

Раньше мне было пофигу кто там и что с моих сайтов копирует. Мальчик наивно полагал, что ПС — умные машины, им не трудно после первой индексации статьи сохранить в БД дату и адрес сайта. Все это дело запомнить и поставить галочку «авторства».

Недавно я передумал:)

Выбрал самый наглый сайт, получающий хороший траф с моих статей. Написал письмо Платону и в поддержку хостинга, на котором тот сайт хостится.

Платоша, как и ожидалось, ответил:

К сожалению, поисковая система Яндекс является лишь зеркалом интернета, поэтому мы не правомочны разбираться в вопросах плагиата. Чтобы защитить свои авторские права, мы рекомендуем Вам обратиться к администратору указанного сайта и/или к провайдеру, на сервере которого он находится. Надеемся, что там Вам пойдут навстречу. Если сайт прекратит свое существование, он будет удален из поисковой базы Яндекса автоматически.

Да блин, дело тут вовсе не в вопросах плагиата, а в адекватной работе алгоритма. Если я опубликовал статью в 2010, а другой сайт ее же в 2012, нахрена вообще индексировать ее повторно? Ну ок, ок… пусть индексируется, но с пометкой – плагиат. Я бы на месте Яндекса вообще в выдаче такие сайты бы под спойлер загнал. Типа: «смотреть сайты с похожим контентом».

Ну да ладно… Учить Яндекс мне чему-либо, все равно, что учить сборную по футболу, как нужно играть, глядя на их игру по телевизору.

В хостинг направил такое письмо:

Здравствуйте!
Сайт «урл» нарушает авторские права. Ворует оригинальный контент с сайта «урл»
Статьи копируются один в один, даже картинки в статьях с нашего сайта грузятся.

Пример:
— ворованная статья: *ссылка на статью вора*
— источник: *ссылка на мою статью*

Таких статей довольно много. Публикуются они от автора: *урл*. Все последние статьи принадлежат нашему сайту.

Мы пробовали связаться с автором, но «e-mail для связи» на сайте нерабочий. Поэтому пишем Вам с просьбой предупредить автора. Пусть либо удаляет все наши статьи, либо в каждой статье проставит прямую индексируемую ссылку на статью-источник.

Просьба не игнорировать жалобу и принять меры.
Большое спасибо.

С Уважением, Александр.

Через время пришел ответ:

Данная жалоба передана владельцу сайтов. Если владелец прямо или косвенно признает факт нарушения авторских прав, сайты будут закрыты.

В противном случае Вам нужно будет обратится в суд, и предоставить нам постановление суда о приостановление обслуживания данного клиента.

Так же Вы можете во вне судебном порядке предоставить нам документы подтверждающие, что это Ваша интеллектуальная собственность.

Иными словами, меня могут послать в лес собирать опята, так как никаких документов у меня нет. Нормально:)

Но, уже через час все статьи, взятые с моего сайта были удалены. Либо хостинг написал действительно убедительное письмо, либо автор того сайта не всю еще совесть растерял.

Решил потратить время и проверить на уникальность все свои статьи, выявить гадов и написать письма. Все-таки, каждая неуникальная статья – это небольшой минус в огромное количество факторов, по которым ПС «решают» хороший сайт или не очень.

Проверка всех страниц сайта на уникальность

Если проверять каждую статью руками, уйдут годы. Поэтому я стал искать способ быстрой проверки. Рассмотрел несколько сервисов и программ – везде платить надо.

Но, кто ищет — тот найдет:). Пакетно проверить уникальность всех статей на сайте поможет бесплатная программа Etxt Антиплагиат.

Разобраться в программе просто – все на русском языке. Но почему то, она у меня глючит. К примеру, не желает закачивать больше 40 страниц с сайта (потом парсинг вообще останавливается). Но не беда, я нашел, как этот глюк обойти. Распишу тут, как я проверяю:

1. Получил ссылки на все статьи сайта.
Просто зашел на страницу «Карта сайта» на своем сайте, затем в RDS-bar нажал Links и получил отчет – все внутренние и внешние ссылки со страницы. Скопировал все внутренние ссылки, удалил из списка ссылки на категории, главную и прочие ненужные для проверки страницы. Сохранил список в .txt файлик.

2. Операции – Проверка сайта.

Загрузил файлик, задал максимальное число страниц и ткнул «Проверить уникальность».

 

Чтобы не вводить каждый раз каптчи ПС руками, подключил antigate.com (смотрите в настройках программы).

Готово. По окончании тестов получил отчет с % уникальности каждой статьи и списком урлов на воров.

Теперь выявляем паразитов, пишем им письма (а лучше им и сразу в хостинг поддержку). Пусть или удаляют статью или ставят прямую индексируемую ссылку на статью-источник.

Также можно написать жалобу в Яндекс. В теме сообщения выбрать: «Сайт, нарушающий мои авторские права, находится по запросу выше моего» и подробно расписать о ситуации. Возможно, это что-то и даст, а может быть, и нет.

Всё это напрягает и отнимает кучу времени, но проблема наблюдается, и надо её решать. Бездействуя, мы отдаем свой трафик и поддерживаем воров. А они, глядя на свои успехи, начинают плодить все больше и больше говносайтов.

Далее поговорим о том, как сохранить уникальность и указать поисковым системам своё авторство.

Сохраняем уникальность статей на сайте

О том, как защитить контент много писать не буду. Написано уже много материала, но 100% защиты я так и не знаю.

Некоторые ставят на сайты скрипты, которые блокируют копирование текста пользователем или вообще выделение текста. Я считаю, это неправильно. Большинство юзеров копируют и выделяют текст не для того, чтобы скопипастить для других сайтов.

Таким образом, ставя такой блокирующий скрипт мы ухудшаем удобство работы пользователя с информацией. Сайт должен быть для людей.

Что можно сделать:
1. Каждую статью перед публикацией добавить в ЯВМ «Оригинальные тексты». (Теперь можно добавлять даже сайты с тИЦ 0)

2. Зарегистрировать аккаунт в Google+ и указать автора статей. Сам я еще этим не занимался, но скоро займусь. Вот вроде норм инструкция. (UPD: уже не актуально)

3. Можно поставить на сайт jQuery плагин для добавления ссылок в буфер обмена (сделал на нескольких сайтах – работает. Многие копипастеры оставили ссылку.)

4. Отключить экспорт статей в RSS если он не нужен.

5. Вставлять ссылки в статье на другие страницы сайта. (Некоторые граберы даже не вырезают ссылки).

6. И, самое главное — как можно быстрее индексировать новые статьи. Для этого публикуйте ссылки в соц. сетях и сервисах (вконтакте, фейсбук, гугл+, твиттер и т.п). Можно настроить пред-публикацию (контент сначала доступен только по ссылке и лишь после индексации появляется на сайте и в RSS ленте).

7. Периодически следить за уникальностью статей.

Кто еще чего знает?