Плагиат или уникальный текст, как биржи копирайтинга и поисковики это определяют?

Не секрет, что поисковые системы борются с плагиатом, ратуя за уникальность контента, размещаемого на страницах сайтов в Интернете. Биржи копирайтинга, поэтому и востребованы, что без уникального контента не обойтись. Любой зарегистрированный в поисковой системе может быть удалён из индексации, если размещённый на нём контент не уникален.

Никто не хочет оказаться в аутсайдерах, поэтому многие стремятся использовать обходные пути. Противоборство разработчиков алгоритмов поисковой оптимизации для поисковых систем и «чёрных» оптимизаторов со своими сателлитами, постоянно находятся в противостоянии. В этом стремлении кто – кого, сумеет вывести на «чистую воду» или наоборот — окунуть в грязь, происходит соревнование противоборствующих сил. Пока что полной и окончательной победы не зафиксировано ни за одной стороной.

Как поисковые системы определяют неуникальный контент? Из набора ключевых слов выделяются канонические формы слов, а из комбинации этих форм строятся сигнатурные наборы. Переработав любой контент, набирается хэш-таблица из сигнатур, на основе размещённого материала. А суть хэш-таблиц, применяемых для ассоциативного поиска, здесь задействуется и для поиска наиболее релевантной информации по поисковым запросам, и для «вычисления» неуникального контента.

Что делают биржи копирайтинга и торговли ссылками под размещение рекламы, им тоже необходимы аналогичные механизмы, для определения уникальности контента размещаемого на продажу, или размещаемого в бирже ссылок. Да ничего сложного биржи для этого не используют, покуда поиск в поисковых системах пока что бесплатен, хотя поисковики могли бы и «банить» сайты подобного рода и иметь с этого деньги, но что есть, то и «юзают», как говориться.

Используя поиск в поисковых системах, биржи текстового контента, не используют сверх сложных алгоритмов. Зачем мудрить, когда большую часть работы могут провести и сами поисковые системы? Анализ текста по соответствию поисковому запросу, разбор фраз и синтаксический с морфологическим анализом они (поисковики) умеют делать и неплохо с этим справляются. Контент размещается и «скармливается» в любом случае тем же поисковым системам, в данный момент не углубляемся в суть востребованности контента самим человеком, для которого всё это и размещается в Интернете, но здесь рассматриваются механизмы обработки информации.

Тем, кому необходимо проверить любой текст на уникальность, достаточно разбить проверяемый текст на фразы от пяти последовательных слов и выдать запросы в известные поисковые системы. По отклику поисковых систем, можно анализировать, встречаются ли такие фразы в Интернете.

Не сложно автоматизируется принятие решения, для этого стоит копнуть чуть глубже. Отклик поисковика, который уже провёл предварительную подготовку и выделил жирным шрифтом искомые слова фраз, надо обыграть. Что это означает? А то, что в самом HTML-тексте, соответствующие фразы уже «выделены» и остаётся только воспользоваться этими флагами в программе, чтобы по количеству флагов принимать решение об уникальности контента.

Кто усомнится в правильности функционирования модели, пусть вспомнит, когда ему выдавали биржи в результате проверки, что обнаружена не уникальность текста, т.е. заимствование или плагиат. Часто оскорбительно звучит, таковое обвинение, потому что «набитых» фраз, встречается где угодно и сколько угодно. Особенно чревато цитирование известных личностей и анекдотичных и фраз с «летучими» изречениями и крылатыми выражениями.

Тем ни менее несовершенство таких подходов никто не может оспаривать, результаты проверок на уникальность признаются незыблемыми. Кто не согласен, тот может отказаться от предлагаемых оферт и не более того. Других юридических норм на этот счёт не распространяется. Кто платит, тот и правит делом. Алгоритмы проверки изменяют, списки ключевых и стоп слов корректируются, но издержки остаются неизбежными.

Копирайтеры стараются отходить от набитых фраз, уникальность контента диктует такие нормы, что стиль письма приходится подстраивать под предсказуемые результаты проверок на уникальность текста. Поэтому стоит посочувствовать и понять, что косноязычность зачастую рождается вопреки литературному стилю и даже здравому смыслу!

Зная механизмы проверки на уникальность, «чёрные» оптимизаторы давно уже смирились с тем, что необходимо перестраиваться и подстраиваться под новые правила игры. Дорвеи и сателлиты быстро «вычисляются» поисковыми системами, поэтому силы сосредотачивают на генерации контента с использованием цепей Макарова, применяют различного рода программные решения, например, как «Бредогон» и ему подобные.

Сайты для людей и дорвеи заполняют контентом генераторы на основе цепей Макарова, текстовки получаются не читаемые, для человека, но поисковые системы это «проглатывают», пока «проглатывают». Работа над этими генераторами чуши ведётся, теми же анализаторами текста. Но биржам, торгующим контентом беспокоиться не о чем, это «головная боль» разработчиков алгоритмов разбора и поиска самих поисковых систем.

7 комментариев
  1. Майк
    29 августа 2012 в 18:23

    Похоже, так оно и есть, я тоже одно время задумывался над этими механизмами определения уникальности. Большая часть технологий скрыта, конечно, за «страшными» словами типа шингл и т.д., которые обозначают тривиальный выбор шаблона поиска. Интересно, что «уникальщики» все же подвергаются травле со стороны поисковиков: замечено, что все чаще приходится вводить капчу при проверке всеми программами, а eTXT с некоторого момента (~4-5 проверка подряд) начинает лихо выдавать 100%, явно ничего не проверяя. На том же eTXT серверная программа eTXT — платная, а Яндекс даже за человеческие запросы грозит баном («Ой! Ваши запросы подозрительно…»). В принципе, можно пользоваться Яндекс.Баром, чтобы не появлялась капча для этой ПС, а для своих программ через этот механизм в Яндексе есть специальный Search для автоматических запросов.

  2. Lalla78
    29 августа 2012 в 22:49

    Много не очень понятных слов, но суть одна и та же, пока нужен уникальный контент, даже пусть это будет полнейший бред, который продают после генерации по 0.1 цента за кило, он будет востребован.

    Рерайт — это уже высшие слои. Много раз встречала на сайте набор фраз, ключевых и перспамленность, но сайт в топе.

    Даже если применить все сразу проверки на уникальность, не факт, что у вас уникальный текст. Почему? Да потому, что интернет он динамический каждую секунду, а еще индексация решает все.

    Поэтому когда заказчики заказывают по 0.3 рерайт, требуя уникальность 100%, по еткст и адвего, тут уж в угоду ней и окончания могут хромать, и падежи…

    Все для 100% уникальности, жаль, что поисковые роботы пока не стали умнее, тогда «пластиковые окна Москва» данная фраза прокатывает, хотя любой человек будет плеваться увидев ее в тексте 3 раза.

  3. Сергей
    13 сентября 2012 в 11:28

    Замечательная статья спасибо

  4. Майк
    15 сентября 2012 в 12:53

    2 Lalla78:
    Про окна в Москве — это да :)) Помню, был один настырный заказчик, который требовал бесконечный описаний фильма «Аватар» с несклоняемыми естественными (!) фразами «аренда крана харьков», «харьков досуг» и т.д. Поисковикам такой бред действительно до лампочки, но читать такое просто невозможно. А все потому, что у шалунишки только один сайт, а вкусные запросы всегда разные — как тут угадать, на что ориентироваться? Создавать же сайты специально под запросы — дорого, скучно и неохота. А нам придется, соответственно, терпеть.

    • Lalla78
      17 сентября 2012 в 14:52

      Это точно Майк, но прошел слушок, возможно, что я и не совсем права, что яндекс уже грамотный стал и все ваши ключевики, учитывает морфологию , включая рубрики и т.п. на странице суммирует.

      В результате, вы получаете % плотности на самом деле на много больше, чем просто в тексте.

      Майк — это вы хорошую идею подали, только разве можно пробраться строительному сайту в топ со статьей про аватары?

      Думала, что все-таки поисковые роботы фильтруют все это дело. Разве не так?

  5. Майк
    18 сентября 2012 в 11:49

    2 Lalla78:
    Да это не я идею подал, просто такие заказы выполнять приходится 🙂 К счастью, большинство заказчиков у меня сейчас «правильные» — к поисковой фразе просят любой текст по этой же тематике. Просто красота!

    То, что поисковики становятся умнее — это факт, только официально это не афишируется. Многие рекламодатели в САРах пишут, что в этом месяце Гугл снял у них не обычные 10-15% с дохода за псевдоклики, а более 30%, а у некоторых и 40-50%. Интернет поворачивается лицом к людям 🙂

    Про аватары точно не могу сказать, кто там чего продвигает. Возможно, что речь идет о постовых, куда могут затребовать включить все что угодно. К примеру, дать жуткие анкоры и попросить околоссылочный текст совсем на другую тему. А вместе с авторским постом такая «троица» выглядит как зомби в ночи…

    • Lalla78
      19 сентября 2012 в 22:29

      Да, хорошее сравнение :).

      Иногда люди ищут именно по ключевикам,а попадают не весть куда. И сама такое часто встречала, когда нужно вязание, а забредаешь на совсем левый форум.

      К людям — это хорошо, скоро будем писать только грамотный и правильный текст о том, что волнует нашего читателя, а не подсовывать пустышку.

Добавить комментарий

Ваш email никогда никто не узнает. Обязательные поля отмечены *

*
*