Синонимайзеры vs Закон Ципфа
Автор DrMax
3 сентября, 2009.
Раздел: Продвижение
Новомодным веянием среди создателей г.сателлитов является синонимизация контента. К услугам имеются десятки баз синонимов, сотни синонимайзеров, которые, якобы, генерируют уникальный и читабельный контент для конечного пользователя.
Практически все известные мне синонимайзеры работают по одному и тому же алгоритму – поиску и замене слов по словарю. Результаты всех более-менее нормально написанных синонимайзеров зависят только и исключительно от полноты и тематичности собранной базы. Как заявляют производители синонимайзеров – этакая замена слов разрушает шинглы и текст становится уникальным, с точки зрения поисковых систем. То что текст становится не читабельным для пользователя – их совершенно не смущает – так как, по их заверениям, поисковые машины не смогут это определить.
Давайте посмеемся вместе с создателями поисковых машин над этими заверениями. Любая продвинутая ПС может запросто определить что перед ней – контент написанный полуграмотным пользователем, научный труд или, упаси господи, синонимизированный текст – причем все это вычисляется гораздо проще чем подсчет пресловутых шинглов или там какие иные методы.
Сейчас мы рассмотрим как это делается, но для начала небольшое отступление.
В 1902 году в далекой зарубежной стране родился George Kingsley Zipf (в русской транскрипции читается как Ципф или Зипф). В последствии он вырос и стал великим лингвистом и филологом, работая в Гарварде. Необычайную популярность ему принесло открытие, получившее в дальнейшем его имя.
Закон Ципфа (Зипфа) звучит следующим образом — это эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка).
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Позволю себе еще одну цитату, сопроводив ее рисунками:
Кривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. На рисунках, представленных ниже, изображен набор из 300 элементов, подчиняющийся распределению Зипфа. Обратите внимание, что на правой диаграмме линия, соединяющая все точки, образует прямую (на графике обе шкалы — логарифмические). Большинство графиков, которыми мы пользуемся в жизни, имеют линейную шкалу, поэтому в качестве сравнения на левой диаграмме представлены те же самые данные, но на графике с линейной шкалой по осям.
Посмотрите на рисунки


Первый график — линейная шкала по обеим осям.
Второй график — логарифмическая шкала по обеим осям.
Одни и те же данные, изображенные на линейной и логарифмической шкале.
Оба графика изображают распределение Зипфа на примере 300 точек.
Из вышеприведенных графиков понятно, что кривые Зипфа при изображении на линейных шкалах имеют тенденцию очень плотно прилегать к осям графиков. Именно поэтому мы обычно рисуем эти кривые на логарифмической шкале, даже несмотря на то, что большинство людей не привыкло с ними работать.
Простое описание данных, подчиняющихся распределению Зипфа, таково:
- Небольшое количество элементов имеет очень высокий рейтинг (левый «рог» диаграммы)
- Среднее количество элементов имеет средний рейтинг (средняя часть диаграммы)
- Огромное количество элементов имеет очень низкий рейтинг (правый «рог» диаграммы)
Как показывает практика, распределения Зипфа можно использовать для описания употребления слов в человеческом языке. Так, например:
- В языке есть небольшое количество слов, которые используются чрезвычайно часто
- В языке есть достаточно большое количество слов, которые используются достаточно часто
- В языке полно слов, которые практически никогда не используются
Ну и что спросите Вы? К чему бы это такие пространные рассуждения. Откуда уважаемый автор взял, что поисковые системы хоть как то используют пресловутый закон тов. Ципфа?
А вот тут я вас попрошу зайти в Google – инструменты для вебмастеров. Там кликнуть по закладочке «Ваш сайт в Интернете» и далее по ссылочке проследовать «Ключевые слова».
О боже мой!
Перед нами пресловутое распределение ключевых слов на вашем сайте.
То что выводится в панели вебмастера – конечно же — лишь часть сведений о распределении, но то что Google собирает, хранит и анализирует их – становится очевидным.
После того как коллекция ключевых слов сайта будет собрана, поисковики проверяют их по корпусам слов. Существует усредненная закономерность для каждой тематики по частотности тех или иных слов. Эта частотность собирается по гигантским корпусам слов (ну, например, как господа с aot.ru собирали свои корпуса по Библиотеке Машкова). Если частотность ключевых слов сайта отличается от усредненного тематического корпуса частотности – то дело явно неладное и неплохо бы трастовость сайта приопустить или может быть, по совокупности иных факторов – прибанить.
Теперь опять припомним, как же работают синонимайзеры. Они тупо меняют одно слово на другое, не задумываясь о частотности синонима. И как вы думаете, какие слова наиболее часто заменяются? Правильно! Именно те, которые часто встречаются. А меняются они на слова с менее выраженной частотностью. Тем самым частотность встречающихся слов становится нетематичной и сайту будет вынесено предупреждение в виде снижение траста, переноса в саплимент или бана.
Таким образом, использование синонимайзеров, работающих со словарями – верная дорога к повышению шансов наложения санкций на сайт. Как выход – используйте синонимайзеры, работающие на корпусах слов по технологиям aot.ru или иных исследователей.
Хочу затронуть еще один вопрос – а именно как определяет тот же Google тематику сайта. Хочу отметить 2 очевидных фактора, лежащих на поверхности, но о которых никто не задумывается:
1. Каталог Гугла – слепок Dmoz;
2. Сайты из Dmoz являются более трастовыми.
Отсюда вывод: точное определение тематики сайта, Google перекладывает на редакторов Dmoz. Действительно, ручная модерация сайтов – наиболее точная, чем любые алгоритмы – потому и сайтам, включенным в каталог Dmoz и выдается больший траст.
Предварительное же определение тематики Google осуществляет по тем же частотным словарям – путем расчета пересечений множеств слов из тематических корпусов и найденных на сайте. Однако такое определение может давать сбои – потому траста у таких сайтов – не много.
Выводов из этой статьи можно сделать много, Закон Ципфа универсальная штука – которая широко применяется ПС, посему смотрите думайте и анализируйте.
Например хорошая тема для следующей статьи – о естественном распределении входящих ссылок по страницам сайта, согласно закона Ципфа. Несоблюдение такого распределения приводит к санкциям от ПС (так как позволяет легко определить что ссылки куплены), о чем я упоминал в статье «Измышлизмы о сателлитах».
Желаю удачи и жду комментариев.











Статья понравилась, есть пища для размышлений...
Было бы не плохо заиметь базу синонимов редко употребляющихся слов и выражений...))
Даа. Представляю как теперь Ципфа будут г.сеошники клясть.
Ну вот и нашлось объяснение, а то все на уровне предчувствий. Кажется что что-то не так, а никто объяснить не может. Спасибо Drmax за статью, будем ждать новых публикаций.
@ Tatarin:
Да собствено тов. Ципфу уже все равно.
@ BoB:
Еще раз напоминаю, что фильтр на сайты наступает по СОВОКУПНОСТИ разнообразных факторов. Постараюсь рассказать и порассуждать о них вместе с вами.
@ INOY:
такой базы то нет наверное.
надо писать собственный обработчик
или провести анализ уже имеющихся баз синонимов по корпусам слов, например с aot.ru
А что это у вас в правом верхнем углу рекламируется? — Одно другому не мешает?
Дык благоразумные люди делают белые сайты на том, что рекламируется в правом углу.
Так вот как учитывается контекстное значение слов... Синонимайзерам нужно взять на вооружение, а то получается белиберда — несовпадение синонима, взятого в данном контексте.
Только одно приводит в грустное состояние, язык конечно у нас один, только у каждого отдельного индивидума набор слов разный: Если человек сильно начитанный и продвинутый, то в его статье или устной речи присутствует употребление слов, прямо скажем не свойственных для людей использующих три слова для описания свой мысли. Исходя из этого получается, что статья написанная высокоинтеллектуальным автором, каких в сети может оказаться считанные еденицы(к примеру,без обид),с большим диапазоном используемых слов будет ранжироваться ниже, статьи написанной полуграматным человеком у которого в речи используется маленький набор слов, но зато часто употребимых типа «б...я». Дусмаю, что алгоритм должен быть немного сложнее.
Да это все бесспорно, но, как говорят работники Яндекса — они там в Снежинске более 1000 параметров сейчас учитывают, думаю что и этот метод является одним из параметров