Статья взята с сайта Я - Копирайтер!
Шингл с английского переводится как «чешуйка». В сфере SEO этим словом обозначают:
- Кусочек текста в несколько слов (десятисловный шингл, четырехсловный шингл).
- Метод проверки текстов на степень схожести.
Зачем нужен анализ уникальности текстов понятно. Засорение поисковой выдачи страницами с одинаковым текстом, различающимся одним-двумя предложениями никому не нужно. Для выявления неуникальных текстов как раз и используется метод шинглов.
Технические подробности действия алгоритма шинглов держатся в секрете, но общий принцип таков:
На первом этапе происходит канонизация текста
Канонизация – это процесс отбрасывания символов и слов, которые не имеют смысловую нагрузку.
Символы – знаки препинания, кавычки, скобки, смайлики цифры и так далее.
Слова – все стоп-слова, восклицания, предлоги и союзы.
Пример.
Возьмем для примера такой текст
Копирайтинг – это написание для сайтов абсолютно неповторимого контента. Такой путь зарабатывания денег оптимален для Вас в том случае, если вы можете создавать легко читаемые, содержательные и написанные грамотным языком, захватывающие тексты.
После канонизации он примет следующий вид:
Копирайтинг написание сайтов абсолютно неповторимого контента путь зарабатывания денег оптимален случае можете создавать легко читаемые содержательные написанные грамотным языком захватывающие тексты
На втором этапе канонизированный текст делится на шинглы.
Допустим, нам нужно разбить текст на девятисловные шинглы, тогда мы получим следующее:
- Копирайтинг написание сайтов абсолютно неповторимого контента путь зарабатывания денег
- оптимален случае можете создавать легко читаемые содержательные написанные грамотным
- языком захватывающие тексты
На третьем этапе происходит сравнивание шинглов одного текста с шинглами другого и выявление похожих шинглов
Исходный текст | Копирайтинг – это написание для сайтов абсолютно неповторимого контента. Такой путь зарабатывания денег оптимален для Вас, в том случае, если вы можете создавать легко читаемые, содержательные и написанные грамотным языком, захватывающие тексты. | Копирайтинг – это написание абсолютно уникального контента для Internet-ресурсов. Рассматриваемый в данной статье путь получения доходов придется Вам по душе, если вы можете создавать написанные грамотным языком, читаемые на одном дыхании, захватывающие, полезные статьи. |
Шинглы | Копирайтинг написание сайтов абсолютно неповторимого контента путь зарабатывания денег | Копирайтинг написание абсолютно уникального контента Internet ресурсов Рассматриваемый данной |
оптимален случае можете создавать легко читаемые содержательные написанные грамотным | статье путь получения доходов придется душе можете создавать написанные грамотным | |
языком захватывающие тексты | языком читаемые одном дыхании захватывающие полезные статьи |
Здесь описана упрощеная схема деления текста на шинглы.
На самом деле, шинглы идут "внахлест".
Так что общее количество шинглов в тексте равно количеству слов минус один.
Выводы можно сделать следующие:
Чем короче шингл, тем более точной будет проверка уникальности текста и тем более трудоемкой будет работа по размножению.
Для вебмастеров и копирайтеров, которые занимаются размножением статей плохо то, что поисковыми системами держится в секрете точный алгоритм шинглов. Остаются вопросы:
? Используются ли при проверки уникальности шинглы заданной длины или любой текст делится на определенное количество кусочков?
? На сколько конкретно частей делится текст или какой точно длины шинглы применяются?
? Каково максимально допустимое значение повторов шинглов, после которого текст уже будет считаться поисковой системой неуникальным?
Вопросов много. Ответы можно получить только опытным путем.
Обычно я для своих проектов использую тексты с уникальностью от 90% и выше при длине шингла 6. Вы же можете выбрать что-то свое.