Archive for Апрель, 2008

Поисковый спам, как его понимает Google (2)

Продолжаем знакомство с классификацией Гуглом поискового спама.

3.  «Тонкие» аффилиаты.

Этим термином в Гугле именуют страницы, которые созданы для того, чтобы направлять посетителей на другой домен с другим владельцем. Ключевые слова приводят пользователей на партнерскую страницу, а ссылки на ней направляют их на другие страницы, принадлежащие действительному торговцу.

Это – ситуация «разделения дохода», когда партнер получает комиссионные от торговца за некоторые действия посетителя на сайте торговца. Обычно таким действием является акт покупки, как то: покупка продукта, заказ места в гостинице и т.п. Страница «тонкого» партнера, как правило, содержит некоторый контент (текст, картинки), взятый на сайте торговца. При этом сам по себе сайт не добавляет никакой, или почти никакой, реальной ценности, хотя и получает свою комиссию. Нередко на таких страницах содержатся также и PPC объявления.

Как распознать страницу «тонкого» партнера? Прежде всего, по наличию на сайте ссылок, ведущих на другой домен. Далее, на сайте отсутствуют сравнительные ценовые характеристики, обзоры продуктов. То есть, нет никакой добавленной ценности, а только ссылка на сайт торговца. Вы не можете выполнить покупку непосредственно на партнерском сайте.

Часто на подобных сайтах размещаются ссылки таких торговых площадок, как Amazon, eBay, и т.п.

Однако, иногда торговые сайты перенаправляют посетителей на другой домен при оплате, когда они пользуются услугами сторонних платежных систем. Такие торговцы не являются «тонкими» аффилиатами.

Не всякие партнеры являются «тонкими». Так, если на страницах сайта есть таблицы со сравнительными ценовыми характеристиками, либо обзоры продукции, или рецепты, лирика и т.п., то такие страницы не являются спамом.

4. Скрытый текст или скрытые ссылки.

Вебмастера размещают скрытый текст, чтобы привлечь посетителей на свои страницы. Такой текст невидим для посетителей, которые могли бы счесть его неуместным или бессмысленным, но его видят поисковые роботы.

При этом текст может быть полностью невидим для человека. Он может быть близок по цвету к фону страницы и быть практически неразличимым. Такой текст может быть набран очень мелким шрифтом и быть почти незаметным. Текст может располагаться за пределами нормальной области обзора, за пределами экрана: либо гораздо ниже главного экрана, либо далеко справа, в конце полосы прокрутки.

Такой текст не является спамом, если его целью не является обман поисковых машин. Например, вебмастер может скрыть информацию о дате последнего обновления страницы, о копирайте, и т.п. 

Используя технику выделения текста на странице (Ctrl-A или “Select All”) можно выявить значительную часть скрытого текста. Также можно просмотреть исходный текст веб страницы (просмотр в формате HTML). Если текст расположен за пределами экрана, то надо просто воспользоваться полосами прокрутки.

Нередко для сокрытия текста используется Java Script. При этом спамеры могут создавать два варианта текста: один для посетителей, а другой – для поисковых роботов. Некоторые вебмастера могут использовать для этих целей CSS (каскадные таблицы стилей). В этом случае распознать спам достаточно сложно.

5. JavaScript редиректы.

Вебмастера иногда используют JavaScript для сокрытия текста, или для предоставления различных вариантов текста людям и роботам поисковых машин.

Для того чтобы выявить такой спам, надо отключить использование JavaScript’а в браузере, и сравнить текущий экземпляр страницы с экземплярами, хранящимися в кэше поисковых машин. Если они не совпадают, то налицо использование спамовых техник.

6. Стаффинг (заполнение) ключевыми словами.

Иногда вебмастера нагружают страницы излишними ключевыми словами, имеющими отношение к теме страницы, с целью привлечения поисковых роботов на свои сайты. Это может проявляться в виде повторений слов, синонимов или орфографических ошибок.

Часто страницы наполняют совершенно не относящимися к теме словами, призванными создать впечатление, будто страница относится к какой-нибудь популярной тематике (ипотека, мобильные телефоны, казино) и привлечь на них поисковые роботы. Цель – увеличение поискового трафика на сайт.

Стаффинг ключевых слов может использоваться в любых местах страницы, при этом сами слова могут быть видимы или невидимы.

Отдельно следует отметить стаффинг ключевых слов в ссылках (URL). Часто такие ссылки генерируются специальными программами и выглядят, как несколько слов, разделенных дефисами. Например: http://apply-bankruptcy-card-credit.luciddomains.com/index.html. Зачастую такие страницы содержат бессмысленный текст. Гугл считает наличие подобных ссылок одним из верных признаков спама.

7. 100% фреймы.

Иногда сокрытие текста от посетителей выполняется с помощью техники фреймов. При этом существуют два фрейма, но один из них полностью покрывает видимую область. Таким образом, посетитель видит только один из фреймов, а поисковый робот видит оба фрейма.

Если воспользоваться просмотром свойств страницы в браузере, то в таких случаях можно видеть, что URL страницы и URL фрейма отличаются. Такие страницы являются спамовыми страницами.

8. Скрытые (Sneaky) редиректы.

Скрытый редирект имеет место, когда посетитель принудительно перенаправляется на другой URL другого домена. Поисковые машины индексируют и ранжируют страницы одного домена, а посетитель перенаправляется совсем на другой домен. Соответственно, контент при этом совершенно различный.

Иногда перенаправление идет случайным образом на один из нескольких доменов. Иногда, если вы введете в поисковую форму один из этих доменов, то попадаете на страницы eBay, Amazon и других подобных сайтов.

Основным признаком скрытого редиректа является перенаправление посетителя на другой домен с другим владельцем домена. Если перенаправление идет на другой домен того же самого владельца, то это не является спамом.

Необходимо отметить, что метод скрытого редиректа активно используется в партнерских программах с использованием аффилиат менеджеров, таких как CJ, LinkShare и др. Как ни странно, но Гугл считает подобные схемы спамом, и даже приводит соответствующий пример в своем Руководстве. Является ли участие в таких программах легальным? Это интересный вопрос, но с точки зрения Гугла очевидно нет.

В заключение своего Руководства, Гугл отмечает, что распознавание поискового спама – это умение, требующее практики и времени. Если Вы не уверены, является ли данная страница спамом, задайте себе следующий вопрос. Если убрать со страницы весь заимствованный контент, «содранные» ленты новостей, поддельные форумы и блоги, «тонкие» партнерские ссылки, паркованные и просроченные домены, останется ли на них что-нибудь еще, кроме PPC объявлений и спонсорских ссылок? Если нет, то такая страница является спамом.

Поисковый спам, как его понимает Google (1)

Поисковому спаму посвящен целый раздел в «Общем руководстве» Гугла, который занимает четверть этого документа. На протяжении всего существования поисковых машин они неизменно боролись с так называемыми «черными» методами оптимизации. Гугл – не исключение. И сегодня все, что так или иначе связано с «черной» оптимизацией, «блэк хэтом» и т.п., Гугл относит к категории, называемой поисковым спамом.

Что же такое поисковый спам? Этот термин используется для веб страниц, создаваемых вебмастерами с целью обмана поисковых машин и привлечения трафика на свои сайты.

В отличие от тех категорий, которые разработаны Гуглом для оценки качества веб страниц по поисковым запросам, которые напрямую зависят от самих запросов, и потому относительны, категория поискового спама является абсолютной. Каким бы ни был поисковый запрос, спам всегда остается спамом.

С точки зрения Гугла, спамеры зарабатывают свои деньги, когда посетители кликают по ссылкам на веб страницах. Существует два главных источника спамерской прибыли – PPC объявления (контекстная реклама), и партнерские (аффилиат) программы (Гугл называет такое явление «тонкими» - thin – аффилиатами).

В общем случае страницы не относятся к спаму, если они предлагают некоторую добавленную ценность. Такой ценностью может быть оригинальный контент, полезная информация, независимо от того, есть ли на странице PPC объявления и партнерские ссылки.

Контентом, создающим добавленную ценность, Google считает:

- сравнительный анализ цен;

- оригинальные обзоры продуктов;

- рецепты (кулинарные);

- лирику, стихотворения и цитаты;

- контактную информацию, в особенности физические адреса и номера телефонов;

- купоны, скидки и промо коды.

Далее Гугл выделяет и подробно описывает восемь видов поискового спама.

1. PPC страницы.

Множество страниц создается с целью получения доходов от кликов по рекламным объявлениям. При этом не предоставляется никакая другая полезная информация. Часто такие страницы выглядят как страницы поисковых результатов, либо как страницы блогов, досок объявлений, форумов. Существует много различных типов PPC страниц.

- Страницы, не содержащие ничего, кроме объявлений.

- Страницы, выглядящие как каталоги с PPC объявлениями. Вы можете увидеть ссылки, выглядящие как результаты поисковой выдачи. Однако, кликнув по ним, вы не увидите ничего, кроме рекламы.

- Поддельные блоги с PPC объявлениями. Здесь вы можете увидеть посты, лишенные смысла, либо скопированные из других источников. Страницы существуют только для того, чтобы на них помещались блоки рекламных объявлений.

- Поддельные форумы с PPC объявлениями. На них вы можете видеть «сообщения», но вы не увидите ответов на эти сообщения. Текст «сообщений» может быть бессмысленным, либо включать рекламные ссылки. Вы можете увидеть целые страницы форумов, скопированные из других источников. Может показаться, что страницы включают ссылки для ответов, регистрации, но при кликах по ним они или не работают, или вы просто попадаете на ту же самую страницу.

- «Содранный» или скопированный контент с PPC объявлениями. Это может быть контент, украденный из других источников:  с использованием специальных программ, созданных для этой цели, или с помощью поисковых запросов по специально подобранным поисковым фразам, или просто с помощью «копирования и вставки». Это же относится и к контенту, полученному из вполне легальных источников, например Википедии или каталогов DMOZ. Это могут быть ленты новостей RSS с различных сайтов, результаты поисковой выдачи. Они могут строиться по шаблонам для массового воспроизводства подобных страниц. 

 

Контент таких страниц не обязательно является нелегальным или плагиатом. В некоторых случаях вебмастера не претендуют на то, что они являются собственниками контента, и оформляют ссылки с указанием на первоисточники.

Для того чтобы распознать подобный контент, часто бывает достаточно скопировать кусочек текста и проверить его через поисковую машину. При этом оказывается, что он уже содержится на сайтах Википедии или DMOZ, а то и на десятках других сайтов.

Однако здесь существуют исключения. Использование лирики, поэзии, рингтонов, цитат, пословиц не является спамом, и потому допустимо.

В редких случаях оригинальный контент создается специально для обмана поисковых машин, и не может быть найден в других источниках. Такой контент трудно диагностировать как спам.

Гугл предлагает следующий тест для веб страниц. Если вы уберете со страницы весь «содранный» или скопированный контент, и все, что после этого останется – это PPC объявления, то такая страница является спамом.

2. Паркованные домены.

Доменные имена, которые не были продлены в установленный срок, но еще не исчезли с DNS серверов, могут быть приобретены новыми владельцами. Спамеры иногда покупают подобные домены и помещают на веб страницы свой контент. Такие сайты относятся к просроченным или паркованным доменам, и ценность их заключается в ранее существовавших ссылках. И теперь эти ссылки прилинкованы к спамовым страницам.

Типичный паркованный/просроченный домен может содержать:

- список спонсорских ссылок;

- список популярных категорий;

- список подобных категорий.

 

Все ссылки на странице – оплачиваемые ссылки. Никакого оригинального контента страница не содержит.

 Имя домена при этом часто не имеет никакого отношения к контенту страниц. Гугл рекомендует проверять домен с помощью сервиса http://www.waybackmachine.org, чтобы сравнить с тем, как сайт выглядел ранее.

Остальные виды поискового спама, как их видит Google, мы рассмотрим в следующей части статьи.

Как Google оценивает качество поиска и сайта

На днях мне попался интересный документ, который, как предполагают, родился в недрах компании Google. Называется он «Общее руководство» и предназначается для сотрудников Гугла, оценивающих качество веб страниц и поиска в Интернете (рейтеров).

На 43-х страницах подробно и с примерами излагаются основные принципы, которыми должны руководствоваться модераторы Гугла при оценке качества поиска по тем или иным запросам, и качества страниц сайтов в частности.

Поскольку взгляд Google на качество поиска в сети нам не безразличен, есть смысл хотя бы в общих чертах с ним ознакомиться.  Итак:

Все поисковые запросы Гугл делит на три типа. Это: навигационные запросы, когда по ссылке ищется конкретная веб страница, информационные, при которых ищется информация по некоторой теме, и деловые, при которых ищется конкретный продукт или сервис.

Страницы, которые выдаются поисковиком по запросу, с точки зрения качества поиска подразделяются на следующие категории рейтинга:

1. Существенные (Vital). Эта категория применима к навигационным запросам, и характеризует страницы с доминирующей интерпретацией. Так, например, для запроса ”Microsoft” такой страницей будет http://microsoft.com, для запроса “adobe” – http://www.adobe.com, и т.п. Обычно названия доменов таких страниц содержат слово поискового запроса. Для известных людей существенными страницами являются страницы сайтов, принадлежащие непосредственно самим знаменитостям.

2. Полезные (Useful). Эти страницы должны быть: в наивысшей степени соответствующими теме запроса, содержать всестороннюю информацию, высокого качества, и авторитетными. Они должны отвечать на запрос по существу, не быть слишком широкими по теме или слишком специфичными. Например, это может быть своевременная и информативная статья; страница, позволяющая найти требуемый продукт или сервис; важная страница верного сайта. Если дан запрос на получение списка, то полезной страницей может быть страница каталога.

3. Релевантные (Relevant). Эти страницы имеют меньше значимых атрибутов, чем полезные. Например, они могут быть не столь всесторонними, исходить из менее авторитетных источников или раскрывать лишь один из важных аспектов запроса. Это может быть краткая статья, или страница менее авторитетного сайта. Для запроса на получение списка релевантной будет страница, содержащая лишь один подходящий элемент.

4. Нерелевантные (Not relevant). Это такие страницы, которые не содержат полезной информации по существу, но отдаленно связаны с темой запроса. Они могут быть устаревшими, слишком узко привязанными к конкретному региону, слишком специфическими или слишком широкими по теме, содержать мало информации и относиться к не слишком авторитетному источнику. К нерелевантным страницам относятся также страницы, содержащие ссылки на информативные страницы, но сами они не содержат другой полезной информации. Это также может быть  бесполезная или неинформативная страница верного сайта.

5. Оффтопик (Off-topic). Это страницы, имеющие нулевую релевантность к данному запросу. При этом они могут содержать в своем контенте поисковый термин, но в совершенно другом контексте. Например, страница о выращивании роз по запросу о «розе ветров». Или когда по запросу «университеты Индии» выдается страница с университетами Франции. Если страница содержит ссылку на поисковую машину, которая в принципе может дать верный ответ на запрос, но сама по себе она не имеет никакого отношения к запросу, то такая страница тоже относится к категории оффтопик.

Далее в документе описываются категории страниц, не подлежащие рейтингу. Это:

1. Незагружаемые страницы (Didn’t load). Те страницы, при загрузке которых выдается 404 код, сообщения типа ”Page not found”, “Site unavailable”, “Product not found”. Это может быть пустая страница, или страница, защищенная паролем, страница в неправильной кодировке, страница с ошибочными сообщениями сервера.

2. Иностранный язык (Foreign language). Таковой является, например, страница на испанском языке, выданная по запросу на французском языке. При этом страницы на английском языке не считаются иностранными ни для каких запросов. Также не являются иностранными страницы, содержащие рисунок, понятный человеку, говорящему на любом языке; страница со ссылкой на скачку некоторого программного продукта; страница на нескольких языках, если там содержится достаточно текста на языке запроса; а также страницы на иностранном языке, содержащие спамовый контент.

3. Нерейтингуемые (Unratable). Такая категория присваивается в том случае, когда после оценки запроса нет уверенности в оценке качества страниц.

Также при оценке страниц сайта используются две категории «флажков». Первая из них относится к такой характеристике, как спам, и может содержать три значения: «Не спам» (Not spam), «Возможно спам» (Maybe spam) и «Спам» (Spam).

Вторая категория флажков включает идентификатор «Порно»(Porn)  для сайтов со взрослым контентом, а также «Вредоносный» (Malicious) для сайтов, распространяющих вирусы, трояны и прочее вредное содержание, или вынуждающих пользователя закрывать браузер.

Другим интересным вопросом является отношение Гугла к поисковому спаму и спамовым страницам. Но об этом мы более подробно поговорим в следующий раз.