Как Google оценивает качество поиска и сайта
На днях мне попался интересный документ, который, как предполагают, родился в недрах компании Google. Называется он «Общее руководство» и предназначается для сотрудников Гугла, оценивающих качество веб страниц и поиска в Интернете (рейтеров).
На 43-х страницах подробно и с примерами излагаются основные принципы, которыми должны руководствоваться модераторы Гугла при оценке качества поиска по тем или иным запросам, и качества страниц сайтов в частности.
Поскольку взгляд Google на качество поиска в сети нам не безразличен, есть смысл хотя бы в общих чертах с ним ознакомиться. Итак:
Все поисковые запросы Гугл делит на три типа. Это: навигационные запросы, когда по ссылке ищется конкретная веб страница, информационные, при которых ищется информация по некоторой теме, и деловые, при которых ищется конкретный продукт или сервис.
Страницы, которые выдаются поисковиком по запросу, с точки зрения качества поиска подразделяются на следующие категории рейтинга:
1. Существенные (Vital). Эта категория применима к навигационным запросам, и характеризует страницы с доминирующей интерпретацией. Так, например, для запроса ”Microsoft” такой страницей будет http://microsoft.com, для запроса “adobe” – http://www.adobe.com, и т.п. Обычно названия доменов таких страниц содержат слово поискового запроса. Для известных людей существенными страницами являются страницы сайтов, принадлежащие непосредственно самим знаменитостям.
2. Полезные (Useful). Эти страницы должны быть: в наивысшей степени соответствующими теме запроса, содержать всестороннюю информацию, высокого качества, и авторитетными. Они должны отвечать на запрос по существу, не быть слишком широкими по теме или слишком специфичными. Например, это может быть своевременная и информативная статья; страница, позволяющая найти требуемый продукт или сервис; важная страница верного сайта. Если дан запрос на получение списка, то полезной страницей может быть страница каталога.
3. Релевантные (Relevant). Эти страницы имеют меньше значимых атрибутов, чем полезные. Например, они могут быть не столь всесторонними, исходить из менее авторитетных источников или раскрывать лишь один из важных аспектов запроса. Это может быть краткая статья, или страница менее авторитетного сайта. Для запроса на получение списка релевантной будет страница, содержащая лишь один подходящий элемент.
4. Нерелевантные (Not relevant). Это такие страницы, которые не содержат полезной информации по существу, но отдаленно связаны с темой запроса. Они могут быть устаревшими, слишком узко привязанными к конкретному региону, слишком специфическими или слишком широкими по теме, содержать мало информации и относиться к не слишком авторитетному источнику. К нерелевантным страницам относятся также страницы, содержащие ссылки на информативные страницы, но сами они не содержат другой полезной информации. Это также может быть бесполезная или неинформативная страница верного сайта.
5. Оффтопик (Off-topic). Это страницы, имеющие нулевую релевантность к данному запросу. При этом они могут содержать в своем контенте поисковый термин, но в совершенно другом контексте. Например, страница о выращивании роз по запросу о «розе ветров». Или когда по запросу «университеты Индии» выдается страница с университетами Франции. Если страница содержит ссылку на поисковую машину, которая в принципе может дать верный ответ на запрос, но сама по себе она не имеет никакого отношения к запросу, то такая страница тоже относится к категории оффтопик.
Далее в документе описываются категории страниц, не подлежащие рейтингу. Это:
1. Незагружаемые страницы (Didn’t load). Те страницы, при загрузке которых выдается 404 код, сообщения типа ”Page not found”, “Site unavailable”, “Product not found”. Это может быть пустая страница, или страница, защищенная паролем, страница в неправильной кодировке, страница с ошибочными сообщениями сервера.
2. Иностранный язык (Foreign language). Таковой является, например, страница на испанском языке, выданная по запросу на французском языке. При этом страницы на английском языке не считаются иностранными ни для каких запросов. Также не являются иностранными страницы, содержащие рисунок, понятный человеку, говорящему на любом языке; страница со ссылкой на скачку некоторого программного продукта; страница на нескольких языках, если там содержится достаточно текста на языке запроса; а также страницы на иностранном языке, содержащие спамовый контент.
3. Нерейтингуемые (Unratable). Такая категория присваивается в том случае, когда после оценки запроса нет уверенности в оценке качества страниц.
Также при оценке страниц сайта используются две категории «флажков». Первая из них относится к такой характеристике, как спам, и может содержать три значения: «Не спам» (Not spam), «Возможно спам» (Maybe spam) и «Спам» (Spam).
Вторая категория флажков включает идентификатор «Порно»(Porn) для сайтов со взрослым контентом, а также «Вредоносный» (Malicious) для сайтов, распространяющих вирусы, трояны и прочее вредное содержание, или вынуждающих пользователя закрывать браузер.
Другим интересным вопросом является отношение Гугла к поисковому спаму и спамовым страницам. Но об этом мы более подробно поговорим в следующий раз.