Google Supplemental и миф о «песочнице»
Как известно, Google является крупнейшим поисковиком в западном Интернете и (пока) вторым в Рунете. Поэтому продвижение сайта в Google – жизненно важный вопрос. Но для того, чтобы добиться поставленной цели, необходимо знание некоторых тонких моментов, иначе задача может стать практически невыполнимой. Ряд таких моментов связан с так называемым дополнительным индексом Google (Supplemental Index).
Потребность, по которой возникло деление индекса Гугла на основной и дополнительный, довольно прозаична. Просто на каком-то этапе Гуглу стало не хватать собственных ресурсов.
В свое время я писал о нехватке ресурсов у Яндекса. Не секрет, что лозунг Яндекса «Найдется все» сегодня является не более чем лозунгом. Потому что давно уже есть масса сайтов, которые Яндекс даже не включает в свой индекс. И обращения к Платону тут не помогают.
Безусловно, у Гугла ресурсов значительно больше. Но они не безграничны. PageRank, который связывает всех со всеми, явился, конечно, грандиозной идеей. Как оказалось, слишком грандиозной. Дело даже не в том, что количество сайтов в Интернете растет. В конце концов, можно было бы добавлять новые компьютеры, наращивая гугловскую сеть.
Гораздо хуже то, что время, необходимое для перерасчета PageRank’а по старым схемам, становилось неприемлемо большим. Если на перерасчет требуется, скажем, полгода или год, то ценность такого метода становится близкой к нулю.
Между тем, сайты не равноценны. Есть сайты значимые, а есть проходные. И их соотношение регулируется принципом Парето, примерно 20 к 80. Поэтому идея была такова: оставить в основном индексе где-то до 20 процентов всех страниц Интернета, а остальные отправить в дополнительный индекс.
Обработка индексов, соответственно, также должна подчиняться принципу Парето. То есть на работу с основным индексом идет 80 процентов ресурсов Гугла, а оставшиеся 20 процентов идут на дополнительный индекс.
Естественно, попадание страниц сайта в дополнительный индекс справедливо рассматривалось вебмастерами как стихийное бедствие. И вот некоторое время назад Google осчастливил всех вестью, что дополнительного индекса больше не будет.
Многие поверили в это. Не скрою, я тоже был в их числе. Однако некоторые очевидные факты впоследствии убедили меня в обратном. Несмотря на заявления Google, дополнительный индекс остается в полной силе, он действует и по сей день.
В том, как работает Google Supplemental, я убедился на собственном опыте. Где-то с сентября прошлого года я занялся активным продвижением сайта bizsoftlab.com и блога. Со всех сторон я слышал, что главное – это контент. И вот я стал писать в блог практически каждый день.
Через несколько месяцев я понял, что результаты меня не удовлетворяют. То есть трафик, конечно, рос, но вовсе не теми темпами, как можно было ожидать. Я всегда уделял значительное внимание трафику с поисковых машин. И вот я увидел, что, хотя с Гугла трафик на мой сайт был самым большим, но, судя по наполнению контентом, он мог бы быть значительно больше.
И тогда я случайно обнаружил в Интернете сервис supplemental.name. Там предлагалось проверить свой сайт на качество контента. На этом сайте рассчитывалось отношение страниц сайта, находящихся в основном индексе Гугла, к общему количеству проиндексированных Гуглом страниц сайта. Я проверил свой сайт, и результаты оказались более чем скромными.
Позже я нашел другой подобный сервис, уже в западном Интернете – www.mapelli.info/tools/supplemental-index-ratio-calculator. Идея та же самая, но вычисляется отношение числа страниц, находящихся в дополнительном индексе Гугла, к числу всех проиндексированных страниц сайта.
Результаты были в некотором роде симметричны, но по существу, сходны. Получалось, что, хотя я и пополнял контент своего блога почти каждый день, страницы регулярно отправлялись в дополнительный индекс Google. Соответственно, пользы для трафика от них было немного, если она вообще была. Получив такие результаты, я перестал писать в блог каждый день.
После этого я занялся исследованием данного вопроса, экспериментами с сайтом. В результате я не только приобрел ценные знания и опыт, но и понял, как мне надо продвигать сайт в Google.
Каковы же основные свойства Google Supplemental?
1. Страницы, находящиеся в дополнительном индексе, выдаются по поисковому запросу только в тех случаях, когда в основном индексе информации недостаточно. Иными словами, они не выдаются в SERP почти никогда. Независимо от того, какова их релевантность.
Если бы этим все дело ограничивалось, то уже одного этого свойства было бы достаточно для того, чтобы понять, почему в западном Интернете Supplemental называют Гугловым адом. Но все еще только начинается.
2. Страницы, находящиеся в Supplemental, индексируются не полностью, а по какому-то своему алгоритму. Мэтт Каттс по этому поводу говорил, что индексация идет лишь по отдельным «важным» словам. Какие слова являются важными, это нам неизвестно.
Помните принцип Парето? Именно здесь идет экономия на ресурс Гугла.
Во что это выливается? Если у нас была надежда на то, что подобные страницы будут как-то котироваться для запросов «длинного хвоста» (long tail), то оказывается, что этот прием тут не работает. По той причине, что данные страницы просто не будут индексироваться по всем возможным словам, которые могли бы входить в «длинный хвост». В результате польза от страницы, оказавшейся в дополнительном индексе, практически нулевая.
Оказывается, что даже для того, чтобы выдаваться по поисковым запросам «длинного хвоста», страница должна находиться в основном индексе Гугла.
3. Страницы, находящиеся в дополнительном индексе, не передают и не получают PageRank.
Самая значительная экономия на собственный ресурс Гугла идет здесь. Но именно этот пункт окончательно обесценивает страницы из дополнительного индекса. Получается, что за счет данного контента невозможно даже улучшить показатели сайта. Потому что подобные страницы в зачет не идут. Получаются как бы виртуальные страницы. Вроде они есть, и даже проиндексированы. Но фактически для Google их как бы вообще не существует.
Таким образом, Гугл просто принимает эти страницы к сведению. Отметил их у себя, и пошел дальше. Да, есть такие страницы, но в поиске они не выдаются. PageRank по ним не считается. И повторная индексация может пройти только через много-много времени, если вообще когда-нибудь.
Каким образом страницы попадают в дополнительный индекс? Здесь встает вопрос о доверии Гугла к сайту.
Как же Гугл оценивает свою степень доверия к сайту? Тут могут иметь значение многие факторы. Говорят, у Гугла есть свой внутренний PageRank, отличный от того, что выдается в Гугл тулбаре. Возможно, у него есть и свой внутренний TrustRank – показатель доверия к сайту.
Если бы TR действительно существовал, из чего он мог бы складываться? Одним из показателей доверия наверняка является PageRank главной страницы сайта. Возраст домена также имеет значение. Время пребывания посетителей на сайте. И еще ряд факторов, о которых достаточно много было сказано в Интернете. Единственно, чего мы не знаем, это точного их соотношения.
В последнее время часто приходится читать, что вроде бы PageRank не влияет на выдачу в SERP’е, что там играют роль другие факторы, такие, как ссылочная репутация. Возможно, это и так. Но для того, чтобы попасть в SERP, страница должна сначала попасть в основной индекс. А вот для этого высокий PageRank (главной страницы сайта) очень даже желателен.
Итак, если у нас есть сайт, каким образом можно оценить его качество, с точки зрения представленности в индексах Google, на данный момент?
Можно воспользоваться уже упомянутыми сайтами по расчету соотношения страниц в основном и дополнительном индексах. Но абсолютизировать эти данные не стоит, и вот почему.
Дело в том, что, как я обнаружил, общее количество проиндексированных страниц, которое может быть получено, например, по запросу в Google ”site:[domain]”, является, в общем-то, величиной виртуальной. Бывали случаи, когда я выдавал запрос, и получал в итоге 476 страниц, и тут же, введя точно такой же запрос через пару минут, я получал 97 страниц.
Такое большое расхождение может быть объяснено тем, что Гугл, вероятно, не хранит свой дополнительный индекс в одном месте. Возможно, данные хранятся в распределенной базе, и Гугл не слишком заботится о точном числе, потому что это точное число его не сильно интересует.
Тогда что же интересует Google? Определенно, его интересует количество страниц сайта в основном индексе. Опять же из своей практики я могу заключить, что это число является в значительной степени постоянным, и практически почти не меняется.
Список страниц, находящихся в основном индексе Гугла, можно получить двумя путями.
Первый. Использовать недокументированный запрос Google:
“site:[domain] -inallurl:[domain]”
(не путать с allinurl !)
Второй. Использовать запрос:
“site:[domain]/*”
Кавычки не указываются. Везде вместо [domain] следует указать имя своего основного домена. Результаты будут почти одинаковы. «Почти», потому что, возможно, они считаются несколько по-разному. Но совпадение в любом случае налицо.
Интересно то, что если у домена есть поддомены, а в запросе указывается основной домен, то в результатах представлены страницы не только основного домена, но и всех его поддоменов.
Для нас это означает то, что Гугл оценивает домен целиком, и все поддомены также непосредственно влияют на качество сайта. Данное обстоятельство следует иметь в виду, и не допускать наличия мусорных поддоменов, если сам домен предназначен для качественного сайта СДЛ.
Наличие Google Supplemental также может объяснить хорошо известный «эффект песочницы». Напомним, о чем идет речь.
«Эффект песочницы» заключается в том, что новый сайт сначала появляется в индексе Google и SERP. Но через некоторое время он как бы выпадает из результатов выдачи, и, несмотря на рост массы контента, сайт в выдаче почти не представлен. Лишь через какое-то время, не менее полгода, сайт снова начинает котироваться у Гугла, или нет.
Концепция «песочницы» достаточно спорная, потому что никто не доказал ее наличия. Сам Гугл ее также отрицает. Поэтому реально можно говорить только об «эффекте песочницы». Но весьма вероятно, что никакой «песочницы» действительно не существует.
Вот каким образом мог бы реализовываться эффект песочницы. Разумеется, все это лишь одна из гипотез, которая нуждается в проверке. Но она работает.
Итак, если появляется новый сайт, то Гугл должен решить, в какой индекс отправить его страницу. Сайт новый, и доверия к нему пока нет никакого. Если бы выбор производился только лишь на этом основании, то новый сайт сразу же попадал бы в Supplemental, где и был бы похоронен навечно. Но такого происходить не должно.
Предположим, что для каждого нового сайта у Гугла существует некий «кредит доверия». У старого сайта это просто показатель доверия STR (Site Trust Rank). Далее, для каждой страницы сайта рассчитывается показатель доверия страницы PTR (Page Trust Rank). Первоначально это будет STR, деленный на общее количество страниц на сайте.
Когда сайт новый, то сначала индексируется его главная страница. В этом случае PTR=STR, чего оказывается достаточно для помещения страницы в основной индекс.
По мере того, как новые страницы прибавляются, PTR для каждой из последующих страниц уменьшается. И наступает момент, после которого он становится слишком маленьким. После чего все последующие страницы начинают автоматически попадать в Supplemental. Это и есть «эффект песочницы» в действии.
Далее может происходить вот что. Во-первых, растет возраст сайта, и вместе с ним растет STR. Во-вторых, внешние ссылки на страницы увеличивают их PTR. Таким образом, если сайт растет правильно, то есть с течением времени получает внешние ссылки, то растет показатель доверия, и страницы снова начинают попадать в основной индекс.
Если количество страниц растет «взрывным» образом, а ссылок на них нет, то показатели доверия PTR низкие, и страницы попадают в дополнительный индекс. Если количество ссылок растет слишком быстро, то срабатывают понижающие фильтры, и эффект снова оказывается нулевой.
Таким образом, никакая специальная «песочница» не нужна. Эффект «песочницы» достигается за счет двухуровневого индекса Google.
Разумеется, все это только гипотеза. Как, впрочем, и почти все в SEO.
Критерием правильности подхода может быть только практика. А моя практика свидетельствует о том, что после того, как я исследовал и применил эту методику, с некоторого момента практически все мои новые посты на данном блоге попадают в основной индекс Google. В чем любой желающий может легко убедиться лично.
Не пропустите следующий пост! Подпишитесь на RSS!
Стой! Сделай ретвит сейчас же!
Тэги: google • long tail • sandbox • supplemental • дополнительный индекс • основной индекс • песочница
Рубрика: SEO
Понравился этот пост? Подпишитесь на мой канал RSS и узнайте больше!

Очень понравилась статья! А продолжение будет? Хочется узнать о вашей новой методике продвижения сайта. Или это секрет?
Спасибо за полезную информацию, проверила свой сайт. Хотелось бы понять, как проверить, какие именно страницы стоят в основном индексе, а не только их количество. Это возможно?
@ Лариса
Конечно, будет и продолжение. Для этого и блог.
@ Светлана
Так ведь я привел формы запросов в статье. Вводите любой из них, и получите список страниц в основном индексе.
И что неужели никто и нигде не знает как работает система индексации гугла. Кучу же народу оттуда поуходило, поуволнялось. Зачем бросать догадки. Наверняка можно что-то найти конкретное. Надо только искать.
@ Михаил
Ну и много лично Вы узнали из того, что все якобы знают? Все SEO состоит из догадок. Только некоторые из них – фуфло, а некоторые приносят результат. Что касается конкретики, то у меня она налицо. Так как есть результат. А у Вас он есть?
Тут только два пути. Или продолжать лениво верить в то, что все знают. И сидеть в ж***. Или сомневаться и искать ответы. И получать результат. Выбор за Вами.
Блестящий анализ, имхо! Ваши выкладки полностью совпадают с моими личными наблюдениями и практикой запихивания сайта в индекс Google. Но это только вершина Google-айсберга. Подписался – жду продолжения, ибо ленив, а если мои SEO-домыслы подтвердятся очередной вашей статьей, то значит я на верном пути.
P.S. хотелось бы услышать ваше мнение по поводу влияния ссылочной supplemental-массы на продвигаемый сайт.
@ipslicer
Я полагаю, ссылки эти в гугловской игре не участвуют. Стало быть, пользы от них нет никакой. Наоборот, для нашего сайта от страниц, находящихся в supplemental’е, один лишь вред, так как они уменьшают ту долю trust rank’а, которая приходится на одну страницу. Но обо всем этом я лучше напишу как-нибудь в продолжении.
То есть тише едешь дальше будешь
Не все столь очевидно. Взять хотя бы trast runk, по вашей логике выходит, что сайт, на который не стоит вообще ни одной ссылки более трастовый, чем сайт, на который стоят только supplemental-ссылки. И TR подобного сайта должен исчесляться уже отрицательными значениями, если взять TR чистого сайта равным 0. Впрочем не буду торопить события. Хотя тут за Google не угнаться – вот еще одна тема для размышления, не сочтите за PR:
forum.searchengines.ru/showthread.php?t=362347
@ipslicer
Разумеется, не столь очевидно. Конечно, все надо тестировать.
Я не говорю, что сайт, на который есть supplemental ссылки, менее трастовый, чем тот, на который ссылок вообще нет. Просто ссылки с supplemental’а мало что для сайта дают. Если они не учитываются для PR, то как они увеличивают вес сайта?
Возможно, ссылки эти дают что-то для индексации сайта, то есть чтобы робот Гугла его нашел. Есть же данные, что даже пассивные ссылки приводят Googlebot на сайт. Но это польза весьма относительная.
Если Вы внимательно читали статью, то TR нового сайта должен быть > 0. И отрицательным он никогда не будет (если только Гугл его не оштрафует – за спам или еще что-нибудь). Тут правда есть вопрос, учитываются ли страницы, попавшие в дополнительный индекс, для расчета TR страницы сайта, или учитываются только страницы, находящиеся в основном индексе. Все это требует проверки.
На мой сайт есть множество ссылок с ресурсов, PR которых меньше нуля. Может ли это сказаться на выдаче в гугле?
@Сергей
PR меньше нуля – это как? Поясните, никогда не встречал такого.
Конечно, TR нового сайта больше 0 – это для наглядности. Суть не в этом. Если supplemental (далее для простоты СС) ничего не дают для сайта, то это хотя бы не вредит, а что если предположить, что масса СС влияет на сайт отрицательно? Вот это бы проверить, причем на живых СС. В качестве примера – при сбросе Sape-ссылок, большинство которых, а то и все 100%, СС, уже не первый раз наблюдаю как сайт оперативно идет наверх по основным продвигаемым запросам. Создается полное впечатление, что СС играет роль якоря.
@ipslicer
А Вы не думаете, что здесь причина в каком-то из гугловских фильтров? Насчет supplemental’а тут не очевидно. Хотя возможно, конечно, что траст сайта с большим саплементалом падает. Но вот при чистке пустых страниц растет ли, и как быстро – вот вопрос.
Проверить – это хорошая идея.
Большое спасибо за статью.
Она мне пояснило ситуацию с моим блогом. Он выпал из выдачи Гугля. И не кто не мог дать вразумительного ответа, по причинам. Все ссылались на мифические слова “песочница”, “фильтр”, “бан”. Насчет PR меньше 0, то я начинал свой блог с таким показателем по некоторым инструментам для анализа сайта, Показатель был -1. Потом прорисовалось картина 1:1:0.
Дальнейших успехов, и времени для полезных и познавательных статей.
Я так и не понял до конца, что надо делать, чтобы новые посты попадали сразу в основной индекс?
@ БП
Об этом мы еще будем говорить.
спасибо..буду вылезать из соплей
Спасибо за информацию!!! Это первая статья, которая дала мне точно понять что такое “сопли”, а то все рассказывают, как их измерить, а как уменьшить умалчивают! Я всё пыталась побольше написать контента, теперь буду писать реже, посмотрим что выйдет.
@ LadyElena
Умалчивают, потому что не знают. Гораздо проще с умным видом толочь воду в ступе, и повторять то, что слышали от других. Только проку от таких советчиков ноль. Потому что их информация не содержит знания. А знание идет только из практики. Собственной.
Попробовала ввести свой сайт так “site:[domain] -inallurl:[domain]” без кавычек ничего не находит, а просто имя домена находит и показывает индекс 317. Это что значит?Что то не пойму?
@ Nata
Все прекрасно получается:
site:himia.hochu-vse-znat.ru -inallurl:himia.hochu-vse-znat.ru
и полный список страниц в основном индексе
Я квадратные скобки оставила поэтому не получилось, Спасибо.
Статья, конечно, полезная, но есть нюансы. Где-то полгода назад Гугл сильно зарубил PR на всех моих сайтах, кое-где даже до нуля. Тем не менее, почти все новые страницы попадают в основной индекс, причем очень быстро – в пределах 10 часов после размещения. Я сделал вывод, что главное – уникальность контента, так как, каков бы ни был процент страниц в основном индексе (по разным сайтам он у меня составляет от 12 до 52%), если контент качественный, страница с гарантией попадает в основной индекс и, немного спустя, в выдачу.
@ Alex
Если бы все было так просто… Мне потому и пришлось заниматься этим вопросом, что несмотря на уникальный контент почти все мои посты на этом блоге год назад попадали прямо в дополнительный индекс.
Так что уникальность контента тут не критерий успеха. Притом что Гугл проблема неуникального контента вообще мало беспокоит (в отличие от Яндекса).
Да и качество он, похоже, оценивает только в Adwords’е. Но кто может сказать, что он в точности знает, чего хочет Google?