Внутренние факторы ранжирования

Smart Sites
Август 03, 2017г.

В этой статье вы узнаете, на какие параметры веб-страницы можно влиять, чтобы повысить позицию страницы в результатах поиска, а также почему поисковые системы считают именно их важными для ранжирования результатов поиска.

Если пользователь ввел запрос, например "новости", поисковая система увидит в своем индексе, что слово "новости" было найдено на многих веб-страницах. При этом количество страниц может быть очень большим — тысячи и даже десятки тысяч. Возникает закономерный вопрос: в каком порядке поисковой системе нужно сортировать (ранжировать) ссылки на найденные страницы, чтобы наверху списка результатов оказались ссылки на страницы, наиболее соответствующие поисковому запросу?

Для решения этой задачи поисковые системы учитывают довольно много свойств текста страницы и всего сайта — факторов, которые можно условно разделить на две группы: внутренние и внешние.

К внутренним факторам мы относим те факторы, на которые владелец сайта может влиять самостоятельно. Это, например, тексты сайта, теги, изображения, ссылки на сайте и т.н. Внешние факторы — это, прежде всего, ссылки на сайт с других сайтов Сети. Их ставят владельцы других сайтов, и напрямую повлиять на них нельзя. О способах влияния на внешнюю ссылочную структуру сайта мы расскажем в отдельной главе.
Какие же внутренние факторы учитывают поисковые системы, ранжируя ссылки на найденные страницы?

Представление о "естественных веб-страницах"

Главный принцип поисковых систем таков: они стремятся найти и показать вверху списка результатов "естественные веб-страницы" , наиболее соответствующие запросу.
Как говорят разработчики поисковых машин, их интересуют веб-страницы, созданные людьми и для людей (а не для поисковых роботов).
Что же означает слово "естественные"? Разберем это на примере.

Пусть поисковая система по запросу новости нашла два следующих текстовых документа. В обоих текстах есть слово "новости".

Главные неофициальные новости 2005 года.
Весь год, параллельно с самыми важными событиями, происходит множество любопытных курьезов, которые упоминаются в новостях в последнюю очередь. Однако без них картина уходящего года была бы, наверное, не полной, и уж, во всяком случае, не такой красочной. Лента. Ру предлагает список самых странных новостей года, составленный на основе предпочтений наших читателей.
* * *

Главные новости неофициальные новости 2005 новости года
Весь новости год, параллельно новости с самыми важными событиями, происходит новости множество любопытных новости курьезов, которые упоминаются в новостях в последнюю новости очередь. Однако без новости них картина уходящего года была бы, наверное, не полной, и уж во всяком новости случае не такой красочной. Лента.Ру предлагает новости список самых странных новостей года, составленный на основе предпочтений новости наших читателей.

Например, Яндекс называет это естественными сетевыми документами. Даже беглый взгляд на эти тексты позволяет увидеть принципиальное отличие: первый текст написан хорошим, гладким языком, а вот второй... какой-то "неправильный". Читать его сложно, слово "новости" употребляется в нем не к месту и не в меру. Иными словами, первый текст — естественный, он написан человеком и для человека. Второй — неестественный, люди не смогут легко прочитать его и понять. Очевидно, он составлен кем-то специально для поискового робота.

А теперь вспомним, что нам (поисковой машине) необходимо решить, ссылку на какой из этих документов поставить выше в результатах поиска по запросу новости. В первом тексте слово "новости" встречается два раза, во втором — двенадцать.
Казалось бы, чем чаще в тексте встречается нужное слово, тем более соответствует текст запросу... Следуя такой простой логике, мы должны были бы в результатах поиска первой поставить ссылку на полную белиберду.

Увы, поисковая система не умеет понимать тексты, как это делает человек, и выбор из двух, или двух сотен, или двух миллионов текстов, в которых найдено слово из поискового запроса, осуществляется автоматически. Как же поисковая машина может автоматически отличить естественные тексты от неестественных?

На помощь приходят лингвистика и математика. Естественный текст имеет свои качественные и количественные характеристики, которые почти не меняются от текста к тексту. Это средняя длина предложений, средняя длина слов, частоты употребления слов, распределение знаков препинания и т.п. Многие из этих характеристик можно подсчитать автоматически и тем самым оценить степень естественности текста.

Наиболее устойчивы частоты встречаемости слов в тексте. Они лучше всего исследованы, и их труднее всего подделать. Наиболее известным лингвистическим фактом о частотах слов в "естественных" текстах является закон Ципфа: если расположить слова в порядке их частоты употребления в некотором достаточно большом текстовом массиве, то количество вхождений слова будет обратно пропорционально его номеру. Закон Ципфа применяют для анализа текстов в самых разных отраслях, в том числе даже для анализа зашифрованных сообщений в криптографии, когда нужно понять, имеем ли мы дело хоть и с зашифрованным, но все-таки естественным текстом.

Конечно, частота употребления конкретного слова сильно зависит от тематики рассматриваемых текстов. Но в одной тематике эти частоты довольно устойчивы и починяются закону Ципфа.

Зная этот закон и другие принципы поведения слов в тексте, поисковая машина может обнаружить неестественную плотность и расположение некоторых слов и на этом основании сделать заключение о неестественном характере текста.
Например, в приведенном примере неестественного текста частота слова "новости" почти в три раза выше, чем ожидаемое для естественных текстов.

Несомненно, что алгоритмы ранжирования реальных поисковых машин намного сложнее и учитывают множество факторов. Но все эти факторы, используемые в качестве значимых параметров для ранжирования, взяты именно из представлений о том, какими должны быть нормальные, естественные, сетевые документы, предназначенные для пользователей.

У читателя может возникнуть естественный вопрос, почему мы так старательно подчеркиваем слово "естественный". Разве в Интернете кроме обычных текстов веб-страниц бывают какие-то другие, "неестественные" документы? Откуда они могут появиться, кто и с какой целью их создает? Кому может понадобиться нечитаемый документ, где слово "новости" повторяется через каждые два слова?

К сожалению, неестественных документов, созданных для того, чтобы обмануть поисковики, в Интернете очень много. Вопрос, кто их создает и с какой целью, мы подробно разберем в главе о поисковом спаме.

А сейчас рассмотрим внутренние факторы, от которых зависит положение сайта в результатах поиска.

Внутренние факторы ранжирования

Напомним, что внутренние факторы ранжирования — это параметры, которые владелец сайта или его вебмастер имеет возможность легко изменить самостоятельно. Условно говоря, к внутренним факторам относится все, что находится "внутри" сайта, — тексты, теги, рисунки, внутренние ссылки.

Наиболее интересны вхождения ключевых слов (слов поискового запроса) в различные поля и области текста страницы, и вот почему.

Общая схема алгоритма ранжирования поисковой машины такова: по запросу поисковая машина находит все вхождения слов запроса в веб-страницу. Эти вхождения взвешиваются: для вхождений учитывается их компактность (расположение рядом), важность (вхождение в специальные поля — в титул, заголовки, близость к началу страницы), форма и порядок расположения и т.п. Всем вхождениям назначается вес, а затем веса отдельных вхождений на странице объединяются по некой общей формуле, чтобы получить общий вес (позицию) страницы в результатах поиска.

Ниже мы опишем основные факторы ранжирования вхождений слов, а также причины, почему именно они были приняты в качестве факторов для ранжирования.

Нужно понимать, что каждая поисковая система имеет собственный набор факторов ранжирования и алгоритмы их обработки, причем как сам набор факторов, так и алгоритмы ранжирования (вместе составляющие то, что называется формулой релевантности), постоянно пересматриваются и развиваются разработчиками поисковиков для улучшения результатов поиска.
Ниже кратко описаны факторы, которые учитываются абсолютно всеми поисковыми машинами.

"Цитата" — полный повтор запроса

Поисковая машина считает, что те документы, где слова запроса идут рядом и в том же порядке, как в запросе, более релевантны, чем те, где слова запроса рассыпаны по разным предложениям далеко друг от друга или имеют другую грамматическую форму.
Это довольно естественное предположение, которое оправдывает себя на практике.
Для владельца сайта эта особенность ранжирования в поисковиках означает, что наиболее выгодной стратегией является использование в тексте страницы точных формулировок ("цитат") тех поисковых запросов, по которым хочется привлечь посетителей.
При этом стоит также соблюдать и точную форму слов — то есть использовать слова в тех же падежах и числах, что и в запросе, который является вашей целью. Скажем, если вашему сайту нужны посетители, которые ввели запрос постоянный полный привод, то не следует писать "для данной модели производителем был специально разработан постоянно включенный полный привод" или "данная модель является лидером среди марок с постоянным полным приводом". Гораздо лучше использовать именно точный повтор запроса: "...был разработан постоянный полный привод", "лидер среди марок, имеющих постоянный полный привод".
Точное совпадение формы и порядка следования слов даст значительное приращение релевантности вашей страницы по данному запросу.

Веса ключевых слов запроса

Как отличить текст о сотовых телефонах от текста о швейных машинках? Очевидно, что в каждом из текстов, скорее всего, должны быть слова, определяющие тему, — "сотовый телефон" и "швейная машинка".
Но наличие слов запроса в документе — это еще не все. Чем подробнее рассказ о предмете, тем чаще возникает необходимость упомянуть этот предмет. Поэтому в тексте о телефонах слова "сотовый" и "телефон", скорее всего, встретятся не в одном предложении, а в нескольких. Таким образом, частота вхождения этих слов повысится по сравнению с текстами, описывающими другую тему.
На практике поисковая машина измеряет не просто количество вхождений слова запроса в тексте страницы, а отношение количества употреблений слова к общему количеству слов, имеющихся в документе. Этот показатель называется относительным весом слова в документе.
Поисковая система рассчитывает относительные веса всех слов, и страницу, на которой веса ключевых слов запроса выше, она может оценить как более релевантную запросу, чем страницу, где веса этих слов ниже.
Конечно, частота употребления ключевого слова должна держаться в естественных рамках. Скажем, документ, в котором ключевое слово — каждое второе, т.е. имеет вес 50%, будет заведомо признан неестественным.

Титул и ключевые слова в нем

Титулом (титульной фразой) веб-страницы называется текст заголовка веб-страницы, который пользователь может увидеть в верхней полоске окна своего браузера (обычно на синем фоне). Откуда он берется? Браузер в качестве титула выводит текст, находящийся в тексте страницы в теге TITLE. Например, титул может задан так:

TITLE: Компания "Родословная" - биографические изыскания
Что вы впишете в этот тег в HTML-коде своей веб-страницы, то браузер и выведет пользователю. Содержимое титульной фразы практически незаметно пользователю, просматривающему веб-страницу, так как пользователи редко смотрят на титульную строчку браузера. Но вот на странице результатов поиска титул чрезвычайно важен — он используется поисковой машиной для того, чтобы озаглавить сайт, найденный по запросу. Поэтому титул — наиболее заметная деталь оформления ссылки на сайт в результатах поиска, и именно титул пользователи читают в первую очередь, чтобы решить, по какой ссылке в результатах поиска перейти в поисках необходимой информации.
Поисковые системы стараются обеспечить наилучшую читаемость и релевантность своей выдачи. Поэтому важно, чтобы титульные фразы выдачи соответствовали поисковым запросам пользователей. И ссылка на ту страницу, где слова запроса имеются в титуле, при прочих равных условиях будет находиться выше в результатах поиска, чем ссылка на страницу, где титул пустой либо не соответствует запросу.
Теперь ясно, что практика назначения одинаковых титулов всем страницам сайта, да еще каких-нибудь помпезных наподобие "Компания «Родословная» — безусловный лидер рынка биографической информации Российской Федерации" — крайне невыгодна с точки зрения ранжирования страницы и привлечения посетителей.
Для каждой страницы сайта нужен свой специфический титул, содержащий ключевые слова ioro поискового запроса, которому должна соответствовать данная страница. При этом крайне желательно, чтобы титул был коротким и хорошо читался.

Близость ключевых слов к началу веб-страницы

Люди читают сверху вниз, поэтому, чтобы захватить внимание читателя, побудить его к прочтению текста, наиболее интересная или важная информация чаще всего размещаемся в самых первых абзацах.
Поисковые системы учитывают это свойство естественных текстов. Если слова запроса находятся в тексте страницы ближе к началу, данная страница будет ранжироваться лучше, чем та, у которой слова запроса были найдены ближе к концу документа.
Заметим, что у всех поисковых систем есть свой предел размера текста на веб-странице, который вообще учитывается при ранжировании. Можно сказать, что если вы выложите на сайт страницу с текстом объемом 500 Кбайт, то она не только будет очень медленно скачиваться, ее будет крайне трудно находить по словам, находящимся в конце текста.

Ключевые слова в тегах заголовков

Естественные тексты, как правило, имеют заголовки первого уровня. А если текст большой и логически сложный, то и подзаголовки для параграфов и разделов.
Тексты заголовков очень важны для чтения — при взгляде на них читатель должен понять, о чем идет речь в данном документе, и решить, стоит ли его читать и с какого места.
Это верно и для текстов на сайтах — в них обычно есть своя логическая струк тура. Для ее выделения часто используются заголовки. В языке HTML имеются специальные средства для визуального выделения заголовков — теги H1 H2... H6 для выделения заголовков уровня 1, 2, 3 и т.п.
Поскольку заголовок создается автором текста для привлечения внимания читателя, его смысловой вес в среднем выше, чем вес простого предложения в тексте. Поисковые системы учитывают это обстоятельство, поэтому при ранжировании результатов поиска слова, выделенные как заголовок, могут иметь большее значение, чем простой текст. И если слова из запроса входят в какой-нибудь заголовок на странице, то вес такого вхождения будет оценен поисковой машиной выше, чем вес вхождения слов запроса в простой текст.
Сказанное означает, что полезно разбивать текст на логические фрагменты, озаглавливать их нужными ключевыми словами и размечать заголовки специальными тегами, чтобы поисковая машина знала, что это заголовки.
Конечно, вхождение слова в заголовок уровня 1 ценится выше, чем заголовок уровня 6, поэтому злоупотреблять большим количеством уровней не следует — двух-трех уровней обычно вполне достаточно.
Заметим, что в естественных текстах есть и естественная плотность заголовков, и поисковые машины это учитывают. Разметить весь текст заголовком уровня 1 не только не поможет в ранжировании страницы, но и может сильно повредить, так как ее могут принять за поисковый спам, что будет недалеко от истины.
Ключевые слова в тегах выделения
В естественных текстах обычно отмечают места, на которых читатели должны акцентировать свое внимание, — для чего слова выделяют жирным шрифтом, курсивом, подчеркиванием. В языке HTML для этого служат теги выделения — strong,em,b и i.
Ясно, что автор текста выделяет не случайные слова, а наиболее значимые для данного текста. Поэтому страница, на которой ключевые слова запроса будут найдены в тегах выделения, может быть ранжирована поисковой системой выше по сравнению со страницей, где нет выделенных слов из запроса.
Опять-таки здесь нужно знать меру. Поисковая машина оперирует относительными величинами и старается находить и показывать естественные тексты, поэтому доля выделенного текста не должна быть слишком большой. Очевидно, что не бывает естественных текстов, полностью выделенных жирным шрифтом.

Ключевые слова в атрибуте комментария к графическому файлу

Текст с картинками воспринимается читателями гораздо лучше, чем сплошной текст. А если иллюстрации к тому же и подписаны — еще лучше.
Иллюстрации на веб-страницах размещают с помощью графических файлов с подписью. Для этого есть специальный тег img, например:
img src="адрес картинки (графического файла)" alt = "Новые поступления"
Атрибут alt этого тега как раз и предназначен для того, чтобы "подписать" иллюстрацию. Подпись к картинке "Новые поступления" будет видна во всплывающей подсказке при наведении курсора мыши на картинку. Подпись также будет видна в тексте страницы, когда пользователь из соображений экономии трафика просматривает текст с выключенной графикой (правда, в наше время это случай уже довольно редкий).
Таким образом, подпись к картинке (вставляемая в атрибут alt тега img) дает пользователю важную дополнительную информацию. Слова, входящие в подпись, важны для понимания смысла текста веб-страницы.
Поэтому поисковые системы учитывают слова, найденные в этом поле, и страница, на которой есть иллюстрации, подписанные ключевыми словами запроса, может быть оценена поисковой машиной выше, чем страница только с текстовой информацией.

Внутренние ссылки

Выше мы перечисляли свойства естественных документов и аргументы, почему эти свойства поисковые системы используют в качестве параметров для ранжирования результатов поиска. Но содержимое текстов и тегов — не единственный фактор, на основании которого делаются выводы о соответствии документов поисковым запросам. Большое значение имеет авторитет страницы (он же цитируемость), или, иными словами, учет количества и качества ссылок на веб-страницу.
Как уже отмечалось в главе, посвященной устройству поисковых машин, если на какую-то страницу найдено множество ссылок, можно говорить, что это важная страница, авторитетная. Аналогом служит, например, "вес" ученого в научном мире. Чем больше ссылаются на его работы, тем больше авторитет ученого.
Поисковые системы умеют находить и считать ссылки на веб-страницы, поэтому при прочих равных условиях в результатах поиска вверху окажутся ссылки на более авторитетные страницы, более цитируемые, на страницы, куда вероятнее всего будут заходить посетители.
Количество ссылок — не абсолютный показатель, важно еще и их качество. На научную работу может ссылаться и авторитетное академическое издание, и популярная брошюра, и развлекательный журнал. Но значимость у таких ссылок разная.
Сто ссылок со страниц, которые посещает один человек в день, с гораздо меньшей вероятностью приведут пользователя на ссылаемую страницу, чем одна ссылка со страницы, которую ежедневно посещает десять тысяч человек. Значимость таких ссылок тоже разная.
Эти два примера наглядно показывают, что поисковым системам для определения ранга страницы важно, какие именно страницы на нее ссылаются, насколько они, в свою очередь, авторитетны, посещаемы и насколько цитируемы.
Внутренние ссылки сайта также учитываются поисковыми машинами при ранжировании. Путем расстановки внутренних ссылок (ссылок на страницы того же сайта) можно улучшить ранжирование наиболее релевантных страниц сайта в результатах поиска. Как это делается, вы узнаете в следующей главе.

Ключевые слова в тексте ссылок (ссылочное ранжирование)

Для ранжирования имеет значение не только количество и качество страниц, которые ссылаются на продвигаемую страницу, важно также, как именно они ссылаются.
Как известно, ссылки на веб-страницах могут выглядеть как графические изображения или как текст.
Поисковые системы не умеют распознавать, о чем "говорит" изображение, которое содержит в себе ссылку, но значение текста под ссылкой определяется довольно легко.
О чем, например, говорит, вот такая ссылка:
а href="okna-montazh.html"
Пользователь в своем браузере в этом месте увидит фразу "Монтаж пластиковых окон" в виде подчеркнутой ссылки (т.е. приглашение перейти на страницу okna-montazh.html). Конечно же, он решит, что по этой ссылке размещена информация о монтаже окон.
То же самое может решить и поисковая система. Таким образом, для поисковой системы страница okna-montazh.html окажется релевантной запросам монтаж пластиковых окон, пластиковые окна и т.п., даже независимо от того, что написано на этой странице. Поэтому для поисковика имеет смысл отобразить ссылку на страницу okna-montazh.html в ответ на поисковый запрос монтаж пластиковых окон.
Учет поисковыми системами текстового содержимого ссылок при отборе сайтов для результатов поиска называется ссылочным ранжированием.
Суть ссылочного ранжирования заключается в том, что чем больше найдено в Интернете ссылок на страницу Р, чем авторитетнее страницы, на которых стоят ссылки на страницу Р, чем чаще в текстах этих ссылок находится слово W, тем вероятнее, что по запросу W поисковая система отобразит ссылку на страницу Р вверху результатов поиска.

Сочетание факторов ранжирования: "формула релевантности"

Вопрос о том, сколько и какие именно факторы учитывают поисковые системы при ранжировании результатов поиска, всегда остается открытым — некоторые специалисты по продвижению сайтов выделяют их до ста. Можно лишь проиллюстрировать общий принцип — все идеи, используемые для сортировки результатов поиска, основаны не на таинственных закономерностях, которые недоступны непосвященным, а на легко определяемых свойствах веб-страницы.
Чтобы представить себе, как работает "формула релевантности", вы можете поставить себя на место разработчиков поисковых машин и попытаться ответить на вопрос, что и как необходимо учесть, чтобы пользователи в ответ на свои запросы получали ссылки на наиболее соответствующие им естественные страницы и легко находили качественную информацию. С помощью такого мысленного эксперимента вы получите вполне удовлетворительное представление о работе алгоритмов ранжирования.
Полный же набор факторов ранжирования, а также их точные количественные соотношения — это настоящий секрет поисковых систем. Скажем, невозможно получить от Яндекса рекомендацию по оформлению своих веб-страниц, гарантирующую хорошее ранжирование в результатах поиска наподобие: "разместить пять раз слово W в точках 1, 2, 3, 4 на такой-то странице, составить такую-то титульную фразу, добавить такой-то комментарий к такому-то изображению, поставить такие-то ссылки, что гарантирует такую- то позицию по такому-то запросу".
Поисковики стараются не давать рекомендаций и не разглашать точные данные об используемых ими алгоритмах ранжирования, чтобы не вызывать немедленной ответной реакции вебмастеров, продвигающих свои сайты. Любое опубликованное свойство естественного текста, учитываемое поисковыми машинами, довольно быстро теряет свою силу из-за того, что его начинают искусственно применять все вебмастера, и оно перестает быть естественным.
Поэтому продвижение в поисковых системах не является и не может быть точной наукой, это набор методов, которые позволяют не рассчитывать, а лишь прогнозировать результат.
Но направление воздействия в каждом случае достаточно очевидно. В следующей главе мы рассмотрим, как проводить коррекцию внутренних факторов, чтобы улучшить позиции сайта в поисковых системах.

Выводы

Поиски волшебной "формулы релевантности", которая позволила бы точно рассчитать параметры страницы для вывода ее на заданную позицию в результатах поиска, — удел новичков. Редко кому из специалистов в начале своей карьеры удается избежать алхимической идеи попробовать найти философский камень — универсальное сочетание параметров ранжирования, гарантирующее результат продвижения сайта.
Специалисты с большим опытом придерживаются следующего правила: при любой правке веб-страниц сайта необходимо, чтобы ее результаты — тексты, навигация, изображения — были естественными и чтобы пользователи легко могли воспринимать предлагаемую на сайте информацию и ориентироваться в структуре сайта. Такой подход приводит к устойчивым позициям сайта в зоне видимости поисковых систем.

Smart Sites
Разработка и продвижение сайтов в поисковых системах
alarm_on 03.08.2017
remove_red_eye 1925
Другие статьи