Паук (Spider)

Паук (Spider) – программа (поисковый робот), используемая поисковыми системами для “чтения” и индексирования web-страниц.

Поисковый робот — это важнейший элемент поисковой системы, в задачи которого входит сбор новых данных о сайтах и их обновления. Поисковый робот представляет собой программу, которая действует примерно так же, как браузерная программа — считывает информацию с веб-страниц.
Поисковый робот, робот, краулер, поисковый паук, web crawler, ant, automatic indexer, bot, web spider, web robots, web scutter — это все названия одного и того же явления, которые могут встречаться в англоязычном и русскоязычном интернете.

Поисковая система может иметь не один, а несколько ботов. Каждый бот представляет собой автоматический скрипт, имеет свой алгоритм работы, свое конкретное задание для определенного сайта.

Бот как корабль-исследователь

Чтобы представить себе механизм работы робота, воспользуемся художественным образом. Представьте океан, в котором существуют архипелаги островов. Часть этих островов открыта, изучена, нанесена на карту. Часть еще не открыта. Часть только появилась, например, в результате вулканической деятельности. Корабль-исследователь (или несколько кораблей) заходят на острова, а затем информация заносится на карту. Вот на карте появился новый остров. Вот старый остров, на на нем построен город. А этот остров исчез, ушел под воду.

Так же как корабль-исследователь, бот методично исследует интернет в поисках новых сайтов, новых страниц, новых файлов, считывает, заносит их в реестр поисковой машины, то есть индексирует. Для чего это нужно поисковой системе? Для того, чтобы она могла выдать на запрос точный ответ, что соответствует картине данных на самый последний момент. Для чего это нужно сайту? Для того, чтобы попасть в выдачу, то есть для того, чтобы на поисковый запрос, связанный с ним, система в своем ответе отметила бы именно этот сайт. Для чего это нужно пользователю? Для получения правильной адекватного ответа на свой вопрос.

Паучья деятельность

Итак, в море интернета появился новый остров — новый сайт. Как долго он будет оставаться в безвестности, даже если содержит необходимую информацию? Как много времени нужно веб-пауку, чтобы добраться до него и занести в свой список? Как часто краулер будет замечать изменения, происходящие на сайте? Или вся информация доступна пауку? Что делать, чтобы в поиск не попадали определенные страницы и файлы?

Паучья деятельность так устроена, что рано или поздно сайт будет замечен и проиндексирован. Однако, это может занять несколько месяцев. Чтобы поисковый робот быстрее заметил его, нужно внести сайт в специальные списки-каталоги, существующие при поисковых системах. Речь в первую очередь идет о таких поисковых гигантах, как Google и Яндекс. Раз проиндексировав сайт, бот будет регулярно туда заходить. Однако частота его посещений непосредственно связана с частотой обновления сайтов. Заметив, что сайт обновляется примерно раз в неделю, бот заходит туда примерно столько же, соответственно, новая веб-страница сайта может оставаться незамеченной несколько дней. И наоборот: существуют подвижные блоги, которые добавляют записи по несколько раз в день. Соответственно, робот контролирует их очень часто и новые страницы индексируются уже через несколько минут. Деятельность работа определяется заданным поисковым алгоритмом, система алгоритмов гибкая и меняется.

Задачи и ограничения

Как уже было сказано, система обладает большим количеством различных роботов, которые выполняют различные задачи: одни ищут новые страницы, другие отвечают за нахождение «мертвых» сайтов и чистку поисковых данных, третьи индексируют картинки, четвертые — находят видео. Есть робот, который отвечает за проверку корректности ссылок и робот, который читает исключительно комментарии.

Для робота одно из важнейших значений имеет файл robots.txt, расположенный на подконтрольном сервере. Зайдя на любой сайт, робот обращается в первую очередь к нему. Этот файл — инструкция для робота. Во-первых, robots.txt может вообще не допустить бота на сайт и сайт останется не проиндексированным. Во-вторых, robots.txt может закрыть боту доступ к определенным страницам и файлам.

Возврат к списку