Главная › Прошивка › Какую работу выполняют роботы пауки. Поисковые системы их роботы и пауки. Кто такие поисковые роботы

Какую работу выполняют роботы пауки. Поисковые системы их роботы и пауки. Кто такие поисковые роботы

Поисковый робот (бот, паук, spider, crawler) — это специальная программа поисковика, предназначенная для сканирования сайтов в сети Интернет.

Многие не знают, что сканирующие боты просто собирают и сохраняют информацию. Они не занимаются ее обработкой. Это делают другие программы.

Если у вас есть желание посмотреть на сайт глазами поискового робота, то можно это сделать через панель вебмастера.

Посмотреть как Google можно через панель вебмастера. Там нужно добавить свой сайт и потом можно будет посмотреть на странице:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Посмотреть как Яндекс можно через сохраненную копию страницы. Для этого находим нужную страницу в поиске Яндекса, жмем «сохраненная копия» и дальше «посмотреть текстовую версию».

Ниже приведу список поисковых роботов, которые ходят по нашим с вами сайтам. Одни из них индексируют сайты , другие следят за контекстной рекламой. Есть специализированные роботы, которые занимаются определенными узкими задачами. Например, индексируют картинки или новости.

Зная «в лицо» робота, можно запретить или разрешить ему ползать по сайту, тем самым можно снизить нагрузку на сервер. Ну или защитить свою информацию от попадания в сеть.

Поисковые роботы Яндекса

У поисковой системы Яндекс десятка полтора известных нам поисковых роботов. Список ботов, который мне удалось раскопать, в том числе и из официального хелпа, ниже.

YandexBot — основной индексирующий робот;
YandexMedia — робот, индексирующий мультимедийные данные;
YandexImages — индексатор Яндекс.Картинок;
YandexCatalog — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
YaDirectFetcher — робот Яндекс.Директа;
YandexBlogs — робот поиска по блогам, индексирующий посты и комментарии;
YandexNews — робот Яндекс.Новостей;
YandexWebmaster – приходит придобавлении сайта через форума AddURL;
YandexPagechecker — валидатор микроразметки;
YandexFavicons — индексатор фавиконок
YandexMetrika — робот Яндекс.Метрики;
YandexMarket — робот Яндекс.Маркета;
YandexCalendar — робот Яндекс.Календаря.

Поисковые роботы (боты) Google

Googlebot — основной индексирующий робот;
Googlebot Nes — индексатор новостей;
Googlebot Images — индексатор картинок;
Googlebot Video — робот для видео данных;
Google Mobile — индексатор мобильного контента;
Google Mobile AdSense — робот мобильного AdSense
Google AdSense — робот AdSense
Google AdsBot – бот проверки качества целевой страницы
Mediapartners-Google — робот AdSense

Роботы других поисковых систем

Так же, в логах своего сайта, вы можете наткнуться на некоторых роботов других поисковиков.

Рамблер — StackRambler
Мэйл.ру — Mail.Ru
Yahoo! — Slurp (или Yahoo! Slurp)
AOL — Slurp
MSN — MSNBot
Live — MSNBot
Ask — Teoma
Alexa — ia_archiver
Lycos — Lycos
Aport — Aport
Вебальта — WebAlta (WebAlta Crawler/2.0)

Кроме ботов поисковиков, по сайтам бегает огромная армия всяких левых пауков. Это различные парсеры, которые собирают информацию с сайтов, как правило, в корыстных целях их создателей.

Одни воруют контент, другие картинки, третьи взламывают сайты и расставляют втихаря ссылки. Если вы заметили, что подобный парсер присосался к вашему сайту — закройте ему доступ всеми возможными способами, в том числе и через файл robots.txt .

Привет, Друзья! Сегодня Вы узнаете как работают поисковые роботы Яндекс и Google и какую функцию они выполняют в продвижении сайтов. Итак поехали!

Это действие поисковые системы делают для того, чтобы из миллиона сайтов найти десять WEB-проектов, которые имеют качественный и релевантный ответ на запрос пользователя. Почему только десять? Потому что состоит только из десяти позиций.

Поисковые роботы друзья и веб-мастерам и пользователям

Почему важно посещения сайта поисковыми роботами уже стало ясно, а зачем это пользователю? Всё верно, для того, чтобы пользователю открывались только те сайты, которые ответят на его запрос в полном объёме.

Поисковый робот – очень гибкий инструмент, он способен найти сайт, даже тот, который только создан, а владелец этого сайта ещё не занимался . Поэтому этого бота и назвали пауком, он может дотянуть свои лапки и добраться по виртуальной паутине куда угодно.

Можно ли управлять поисковым роботом в своих интересах

Бывают такие случаи, когда некоторые страницы не попали в поиск. В основном это связано с тем, что эта страница ещё не проиндексирована поисковым роботом. Конечно, рано или поздно поисковый робот заметит эту страницу. Но это требует времени, а иногда и достаточно много времени. Но здесь можно помочь поисковому роботу посетить эту страницу быстрее.

Для этого можно разместить свой сайт в специальных каталогах или списках, социальных сетях. В общем, на всех площадках, где поисковый робот просто живёт. Например, в социальных сетях идёт обновление каждую секунду. Попробуйте заявить о своём сайте, и поисковый робот придёт на ваш сайт значительно быстрее.

Из этого вытекает одно, но главное правило. Если вы хотите чтобы боты поисковой системы посещали ваш сайт, им нужно давать новый контент на регулярной основе. В том случае, если они заметит, что контент обновляется, сайт развивается, то станут посещать ваш интернет-проект намного чаще.

Каждый поисковый робот умеет запоминать, как часто у вас меняется контент. Он оценивает не только качество, а временные промежутки. И если материал на сайте обновляется раз в месяц, то и приходить он на сайт будет один раз в месяц.

Таким образом, если сайт будет обновляться раз в неделю, то и поисковый робот будет приходить раз в неделю. Если обновлять сайт каждый день, то и поисковый робот будет посещать сайт каждый день или через день. Есть сайты, которые индексируются уже через несколько минут после обновления. Это социальные сети, новостные агрегаторы, и сайты которые размещают в день несколько статей.

Как дать задание роботу и запретить ему что-либо?

В самом начале мы узнали, что поисковые системы имеют несколько роботов, которые выполняют различные задачи. Кто-то ищет картинки, кто-то ссылки так далее.

Управлять любым роботом можно с помощью специального файла robots.txt . Именно с этого файла робот начинает знакомиться с сайтом. В этом файле можно указать, можно ли роботу индексировать сайт, если да, то какие именно разделы. Все эти инструкции можно создать как для одного, так и для всех роботов.

Обучение продвижению сайтов

Более подробно о премудростях SEO продвижения сайтов в поисковых системах Google и Яндекс, я рассказываю на своих по скайпу. Все свои WEB-проекты я вывел на посещаемость более и получаю с этого отличный . Могу этому научить и Вас, кому интересно!

Поисковым роботом называется специальная программа какой-либо поисковой системы, которая предназначена для занесения в базу (индексирования) найденных в Интернете сайтов и их страниц. Также используются названия: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип работы

Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).

Виды поисковых роботов

Пауки Яндекса :

Yandex/1.01.001 I — основной бот, занимающийся индексацией,
Yandex/1.01.001 (P) — индексирует картинки,
Yandex/1.01.001 (H) — находит зеркала сайтов,
Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Пауки Google:

Робот Googlebot — основной робот,
Googlebot News — сканирует и индексирует новости,
Google Mobile — индексирует сайты для мобильных устройств,
Googlebot Images — ищет и индексирует изображения,
Googlebot Video — индексирует видео,
Google AdsBot — проверяет качество целевой страницы,
Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.

Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.

Принцип работы

Виды поисковых роботов

Пауки Яндекса :

Yandex/1.01.001 I — основной бот, занимающийся индексацией,
Yandex/1.01.001 (P) — индексирует картинки,
Yandex/1.01.001 (H) — находит зеркала сайтов,
Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Пауки Google:

Робот Googlebot — основной робот,
Googlebot News — сканирует и индексирует новости,
Google Mobile — индексирует сайты для мобильных устройств,
Googlebot Images — ищет и индексирует изображения,
Googlebot Video — индексирует видео,
Google AdsBot — проверяет качество целевой страницы,
Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.

Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.

Вопреки расхожему мнению, робот непосредственно не занимается какой-либо обработкой сканируемых документов. Он их только считывает и сохраняет, дальше их обработку осуществляют другие программы. Наглядное подтверждение можно получить, анализируя логи сайта, который индексируется в первый раз. При первом визите бот сначала запрашивает файл robots.txt, затем главную страницу сайта. То есть идет по единственной известной ему ссылке. На этом первый визит бота всегда и заканчивается. Через некоторое время (обычно на следующий день) бот запрашивает следующие страницы - по ссылкам, которые найдены на уже считанной странице. Дальше процесс продолжается в том же порядке: запрос страниц, ссылки на которые уже найдены - пауза на обработку считанных документов - следующий сеанс с запросом найденных ссылок.

Разбор страниц «на лету» означал бы значительно бо льшую ресурсоемкость робота и потери времени. Каждый сервер сканирования запускает множество процессов-ботов параллельно. Они должны действовать максимально быстро, чтобы успеть считывать новые страницы и повторно перечитывать уже известные. Поэтому боты только считывают и сохраняют документы. Все, что они сохраняют, ставится в очередь на обработку (разборку кода). Найденные при обработке страниц ссылки ставятся в очередь заданий для ботов. Так и идет непрерывное сканирование всей сети. Единственное, что бот может и должен анализировать «на лету» - это файл robots.txt, чтобы не запрашивать адреса, которые в нем запрещены. При каждом сеансе сканирования сайта робот в первую очередь запрашивает этот файл, а уже после него - все стоящие в очереди на сканирование страницы.

Виды поисковых роботов

У каждой поисковой системы есть свой набор роботов для различных целей.
В основном они различаются по функциональному назначению, хотя границы очень условны, и каждый поисковик понимает их по-своему. Системам только для полнотекстового поиска вполне достаточно одного робота на все случаи жизни. У тех поисковиков, которые заняты не только текстом, боты разделяются как минимум на две категории: для текстов и рисунков. Существуют также отдельные боты, занятые специфическими видами контента - мобильным, блоговым, новостным, видео и т.д.

Роботы Google

Все роботы Google носят общее название Googlebot. Основной робот-индексатор «представляется» так:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Этот бот занят сканированием HTML -страниц и прочих документов для основного поиска Google. Он же изредка считывает файлы CSS и JS - в основном это можно заметить на ранней стадии индексирования сайта, пока бот обходит сайт впервые. Принимаемые типы контента - все (Accept: */*).

Второй из основных ботов занят сканированием изображений с сайта. Он «представляется» просто:

Googlebot-Image/1.0

Еще в логах замечены как минимум три бота, занятых сбором контента для мобильной версии поиска. Поле User-agent всех трех оканчивается строкой:

(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Перед этой строкой - модель мобильного телефона, с которой этот бот совместим. У замеченных ботов это модели телефонов Nokia, Samsung и iPhone. Принимаемые типы контента - все, но с указанием приоритетов:

Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Роботы Яндекса

Из поисковиков, активно действующих в Рунете, самая большая коллекция ботов у Яндекса. В разделе помощи для вебмастеров можно найти официальный список всего паучьего личного состава. Приводить его здесь полностью нет смысла, поскольку в этом списке периодически происходят изменения.
Тем не менее, о самых важных для нас роботах Яндекса нужно упомянуть отдельно.
Основной индексирующий робот на текущий момент зовется

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Ранее представлялся как

Yandex/1.01.001 (compatible; Win16; I)

Считывает HTML -страницы сайта и другие документы для индексирования. Список принимаемых медиатипов ранее был ограничен:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

С 31 июля 2009 года в этом списке было замечено существенное расширение (число типов почти удвоилось), а с 10 ноября 2009 года список укоротился до */* (все типы).
Этого робота живо интересует вполне определенный набор языков: русский, несколько менее украинский и белорусский, еще чуть меньше английский и совсем мало - все остальные языки.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Робот-сканер изображений несет в поле User-agent строку:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Занимается сканированием графики разных форматов для поиска в картинках.

В отличие от Google, у Яндекса есть отдельные боты для обслуживания некоторых специальных функций общего поиска.
Робот-«зеркальщик»

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Ничего особенно сложного не делает - периодически появляется и проверяет, совпадает ли главная страница сайта при обращении к домену с www. и без. Также проверяет параллельные домены-«зеркала» на совпадение. По-видимому, зеркалами и канонической формой доменов в Яндексе занимается отдельный программный комплекс, не связанный напрямую с индексированием. Иначе решительно нечем объяснить существование для этой цели отдельного бота.

Сборщик иконок favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Периодически появляется и запрашивает иконку favicon.ico, которая потом появляется в поисковой выдаче рядом со ссылкой на сайт. По каким причинам эту обязанность не совмещает сборщик картинок, неизвестно. По-видимому, также имеет место отдельный программный комплекс.

Проверочный бот для новых сайтов, работает при добавлении в форму AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Этот бот проверяет отклик сайта, посылая запрос HEAD к корневому URL . Таким образом проверяется существование главной страницы в домене и анализируются HTTP -заголовки этой страницы. Также бот запрашивает файл robots.txt в корне сайта. Таким образом после подачи ссылки в AddURL определяется, что сайт существует и ни в robots.txt, ни в HTTP -заголовках не запрещен доступ к главной странице.

Робот Рамблера

В настоящее время уже не работает , поскольку Рамблер сейчас использует поиск Яндекса
Робота-индексатора Рамблера легко опознать в логах по полю User-agent

StackRambler/2.0 (MSIE incompatible)

По сравнению с «коллегами» из других поисковых систем этот бот кажется совсем простым: не указывает список медиатипов (соответственно, получает запрошенный документ любого типа), поле Accept-Language в запросе отсутствует, в запросах бота не встречено также поле If-Modified-since.

Робот Mail.Ru

Об этом роботе пока известно немного. Разработку собственного поиска портал Mail.Ru ведет уже давно, но все никак не соберется этот поиск запустить. Поэтому достоверно известно только наименование бота в User-agent - Mail.Ru/2.0 (ранее - Mail.Ru/1.0). Наименование бота для директив файла robors.txt нигде не публиковалось, есть предположение, что бота так и следует звать Mail.Ru.

Прочие роботы

Поиск в интернете, конечно, не ограничивается двумя поисковыми системами. Поэтому существуют и другие роботы - например робот Bing - поисковой системы от Microsoft и другие роботы. Так, в частности, в Китае есть национальная поисковая система Baidu - но ее робот вряд ли долетит до середины реки дойдет до русского сайта .

Кроме того, в последнее время расплодилось много сервисов - в частности solomono - которые хоть и не являются поисковыми системами, но тоже сканирует сайты. Часто ценность передачи информации о сайте таким системам сомнительна, и поэтому их роботов можно запретить в