В Интернете много разного робота – веб-сканеров пауков и ботов, которые создают мощную паразитную нагрузку на сервер. Грамотные веб-мастера запрещают полную индексацию своих сайтов такими вредными ботами. С чем это связано? Дело в том, что кроме пользователей Интернета страницы сайтов так же посещает и большое количество разных роботов, краулеров (crawlers) и пауков, принадлежащих как поисковым системам (search engines), так и всевозможным частным проектам, а то и просто злобным опытным пользователям Интернета.
Эти "монстры" – боты, краулеры, спайдеры, которые собирают разного рода информацию о Сети и сайтах.
Вот, например, TurnitinBot с IP-адресом 64.140.49.69 представляет собой краулер системы, производящей анализ всех сайтов всей сети для занесения в свою базу. Ушлые преподаватели университета Беркли придумали систему TurnitinBot, чтобы студентам жизнь медом не казалась.
Информация, полученная ботом заносится в базу данных. Студент, написавший реферат или курсовую работу сначала предоставляет их для проверки системе, которая производит анализ работы, и если выясняется, что учащийся попросту скачал свой курсовик с какого-нибудь сайта, его работа считается плагиатом и не подлежит дальнейшему рассмотрению.
То же самое делает и larbin_2.6.3 - это практически скрипт, который доступен для скачивания любым юзером Интернета, и который тащит информацию с сайтов, не занимаясь её индексацией (по типу грабилки контента)!!))
Вот как описан он на одном из известных буржуйских форумов для вебмастеров:
arbin is a web crawler (also called (web) robot, spider, scooter...).
It is intended to fetch a large number of web pages to fill the database of a search engine. With a network fast enough, Larbin should be able to fetch more than 100 millions pages on a standard PC.
Larbin is (just) a web crawler, NOT an indexer. You have to write some code yourself in order to save pages or index them in a database. При беглом переводе ясно что:
Larbin – это веб-сканер (иначе робот, паук, скутер ...).
Он предназначен для загрузки большого количества веб-страниц для заполнения базы данных поисковой системы. Очень быстрая работа в сети позволяет пауку Larbin иметь возможность отсканировать более 100 миллионов страниц, будучи запущенном на стандартном ПК.
Larbin является (только) веб-сканером, а не индексатор. Чтобы создать полноценную базу данных Вы должны сами написать программный код, для того, чтобы сохранённые страницы индексировать и добавить их в базу данных.
То есть, если вы хотите организовать свою базу данных сайтов Интернета - вы запускаете Larbin и получаете сохранённые веб-страницы на свой компьютер!
Второй вариант - если вы натравливаете со своего ПК паука Larbin на чей-нибудь сайт - то, как правило, через небольшой промежуток времени сервер, на котором расположен сайт, просто упадёт, если, конечно, сайт (куда натравили Larbin) не состоит из 5-9 страниц.
Ну, а если натравить Larbin на IP адрес, где расположены какие-либо сайты, то сервер всё равно сдохнет от нагрузки после начала путешествия Larbinом по скормленному ему серверу... И будет так до тех пор, пока администратор сервера не закроет доступ такому боту к своему серверу.
По NPBot информации в сети практически не осталось – даже в буржунете – пишут, что только, мол, плохой это бот.. а чем плох и т.д. – информации нет.
Насколько я понял – этот бот уже издох несколько лет тому назад и в настоящее время не работает, поскольку принадлежал проекту nameprotect.com - который прекратил своё существование.
Всё, что удалось найти в сети по боту NPBot – это:
NPBot является веб-сканером компании NameProtect inc. Эта компания осуществляет сканирование веб-ресурсов на предмет поиска нарушений интеллектуальной собственности.
Доподлинно известно, что эти три бота создают немалую, если не сказать – серьёзную нагрузку на сервер вашего хостинг провайдера, так же как и бот системы mail.ru – они просто накидываются на сайт и сжирают его целиком, до последнего символа копируя содержимое в свою базу. И команды типа:
User-agent: * Crawl-delay: 3 (что означает минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей)
такие боты либо не понимают, либо игнорируют.
Вот почему этим ботам надо полностью запретить индексацию и доступ к страницам сайта в robots.txt – на всех Ваших проектах.
Такие боты к поисковикам типа : Яндекс (yandex) , Гугл (google) или Яху (yahoo) отношения не имеют никакого, являясь по сути пауками частных проектов. В то же время они копируют файлы вашего сайта, грубо говоря, в свои частные базы – то есть, мало того, что от них нет пользы – так и ещё дополнительная паразитная нагрузка создаётся на сервер хостинг-провайдера в случае посещения ими вашего сайта.
И хотя эти боты каждый день не приходят на ваш сайт, считать их главными виновниками падения сервера или избыточной нагрузки как-то НЕ БУДЕТ совсем правильным или единственным источником нагрузки. Хотя когда они заходят на ваш сайт, то в 90% случаев ваш сервер падает и админ или саппорт хостера делают вам "кирдык” и последнее китайское предупреждение – что в следующий раз при подобном раскладе просто забанят ваш аккаунт без возможности восстановления.
Ну и помимо того, что сервер из-за атак таких ботов и сканеров может повиснуть, представьте себе – сколько траффика сожрут эти злостные пауки, пока не упадет сервер. А если сервер мощный, то может и выдержать атаку этих безумных пауков (spiders) и краулеров (crawlers), а если трафф и у вашего хостинг-провайлера не безлимитный – сами понимаете – кому такой паразитный трафф придётся оплачивать!
Пример того, как запретить таким вредным ботам доступ к вашему сайту через robots.txt :
User-Agent:*
Disallow: /cgi-bin/
Disallow: /image/
Disallow: /stat.html
Crawl-delay: 3
User-agent: NPBot
Disallow: *
User-agent: TurnitinBot
Disallow: *
User-Agent: larbin_2.6.3
Disallow: *
Данный пример robots.txt означает следующее:
Всем ботам и паукам запрещено индексировать каталоги: cgi-bin; image; и файл stat.html (вместо этих файлов и каталогов можете указать свои или вообще удалить все, кроме одного любого значения Disaloow – поскольку наличие одной директивы Disaloow: - пусть даже пустой без значений – обязательное условие).
Минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей составляет 3 секунды (можете задавать нужное вам значение. Если ваш сервер прилично нагружен – можно увеличить это значение до 10)
Ботам NPBot, TurnitinBot, larbin_2.6.3 запрещена индексация страниц сайта полностью.
|