Меню сайта
 Познавательно 
Главная » 2009 » Декабрь » 19 » Боты, пауки и сканеры: NPBot, TurnitinBot, Larbin
Боты, пауки и сканеры: NPBot, TurnitinBot, Larbin
13:22
В Интернете много разного робота – веб-сканеров пауков и ботов, которые создают мощную паразитную нагрузку на сервер. 
Грамотные веб-мастера запрещают полную индексацию своих сайтов такими вредными ботами. 

С чем это связано? 
Дело в том, что кроме пользователей Интернета страницы сайтов так же посещает и большое количество разных роботов, краулеров (crawlers) и пауков, принадлежащих как поисковым системам (search engines), так и всевозможным частным проектам, а то и просто злобным опытным пользователям Интернета. Эти "монстры" – боты, краулеры, спайдеры, которые собирают разного рода информацию о Сети и сайтах. Вот, например, TurnitinBot с IP-адресом 64.140.49.69 представляет собой краулер системы, производящей анализ всех сайтов всей сети для занесения в свою базу. Ушлые преподаватели университета Беркли придумали систему TurnitinBot, чтобы студентам жизнь медом не казалась. Информация, полученная ботом заносится в базу данных. Студент, написавший реферат или курсовую работу сначала предоставляет их для проверки системе, которая производит анализ работы, и если выясняется, что учащийся попросту скачал свой курсовик с какого-нибудь сайта, его работа считается плагиатом и не подлежит дальнейшему рассмотрению. То же самое делает и larbin_2.6.3 - это практически скрипт, который доступен для скачивания любым юзером Интернета, и который тащит информацию с сайтов, не занимаясь её индексацией (по типу грабилки контента)!!)) 

Вот как описан он на одном из известных буржуйских форумов для вебмастеров: arbin is a web crawler (also called (web) robot, spider, scooter...). It is intended to fetch a large number of web pages to fill the database of a search engine. With a network fast enough, Larbin should be able to fetch more than 100 millions pages on a standard PC. Larbin is (just) a web crawler, NOT an indexer. You have to write some code yourself in order to save pages or index them in a database. 
 При беглом переводе ясно что: Larbin – это веб-сканер (иначе робот, паук, скутер ...). Он предназначен для загрузки большого количества веб-страниц для заполнения базы данных поисковой системы. Очень быстрая работа в сети позволяет пауку Larbin иметь возможность отсканировать более 100 миллионов страниц, будучи запущенном на стандартном ПК. Larbin является (только) веб-сканером, а не индексатор. Чтобы создать полноценную базу данных Вы должны сами написать программный код, для того, чтобы сохранённые страницы индексировать и добавить их в базу данных. То есть, если вы хотите организовать свою базу данных сайтов Интернета - вы запускаете Larbin и получаете сохранённые веб-страницы на свой компьютер! 

Второй вариант - если вы натравливаете со своего ПК паука Larbin на чей-нибудь сайт - то, как правило, через небольшой промежуток времени сервер, на котором расположен сайт, просто упадёт, если, конечно, сайт (куда натравили Larbin) не состоит из 5-9 страниц. Ну, а если натравить Larbin на IP адрес, где расположены какие-либо сайты, то сервер всё равно сдохнет от нагрузки после начала путешествия Larbinом по скормленному ему серверу... И будет так до тех пор, пока администратор сервера не закроет доступ такому боту к своему серверу. 

 По NPBot информации в сети практически не осталось – даже в буржунете – пишут, что только, мол, плохой это бот.. а чем плох и т.д. – информации нет. Насколько я понял – этот бот уже издох несколько лет тому назад и в настоящее время не работает, поскольку принадлежал проекту nameprotect.com - который прекратил своё существование. Всё, что удалось найти в сети по боту NPBot – это: NPBot является веб-сканером компании NameProtect inc. Эта компания осуществляет сканирование веб-ресурсов на предмет поиска нарушений интеллектуальной собственности. Доподлинно известно, что эти три бота создают немалую, если не сказать – серьёзную нагрузку на сервер вашего хостинг провайдера, так же как и бот системы mail.ru – они просто накидываются на сайт и сжирают его целиком, до последнего символа копируя содержимое в свою базу. И команды типа: User-agent: * Crawl-delay: 3 (что означает минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей) такие боты либо не понимают, либо игнорируют. Вот почему этим ботам надо полностью запретить индексацию и доступ к страницам сайта в robots.txt – на всех Ваших проектах. 

 Такие боты к поисковикам типа : Яндекс (yandex) , Гугл (google) или Яху (yahoo) отношения не имеют никакого, являясь по сути пауками частных проектов. В то же время они копируют файлы вашего сайта, грубо говоря, в свои частные базы – то есть, мало того, что от них нет пользы – так и ещё дополнительная паразитная нагрузка создаётся на сервер хостинг-провайдера в случае посещения ими вашего сайта. И хотя эти боты каждый день не приходят на ваш сайт, считать их главными виновниками падения сервера или избыточной нагрузки как-то НЕ БУДЕТ совсем правильным или единственным источником нагрузки. Хотя когда они заходят на ваш сайт, то в 90% случаев ваш сервер падает и админ или саппорт хостера делают вам "кирдык” и последнее китайское предупреждение – что в следующий раз при подобном раскладе просто забанят ваш аккаунт без возможности восстановления. 

 Ну и помимо того, что сервер из-за атак таких ботов и сканеров может повиснуть, представьте себе – сколько траффика сожрут эти злостные пауки, пока не упадет сервер. А если сервер мощный, то может и выдержать атаку этих безумных пауков (spiders) и краулеров (crawlers), а если трафф и у вашего хостинг-провайлера не безлимитный – сами понимаете – кому такой паразитный трафф придётся оплачивать! 

Пример того, как запретить таким вредным ботам доступ к вашему сайту через robots.txt : 
User-Agent:* Disallow: /cgi-bin/ Disallow: /image/ Disallow: /stat.html Crawl-delay: 3 User-agent: NPBot Disallow: * User-agent: TurnitinBot Disallow: * User-Agent: larbin_2.6.3 Disallow: * 

 Данный пример robots.txt означает следующее: Всем ботам и паукам запрещено индексировать каталоги: cgi-bin; image; и файл stat.html (вместо этих файлов и каталогов можете указать свои или вообще удалить все, кроме одного любого значения Disaloow – поскольку наличие одной директивы Disaloow: - пусть даже пустой без значений – обязательное условие). Минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей составляет 3 секунды (можете задавать нужное вам значение. Если ваш сервер прилично нагружен – можно увеличить это значение до 10) Ботам NPBot, TurnitinBot, larbin_2.6.3 запрещена индексация страниц сайта полностью.

            Защита компьютера от коварного червя
 




Копирование для последующей публикации при условии наличия активной ссылки www.tiptopyes.com 
 Источник: www.wmtorg.info
Просмотров: 15157 | Добавил: jobyes | Рейтинг: 0.0/0 |
Всего комментариев: 0
Имя *:
Email *:
Код *:
Форма входа
Календарь
«  Декабрь 2009  »
Пн Вт Ср Чт Пт Сб Вс
 123456
78910111213
14151617181920
21222324252627
28293031
Поиск
Друзья сайта

Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0

Copyright MyCorp © 2025