Как блокирате достъпа на SeekPortBot или други ботове за пълзене на уебсайт
Как блокирате достъпа на SeekPortBot или други ботове за пълзене на уебсайт
През повечето време, когато трябва да блокирате достъпа SeekportBot или други crawl bots с уебсайт причините са прости. Мрежовият паяк прави твърде много достъпи за кратък период от време и изисква ресурсите на уеб сървъра или идва от търсачка, в която не искате уебсайтът ви да бъде индексиран.
Съдържание
Много е полезно за уебсайт, посещаван от ботове за обхождане. Тези уеб паяци са предназначени да изследват, обработват и индексират съдържанието на уеб страници в търсачките. Google и Bing използват такива ботове за обхождане. Има обаче и търсачки, които използват роботи за събиране на данни от уеб страници. Seekport е една от тези търсачки, която използва робота SeekportBot за индексиране на уеб страници. За съжаление, понякога го използва прекомерно и създава ненужен трафик.
Какво е SeekportBot?
SeekportBot Това е web crawler разработен от компанията Seekport, който е базиран в Германия (но използва IP от няколко държави, включително Финландия). Този бот се използва за обхождане и индексиране на уебсайтове, така че да могат да се показват в резултатите от търсачките. Seekport. Неработеща търсачка, доколкото мога да преценя. Поне не ми върна резултати за нито една ключова фраза.
SeekportBot Употреба user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Как блокирате достъпа на SeekPortBot или други ботове за пълзене на уебсайт
Ако сте стигнали до извода, че този уеб паяк или друг, не е необходимо да сканирате целия си уебсайт и да правите ненужен трафик към уеб сървъра, имате няколко метода, чрез които можете да блокирате достъпа им.
Защитна стена на ниво уеб сървър
Те са приложения за защитна стена open-source които могат да бъдат инсталирани на операционни системи Linux и могат да бъдат конфигурирани да блокират трафик въз основа на няколко критерия. IP адрес, местоположение, портове, протоколи или потребителски агент.
APF (Advanced Policy Firewall) е такъв софтуер, чрез който можете да блокирате нежелани ботове, на ниво сървър.
Тъй като SeekportBot и други уеб паяци използват множество блокове от IP адреси, най-ефективното правило за блокиране се основава на “user agent“. Така че, ако искате да блокирате достъпа SeekportBot с помощта APF, всичко, което трябва да направите, е да се свържете с уеб сървъра чрез SSHи добавете правилото за филтър в конфигурационния файл.
1. Отворете конфигурационния файл с nano (или друго издателство).
sudo nano /etc/apf/conf.apf
2. Потърсете реда, който започва с “IG_TCP_CPORTS” и добавете потребителския агент, който искате да блокирате, в края на този ред, последван от запетая. Например, ако искате да блокирате user agent “SeekportBot“, редът трябва да изглежда така:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Запазете файла и рестартирайте услугата APF.
sudo systemctl restart apf.service
достъп “SeekportBot” ще бъде блокиран.
Филтриране web crawls с помощта на Cloudflare – Блокирайте достъпа до SeekportBot
С помощта на Cloudflare ми се струва най-безопасният и удобен метод, чрез който можете да ограничите достъпа на някои ботове до уебсайт по различни начини. Методът, който използвах и в случая SeekportBot за филтриране на трафика към онлайн магазин.
Ако приемем, че вече сте добавили уебсайта към Cloudflare и DNS услугите са активирани (т.е. трафикът към уебсайта минава през Cloudflare), следвайте стъпките по-долу:
1. Отворете акаунта си в Clouflare и отидете на уебсайта, за който искате да ограничите достъпа.
2. Отидете на: Security → WAF и добавете ново правило. Create rule.
3. Изберете име за новото правило, Field: User Agent – Operator: Contains – Value: SeekportBot (или друго име на бот) – Choose action: Block – Deploy.

Само след няколко секунди новото правило WAF (Web Application Firewall) започва да действа.

На теория може да се зададе честотата, с която уеб паяк осъществява достъп до сайт robots.txt, все пак… това е само на теория.
User-agent: SeekportBot
Crawl-delay: 4
Много уеб роботи (с изключение на Bing и Google) не спазват тези правила.
В заключение, ако идентифицирате уеб обхождане, което има прекомерен достъп до вашия сайт, най-добре е да блокирате пълния му достъп. Разбира се, ако този бот не е от търсачка, в която желаете да присъствате.
Как блокирате достъпа на SeekPortBot или други ботове за пълзене на уебсайт
Какво ново
Около Stealth
Страстен по технологиите, с удоволствие пиша за StealthSettings.com от 2006 година. Имам богат опит със системи за операционни: macOS, Windows и Linux, както и с езици за програмиране и платформи за блогове (WordPress) и за онлайн магазини (WooCommerce, Magento, PrestaShop).
Вижте всички публикации от StealthМоже също да се интересувате от...