Väčšinu času, keď potrebujete blokovať prístup SeekportBot alebo ostatným crawl bots Na webovej stránke sú dôvody jednoduché. Webový pavúk poskytuje príliš veľa prístupu v krátkom časovom období a požaduje webové zdroje servera, alebo pochádza z vyhľadávacieho nástroja, v ktorom nechcete, aby bol váš web indexovaný.
spokojnosť
Je to veľmi prospešné pre webovú stránku, ktorú navštívili Crawl Bots. Tieto webové publikácie sú navrhnuté tak, aby preskúmali, spracovali a indexovali obsah webových stránok vo vyhľadávacích nástrojoch. Google a Bing používajú takéto prehľady. Existujú však aj vyhľadávacie nástroje, ktoré používajú roboty na zhromažďovanie údajov z webových stránok. Seekport Je to jeden z týchto vyhľadávacích nástrojov, ktorý používa prehľadávač SeekportBot na indexovanie webových stránok. Bohužiaľ, niekedy ho používa nadmerným spôsobom a má zbytočnú premávku.
Čo je SeekportBot?
SeekportBot Je to a web crawler vyvinuté spoločnosťou Seekport, so sídlom v Nemecku (ale používa IP z niekoľkých krajín vrátane Fínska). Tento robot sa používa na preskúmanie a indexovanie webových stránok, aby sa dali zobraziť vo výsledkoch vyhľadávania vo vyhľadávacom nástroji Seekport. Nefunkčný vyhľadávací nástroj, pokiaľ si uvedomím. Aspoň som nevrátil výsledky pre žiadnu kľúčovú frázu.
SeekportBot Využitie user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Ako zablokujete prístup k stránke SeekportBot alebo iných prechádzaní na webovú stránku
Ak ste dospeli k záveru, že tento web Spider alebo iný, nie je potrebné naskenovať celý váš web a robiť zbytočný prenos webovým serverom, máte niekoľko spôsobov, ako zablokovať ich prístup.
Firewall na webovej úrovni servera
Sú brána firewall open-source ktoré môžu byť nainštalované do operačných systémov Linux a môžu byť nakonfigurované tak, aby blokovali prenos na niekoľkých kritériách. IP adresa, umiestnenie, porty, protokoly alebo užívateľský agent.
APF (Advanced Policy Firewall) Je to taký softvér, prostredníctvom ktorého môžete blokovať nechcené hrbole na úrovni servera.
Pretože SeekportBot a ďalšie webové pavúky používajú niekoľko blokov IP, najefektívnejšie uzamykacie pravidlo je založené na “user agent“. ASAR, ak chcete blokovať prístup SeekportBot s pomocou APF, všetko, čo musíte urobiť, je pripojiť sa k webovému serveru SSHa pridajte pravidlo filtrovania do konfiguračného súboru.
1. Otvorte konfiguračný súbor pomocou nano (alebo iný editor).
sudo nano /etc/apf/conf.apf
2. Vyhľadajte riadok, ktorý začína “IG_TCP_CPORTS” A pridajte používateľa agenta, ktorého chcete zablokovať na konci tohto riadku, a potom čiarka. Napríklad, ak chcete blokovať user agent “SeekportBot“, riadok by mal vyzerať takto:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Uložte súbor a reštartujte službu APF.
sudo systemctl restart apf.service
prístup “Hľadisko” bude blokovaný.
Filtrácia web crawls s pomocou cloudflare – Zablokujte svoj prístup SeekportBot
S pomocou Cloudfre sa mi zdá najbezpečnejšia a najprahodnejšia metóda, pomocou ktorej môžete rôznymi spôsobmi obmedziť prístup k niektorým bitom na webovú stránku. Metóda, ktorú som použil v prípade SeekportBot filtrovať prenos do internetového obchodu.
Za predpokladu, že už máte webovú stránku pridanú do CloudFlore a služby DNS sú aktivované (tj prenos na webe sa vykonáva podľa Cloudu), postupujte podľa krokov nižšie:
1. Otvorte účet Clouflare a prejdite na webovú stránku, pre ktorú chcete obmedziť prístup.
2. Prejdite na: Security → WAF a pridajte nové pravidlo. Create rule.
3. Vyberiete názov pre nové pravidlo, Field: User Agent – Operator: Contains – Value: SeekportBot (alebo iné meno BOT) – Choose action: Block – Deploy.

Za pár sekúnd nové pravidlo WAF (Web Application Firewall) Začína mať svoj účinok.

Teoreticky je možné nastaviť frekvenciu, z ktorej je možné nastaviť web Spider Web na prístup na stránku robots.txt, hoci… Je to iba teoreticky.
User-agent: SeekportBot
Crawl-delay: 4
Mnoho webových prehľadávačov (okrem Bing a Google) sa nedodržiava tieto pravidlá.
Na záver, ak identifikujete webový web, ktorý nadmerne pristupuje na vaše stránky, je najlepšie blokovať jeho celkový prístup. Samozrejme, ak tento robot nie je z vyhľadávacieho nástroja, kde máte záujem byť prítomný.