Enamasti, kui peate juurdepääsu blokeerima SeekportBot või teised crawl bots veebisaidi puhul on põhjused lihtsad. Veebiämblik teeb lühikese aja jooksul liiga palju ligipääsu ja nõuab veebiserveri ressursse või pärineb see otsingumootorist, milles te ei soovi, et teie veebisaiti indekseeritaks.
sisu
See on väga kasulik veebisaidi jaoks, mida külastavad roomamisrobotid. Need veebiämblikud on loodud otsimootorites veebilehtede sisu uurimiseks, töötlemiseks ja indekseerimiseks. Google ja Bing kasutavad selliseid roomamisboteid. Siiski on ka otsingumootoreid, mis kasutavad veebilehtedelt andmete kogumiseks roboteid. Seekport on üks neist otsingumootoritest, mis kasutab veebilehtede indekseerimiseks SeekportBoti roomajat. Kahjuks kasutab see mõnikord seda liigselt ja tekitab tarbetut liiklust.
Mis on SeekportBot?
SeekportBot See on a web crawler ettevõtte poolt välja töötatud Seekport, mis asub Saksamaal (kuid kasutab mitme riigi, sealhulgas Soome IP-d). Seda robotit kasutatakse veebisaitide roomamiseks ja indekseerimiseks, et neid saaks otsingumootori tulemustes kuvada. Seekport. Mittetoimiv otsingumootor, nii palju kui ma aru saan. Vähemalt ei andnud see minu jaoks tulemusi ühegi võtmefraasi puhul.
SeekportBot KASUTADA user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Kuidas blokeerida selle veebisaidile juurdepääsu või muudele indekseerimise robotitele
Kui olete jõudnud järeldusele, et see veebiämblik või mõni muu, pole vaja kogu oma veebisaiti skannida ja veebiserverisse tarbetut liiklust tekitada, on teil mitu meetodit, mille abil saate nende juurdepääsu blokeerida.
Veebiserveri tasemel tulemüür
Need on tulemüürirakendused open-source mida saab installida Linuxi operatsioonisüsteemidesse ja mida saab konfigureerida liiklust blokeerima mitme kriteeriumi alusel. IP-aadress, asukoht, pordid, protokollid või kasutajaagent.
APF (Advanced Policy Firewall) on selline tarkvara, mille kaudu saate blokeerida soovimatud robotid serveri tasemel.
Kuna SeekportBot ja teised veebiämblikud kasutavad mitut IP-de plokki, põhineb kõige tõhusam blokeerimisreegel “user agent“. Seega, kui soovite juurdepääsu blokeerida SeekportBot abiga APF, tuleb vaid veebiserveriga ühenduse luua SSHja lisage konfiguratsioonifaili filtrireegel.
1. Avage konfiguratsioonifail rakendusega nano (või mõni muu kirjastaja).
sudo nano /etc/apf/conf.apf
2. Otsige üles rida, mis algab tähega “IG_TCP_CPORTS” ja lisage selle rea lõppu kasutajaagent, mille soovite blokeerida, millele järgneb koma. Näiteks kui soovite blokeerida user agent “SeekportBot“, peaks rida välja nägema selline:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Salvestage fail ja taaskäivitage APF-teenus.
sudo systemctl restart apf.service
juurdepääs “SeekportBot” blokeeritakse.
Filtreerimine web crawls Cloudflare'i abiga – Blokeeri juurdepääs SeekportBotile
Cloudflare’i abiga tundub see mulle kõige turvalisem ja mugavam meetod, mille abil saab mitmel viisil piirata mõne roboti ligipääsu veebilehele. Meetod, mida kasutasin ka juhul SeekportBot veebipoe liikluse filtreerimiseks.
Eeldades, et teil on veebisait juba Cloudflare'i lisatud ja DNS-teenused on aktiveeritud (st liiklus veebisaidile toimub Cloudflare'i kaudu), järgige alltoodud samme:
1. Avage oma Clouflare'i konto ja minge veebisaidile, mille juurdepääsu soovite piirata.
2. Minge aadressile: Security → WAF ja lisage uus reegel. Create rule.
3. Valige uuele reeglile nimi, Field: User Agent – Operator: Contains – Value: SeekportBot (või muu roboti nimi) – Choose action: Block – Deploy.

Vaid mõne sekundi pärast uus reegel WAF (Web Application Firewall) hakkab mõjuma.

Teoreetiliselt saab veebiämbliku saidile juurdepääsu sagedust määrata robots.txt, kuigi… see on ainult teoorias.
User-agent: SeekportBot
Crawl-delay: 4
Paljud veebiindeksoijad (peale Bingi ja Google'i) ei järgi neid reegleid.
Kokkuvõtteks võib öelda, et kui tuvastate veebiroomamise, mis pääseb teie saidile liiga palju juurde, on kõige parem blokeerida sellele täielik juurdepääs. Muidugi, kui see bot ei pärine otsingumootorist, milles olete huvitatud viibimisest.