Lielāko daļu laika, kad jums ir jābloķē piekļuve SeekportBot vai citiem crawl bots izmantojot vietni, iemesli ir vienkārši. Tīmekļa zirneklis veic pārāk daudz piekļuves īsā laika periodā un pieprasa tīmekļa servera resursus, vai arī tas nāk no meklētājprogrammas, kurā nevēlaties, lai jūsu vietne tiktu indeksēta.
apmierināts
Tas ir ļoti izdevīgi vietnei, kuru apmeklē rāpuļprogrammas. Šie tīmekļa zirnekļi ir paredzēti tīmekļa lapu satura izpētei, apstrādei un indeksēšanai meklētājprogrammās. Google un Bing izmanto šādus rāpuļprogrammas. Tomēr ir arī meklētājprogrammas, kas izmanto robotus, lai vāktu datus no tīmekļa lapām. Seekport ir viena no šīm meklētājprogrammām, kas tīmekļa lapu indeksēšanai izmanto rāpuļprogrammu SeekportBot. Diemžēl tas dažreiz to izmanto pārmērīgi un rada nevajadzīgu trafiku.
Kas ir SeekportBot?
SeekportBot Tas ir a web crawler izstrādājis uzņēmums Seekport, kas atrodas Vācijā (bet izmanto IP no vairākām valstīm, tostarp Somijas). Šis robots tiek izmantots vietņu pārmeklēšanai un indeksēšanai, lai tās varētu parādīt meklētājprogrammu rezultātos. Seekport. Nefunkcionāla meklētājprogramma, cik es varu pateikt. Vismaz man tas nesniedza rezultātus nevienai atslēgas frāzei.
SeekportBot IZMANTOT user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Kā jūs bloķējat piekļuvi SeekPortbot vai citiem pārmeklēšanas robotprogrammatūrām uz vietni
Ja esat nonācis pie secinājuma, ka šim tīmekļa zirneklim vai citam, nav nepieciešams skenēt visu jūsu vietni un radīt nevajadzīgu trafiku uz tīmekļa serveri, jums ir vairākas metodes, kā bloķēt viņu piekļuvi.
Web servera līmeņa ugunsmūris
Tās ir ugunsmūra lietojumprogrammas open-source ko var instalēt Linux operētājsistēmās un var konfigurēt, lai bloķētu trafiku, pamatojoties uz vairākiem kritērijiem. IP adrese, atrašanās vieta, porti, protokoli vai lietotāja aģents.
APF (Advanced Policy Firewall) ir tāda programmatūra, ar kuras palīdzību jūs varat bloķēt nevēlamus robotus servera līmenī.
Tā kā SeekportBot un citi tīmekļa zirnekļi izmanto vairākus IP blokus, visefektīvākais bloķēšanas noteikums ir balstīts uz “user agent“. Tātad, ja vēlaties bloķēt piekļuvi SeekportBot Ar palīdzību APF, viss, kas jums jādara, ir izveidot savienojumu ar tīmekļa serveri, izmantojot SSHun pievienojiet filtra kārtulu konfigurācijas failā.
1. Atveriet konfigurācijas failu ar nano (vai cita izdevēja).
sudo nano /etc/apf/conf.apf
2. Atrodiet rindiņu, kas sākas ar “IG_TCP_CPORTS” un šīs rindas beigās pievienojiet lietotāja aģentu, kuru vēlaties bloķēt, kam seko komats. Piemēram, ja vēlaties bloķēt user agent “SeekportBot“, līnijai vajadzētu izskatīties šādi:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Saglabājiet failu un restartējiet APF pakalpojumu.
sudo systemctl restart apf.service
piekļuvi “SeekportBot” tiks bloķēts.
Filtrēšana web crawls ar Cloudflare palīdzību – Bloķējiet piekļuvi SeekportBot
Ar Cloudflare palīdzību man tā šķiet drošākā un ērtākā metode, ar kuras palīdzību var dažādos veidos ierobežot dažu botu piekļuvi vietnei. Metode, kuru arī izmantoju lietā SeekportBot lai filtrētu datplūsmu uz tiešsaistes veikalu.
Pieņemot, ka vietne jau ir pievienota pakalpojumam Cloudflare un DNS pakalpojumi ir aktivizēti (tas ir, datplūsma uz vietni notiek caur Cloudflare), veiciet tālāk norādītās darbības.
1. Atveriet savu Clouflare kontu un dodieties uz vietni, kurai vēlaties ierobežot piekļuvi.
2. Dodieties uz: Security → WAF un pievienojiet jaunu noteikumu. Create ruleApvidū
3. Izvēlieties jaunās kārtulas nosaukumu, Field: User Agent – Operator: Contains – Value: SeekportBot (vai cits robota nosaukums) – Choose action: Block – DeployApvidū

Pēc dažām sekundēm jaunais noteikums WAF (Web Application Firewall) tas sāk stāties spēkā.

Teorētiski var iestatīt biežumu, ar kādu tīmekļa zirneklis piekļūst vietnei robots.txt, bet… tas ir tikai teorētiski.
User-agent: SeekportBot
Crawl-delay: 4
Daudzas tīmekļa rāpuļprogrammas (izņemot Bing un Google) neievēro šos noteikumus.
Visbeidzot, ja konstatējat tīmekļa rāpuļprogrammu, kas pārmērīgi piekļūst jūsu vietnei, vislabāk ir bloķēt tās kopējo piekļuvi. Protams, ja šis robots nav no meklētājprogrammas, kurā jūs interesē būt klāt.