大多数时候,当您需要阻止访问时 SeekportBot 或给他人 crawl bots 在网站上,原因很简单。网络蜘蛛在短时间内可以访问太多,并请求服务器网络资源,或者来自您不希望索引网站的搜索引擎。
内容
这对于爬网机器人访问的网站非常有益。这些网络衍射旨在探索,处理和索引搜索引擎中网页的内容。 Google和Bing使用此类爬网机器人。但是,还有一些搜索引擎使用机器人从网页收集数据。 Seekport 它是这些搜索引擎之一,它使用SeekportBot梁索引网页。不幸的是,它有时会以过多的方式使用它,并进行无用的流量。
Seekportbot是什么?
SeekportBot 是一个 web crawler 由公司开发 Seekport,它位于德国(但使用来自包括芬兰在内的几个国家 /地区的IP)。该机器人用于探索和索引网站,以便可以在搜索引擎上显示它们 Seekport。据我所知,一种非功能搜索引擎。至少,我没有为任何关键短语返回结果。
SeekportBot 使用 user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
您如何阻止Seekportbot或其他爬网机器人进入网站的访问
如果您得出这样的结论:该蜘蛛网或其他网络无需扫描整个网站并通过Web服务器进行无用的流量,那么您有几种阻止其访问权限的方法。
防火墙服务器网级
防火墙适用吗 open-source 可以安装在Linux操作系统上,可以配置以阻止几个条件的流量。 IP地址,位置,端口,协议或用户代理。
APF (Advanced Policy Firewall) 这是这样的软件,您可以通过它在服务器级别阻止不需要的凸起。
因为SeekPortBot和其他Web蜘蛛使用多个IP块,所以最有效的锁定规则是基于 “user agent“。 ASAR,如果您想阻止访问 SeekportBot 在帮助下 APF,您要做的就是通过 SSH,并将过滤规则添加到配置文件中。
1。用 nano (或其他编辑)。
sudo nano /etc/apf/conf.apf
2。寻找以开始的行 “IG_TCP_CPORTS” 并添加要在此行末尾阻止的用户代理,然后是逗号。例如,如果要阻止 user agent “SeekportBot“,线应该像这样:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3。保存文件并重新启动APF服务。
sudo systemctl restart apf.service
使用权 “Seekportbot” 将被阻止。
过滤 web crawls 在Cloudflare的帮助下 – 阻止您的SeekportBot访问
在CloudFre的帮助下,在我看来,您可以使用最安全,最方便的方法,您可以通过各种方式限制对网站的访问。我在 SeekportBot 过滤到在线商店的流量。
假设您已经将网站添加到CloudFlore中,并且DNS服务已激活(即该网站的流量是由Cloud完成的),请按照以下步骤进行操作:
1。打开Clouflare帐户,然后访问您要限制访问的网站。
2。转到: Security → WAF 并添加一个新规则。 Create rule。
3。您选择新规则的名称, Field: User Agent – Operator: Contains – Value: SeekportBot (或其他机器人名称) – Choose action: Block – Deploy。

在短短几秒钟内新规则 WAF (Web Application Firewall) 他开始发挥作用。

从理论上讲,可以从蜘蛛网访问站点的频率 robots.txt, 尽管… 这只是理论上。
User-agent: SeekportBot
Crawl-delay: 4
许多网络爬行者(除了Bing和Google之外)不遵守这些规则。
总之,如果您确定过度访问您网站的爬网网络,则最好阻止其总访问权限。当然,如果此机器人不是来自您有兴趣在场的搜索引擎。