您如何阻止您的Seekportbot或其他爬网机器人到网站

大多数时候，当您需要阻止访问时 SeekportBot 或给他人 crawl bots 在网站上，原因很简单。网络蜘蛛在短时间内可以访问太多，并请求服务器网络资源，或者来自您不希望索引网站的搜索引擎。

内容

这对于爬网机器人访问的网站非常有益。这些网络衍射旨在探索，处理和索引搜索引擎中网页的内容。 Google和Bing使用此类爬网机器人。但是，还有一些搜索引擎使用机器人从网页收集数据。 Seekport 它是这些搜索引擎之一，它使用SeekportBot梁索引网页。不幸的是，它有时会以过多的方式使用它，并进行无用的流量。

Seekportbot是什么？

SeekportBot 是一个 web crawler 由公司开发 Seekport，它位于德国（但使用来自包括芬兰在内的几个国家 /地区的IP）。该机器人用于探索和索引网站，以便可以在搜索引擎上显示它们 Seekport。据我所知，一种非功能搜索引擎。至少，我没有为任何关键短语返回结果。

SeekportBot 使用 user agent：

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

您如何阻止Seekportbot或其他爬网机器人进入网站的访问

如果您得出这样的结论：该蜘蛛网或其他网络无需扫描整个网站并通过Web服务器进行无用的流量，那么您有几种阻止其访问权限的方法。

防火墙服务器网级

防火墙适用吗 open-source 可以安装在Linux操作系统上，可以配置以阻止几个条件的流量。 IP地址，位置，端口，协议或用户代理。

APF (Advanced Policy Firewall) 这是这样的软件，您可以通过它在服务器级别阻止不需要的凸起。

因为SeekPortBot和其他Web蜘蛛使用多个IP块，所以最有效的锁定规则是基于 “user agent“。 ASAR，如果您想阻止访问 SeekportBot 在帮助下 APF，您要做的就是通过 SSH，并将过滤规则添加到配置文件中。

1。用 nano （或其他编辑）。

sudo nano /etc/apf/conf.apf

2。寻找以开始的行 “IG_TCP_CPORTS” 并添加要在此行末尾阻止的用户代理，然后是逗号。例如，如果要阻止 user agent “SeekportBot“，线应该像这样：

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3。保存文件并重新启动APF服务。

sudo systemctl restart apf.service

使用权 “Seekportbot” 将被阻止。

过滤 web crawls 在Cloudflare的帮助下 – 阻止您的SeekportBot访问

在CloudFre的帮助下，在我看来，您可以使用最安全，最方便的方法，您可以通过各种方式限制对网站的访问。我在 SeekportBot 过滤到在线商店的流量。

访问网站时，我会看到Googlebot和其他网络爬网机吗？

假设您已经将网站添加到CloudFlore中，并且DNS服务已激活（即该网站的流量是由Cloud完成的），请按照以下步骤进行操作：

1。打开Clouflare帐户，然后访问您要限制访问的网站。

2。转到： Security → WAF 并添加一个新规则。 Create rule。

3. Alegi un nume pentru noua regula, Field: User Agent – Operator: Contains – Value: SeekportBot （或其他机器人名称） – Choose action: Block – Deploy。

您如何阻止您的SeekportBot访问 — 您可以阻止Cloudflare的Seekportbot访问

在短短几秒钟内新规则 WAF (Web Application Firewall) 他开始发挥作用。

从理论上讲，可以从蜘蛛网访问站点的频率 robots.txt，尽管… 这只是理论上。

User-agent: SeekportBot
Crawl-delay: 4

许多网络爬行者（除了Bing和Google之外）不遵守这些规则。

总之，如果您确定过度访问您网站的爬网网络，则最好阻止其总访问权限。当然，如果此机器人不是来自您有兴趣在场的搜索引擎。