Большую часть времени, когда вам нужно блокировать доступ SeekportBot или другим crawl bots На веб -сайте причины просты. Веб -паук делает слишком много доступа за короткий промежуток времени и запрашивает веб -ресурсы сервера или поступает из поисковой системы, в которой вы не хотите, чтобы ваш веб -сайт был проиндексирован.
содержание
Это очень полезно для веб -сайта, который посетил боты Crawl. Эти веб -шпиды предназначены для изучения, обработки и индексации содержания веб -страниц в поисковых системах. Google и Bing используют такие боты для полза. Но есть также поисковые системы, которые используют роботы для сбора данных с веб -страниц. Seekport Это одна из этих поисковых систем, в которых используется Heepportbot Crawler для индексации веб -страниц. К сожалению, он иногда использует его чрезмерным образом и делает бесполезный трафик.
Что такое SeekPortBot?
SeekportBot Это web crawler разработан компанией Seekport, который базируется в Германии (но использует IP из нескольких стран, включая Финляндию). Этот бот используется для изучения и индексации веб -сайтов, чтобы его можно было отображать в результатах поиска в поисковой системе SeekportПолем Насколько я понимаю, нефункциональная поисковая система. По крайней мере, я не вернул результаты для какой -либо ключевой фразы.
SeekportBot ИСПОЛЬЗОВАТЬ user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Как заблокировать доступ SeekPortBot или других ботов для ползания на веб -сайте
Если вы пришли к выводу, что этот пауковый сеть или другой, нет необходимости сканировать весь ваш веб -сайт и делать бесполезный трафик на веб -сервере, у вас есть несколько способов блокировать их доступ.
Брандмауэр сервер веб -уровень
Применяется брандмауэр open-source который может быть установлен в операционных системах Linux и может быть настроен для блокировки трафика по нескольким критериям. IP -адрес, местоположение, порты, протоколы или пользовательский агент.
APF (Advanced Policy Firewall) Это такое программное обеспечение, через которое вы можете блокировать нежелательные удары на уровне сервера.
Поскольку SeekPortBot и другие веб -пауки используют несколько IP -блоков, наиболее эффективное правило блокировки основано на “user agent“Полем Асар, если вы хотите заблокировать доступ SeekportBot с помощью APF, все, что вам нужно сделать, это подключиться к веб -серверу SSHи добавьте правило фильтрации в файл конфигурации.
1. Откройте файл конфигурации с nano (или другой редактор).
sudo nano /etc/apf/conf.apf
2. Ищите линию, которая начинается с “IG_TCP_CPORTS” И добавьте пользовательский агент, который вы хотите заблокировать в конце этой линии, за которой следует запятая. Например, если вы хотите заблокировать user agent “SeekportBot“, линия должна выглядеть так:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Сохраните файл и перезапустите службу APF.
sudo systemctl restart apf.service
доступ “SEECTORTBOT” будет заблокирован.
Фильтрация web crawls С помощью CloudFlare – Заблокируйте свой доступ SeekPortBot
С помощью Cloudfre это кажется мне самым безопасным и удобным методом, с помощью которого вы можете ограничить доступ к некоторым битам на веб -сайте. Метод, который я использовал в случае SeekportBot Чтобы фильтровать трафик в интернет -магазин.
Предполагая, что у вас уже есть веб -сайт, добавленный в Cloudflore, а службы DNS активируются (т.е. трафик на сайт выполняется Cloud), выполняйте шаги ниже:
1. Откройте учетную запись Clouflare и перейдите на веб -сайт, для которого вы хотите ограничить доступ.
2. Перейти к: Security → WAF и добавить новое правило. Create ruleПолем
3. Вы выбираете имя для нового правила, Field: User Agent – Operator: Contains – Value: SeekportBot (или другое имя бота) – Choose action: Block – DeployПолем

Всего за несколько секунд новое правило WAF (Web Application Firewall) Он начинает делать свой эффект.

Теоретически частота, с помощью которой паутина для доступа к сайту может быть установлена из robots.txt, хотя… Это только в теории.
User-agent: SeekportBot
Crawl-delay: 4
Многие веб -сканеры (кроме Bing и Google) не следуют этим правилам.
В заключение, если вы идентифицируете паутину, которая чрезмерно доступна к вашему сайту, лучше всего блокировать его общий доступ. Конечно, если этот бот не из поисковой системы, где вы заинтересованы в присутствии.