У більшості випадків, коли потрібно заблокувати доступ SeekportBot або інші crawl bots з веб-сайтом причини прості. Веб-павук робить занадто багато доступів за короткий проміжок часу та запитує ресурси веб-сервера, або він надходить із пошукової системи, у якій ви не хочете, щоб ваш веб-сайт був індексований.
зміст
Це дуже корисно для веб-сайтів, які відвідують скануючі боти. Ці веб-павуки призначені для дослідження, обробки та індексації вмісту веб-сторінок у пошукових системах. Google і Bing використовують таких скануючих ботів. Однак існують також пошукові системи, які використовують роботів для збору даних із веб-сторінок. Seekport є однією з цих пошукових систем, яка використовує сканер SeekportBot для індексації веб-сторінок. На жаль, іноді він використовує його надмірно та створює непотрібний трафік.
Що таке SeekportBot?
SeekportBot Це web crawler розроблений компанією Seekport, який знаходиться в Німеччині (але використовує IP-адреси з кількох країн, включаючи Фінляндію). Цей бот використовується для сканування та індексування веб-сайтів, щоб вони могли відображатися в результатах пошукової системи. Seekport. Непрацююча пошукова система, наскільки я можу судити. Принаймні, він не повернув мені жодних результатів для жодної ключової фрази.
SeekportBot ВИКОРИСТАННЯ user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Як заблокувати доступ до веб -сайту Seekportbot або інших повзів на веб -сайті
Якщо ви прийшли до висновку, що цей веб-павук чи інший, необов'язково сканувати весь ваш веб-сайт і робити непотрібний трафік на веб-сервер, у вас є кілька методів, за допомогою яких ви можете заблокувати їм доступ.
Брандмауер рівня веб-сервера
Це програми брандмауера open-source який можна встановити в операційних системах Linux і налаштувати для блокування трафіку на основі кількох критеріїв. IP-адреса, розташування, порти, протоколи або агент користувача.
APF (Advanced Policy Firewall) це таке програмне забезпечення, за допомогою якого можна блокувати небажаних ботів на рівні сервера.
Оскільки SeekportBot та інші веб-павуки використовують кілька блоків IP-адрес, найефективніше правило блокування базується на “user agent“. Отже, якщо ви хочете заблокувати доступ SeekportBot за допомогою APF, все, що вам потрібно зробити, це підключитися до веб-сервера через SSHі додайте правило фільтра у файл конфігурації.
1. Відкрийте файл конфігурації за допомогою nano (або інше видавництво).
sudo nano /etc/apf/conf.apf
2. Знайдіть рядок, який починається з “IG_TCP_CPORTS” і додайте агент користувача, який ви хочете заблокувати, у кінці цього рядка, а потім кому. Наприклад, якщо ви хочете заблокувати user agent “SeekportBot“, рядок має виглядати так:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Збережіть файл і перезапустіть службу APF.
sudo systemctl restart apf.service
доступу “SeekportBot” буде заблоковано.
фільтрація web crawls за допомогою Cloudflare – Заблокувати доступ до SeekportBot
За допомогою Cloudflare, як на мене, це найбезпечніший і найзручніший спосіб, за допомогою якого можна різними способами обмежити доступ деяких ботів до сайту. Спосіб я також використав у справі SeekportBot фільтрувати трафік до інтернет-магазину.
Припускаючи, що у вас уже додано веб-сайт до Cloudflare і служби DNS активовано (тобто трафік до веб-сайту йде через Cloudflare), виконайте наведені нижче дії.
1. Відкрийте свій обліковий запис Clouflare і перейдіть на веб-сайт, доступ до якого ви хочете обмежити.
2. Перейдіть до: Security → WAF і додайте нове правило. Create rule.
3. Виберіть назву для нового правила, Field: User Agent – Operator: Contains – Value: SeekportBot (або інша назва бота) – Choose action: Block – Deploy.

За кілька секунд нове правило WAF (Web Application Firewall) він починає діяти.

Теоретично можна встановити частоту, з якою веб-павук звертається до сайту robots.txt, але… це тільки в теорії.
User-agent: SeekportBot
Crawl-delay: 4
Багато веб-сканерів (окрім Bing і Google) не дотримуються цих правил.
Підсумовуючи, якщо ви визначите веб-сканер, який надмірно отримує доступ до вашого сайту, найкраще повністю заблокувати його доступ. Звичайно, якщо цей бот не з пошукової системи, в якій ви зацікавлені бути присутніми.