E a guerra contra bots continua
Continuação do meu artigo anterior: “Por que eu bloqueei bots no meu site” e o resultado de alguns meses de labuta bloqueando bots e ataques DDOS no meu site.
Piloto
Quem já leu o meu outro artigo sabe que eu fiz um bloqueio geral de todos os bots no meu site devido a roubos de conteúdo para treinos de modelos de linguagem.
O propósito desta postagem é mostrar o resultado deste bloqueio assim como alguns logs de acesso que captei nos últimos meses que podem ser interessantes para alguns webmasters de plantão. Além dos resultados quero discorrer sobre algumas ações tomadas e a motivação por trás de cada uma delas, assim como implicações éticas de manter um blog hospedado.
## O que
Meu site estava sendo atacado por bots desconhecidos de várias partes do mundo, por estar hospedado na Cloudflare grande parte dos ataques foram mitigados automaticamente. Por alguma razão desconhecida estavam tentando derrubar o meu site, mas alguns bots não eram simplesmente bots de ataque, alguns eram crawlers que usavam do meu conteúdo para alimentar inteligências artificiais.
## Quem
A maior parte dos bots vinha dos Estados Unidos, uma pequena parcela vinha da Singapura e a China enquanto o resto vinha de partes aleatórias do mundo, sendo metade dos bots benignos e a outra metade malignos.
### Bots benignos
Eu considero como benigno todo e aquele bot que coloca uma identificação em seu user-agent onde eu posso entrar em contato com o seu dono e pedir para me tirar da sua lista de scans,. Um deles foi um bot da Palo Alto Networks que possuía um endereço de e-mail para contato e eles foram super cordiais comigo.
Expanse, a Palo Alto Networks company,
searches across the global IPv4 space
multiple times per day to identify customers;
presences on the Internet.
If you would like to be excluded from our scans,
please send IP addresses/domains to: s******o@p**************s.com
Boa parte do tráfego que vinha dos bots benignos foi diminuída, entrei em contato com a maioria deles e todos me deram resposta.
We've added cezarcampos.com.br and zepintor.com.br to our excludelist.
It can take up to a week for the system to update excluded ranges and
domains, but once they propagate you will stop seeing connections from
our scanners. If you do still see activity after a week from our
ranges, please reach out
again with the time you observed scanning activity, and we'll
troubleshoot.
No entanto, nem todos os bots são assim.
### Bots malignos
A maioria dos bots malignos escaneavam diretórios nos meus sites para descobrir se é hospedado no Wordpress.
Isso no dia 24 de janeiro de 2024.
Outro detalhe é que esses bots usam protocolos mais antigos como HTTP/1.1, TLS 1.2 e IPv4. Raramente algum bot maligno aparecia nos registros usando algum IPv6. O que aparecia no user-agent em sua maioria eram imitações de navegadores populares como Chrome e Firefox, em nenhum caso o bot maligno se identificava com endereços de e-mail para contato.
## Onde
Agora vou lhes mostrar de que maneira os bots obtinham informações sobre os meus sites.
1- Mecanismos de busca
Os mecanismos de busca são usados pelos bots de inteligência artificial para encontrar sites de conteúdo para serem roubados, abaixo eu mostro as palavras-chave mais estranhas que levaram ao meu site de acordo com o Bing Webmasters.
O propósito desta postagem é mostrar o resultado deste bloqueio assim como alguns logs de acesso que captei nos últimos meses que podem ser interessantes para alguns webmasters de plantão. Além dos resultados quero discorrer sobre algumas ações tomadas e a motivação por trás de cada uma delas, assim como implicações éticas de manter um blog hospedado.
## O que
Meu site estava sendo atacado por bots desconhecidos de várias partes do mundo, por estar hospedado na Cloudflare grande parte dos ataques foram mitigados automaticamente. Por alguma razão desconhecida estavam tentando derrubar o meu site, mas alguns bots não eram simplesmente bots de ataque, alguns eram crawlers que usavam do meu conteúdo para alimentar inteligências artificiais.
## Quem
A maior parte dos bots vinha dos Estados Unidos, uma pequena parcela vinha da Singapura e a China enquanto o resto vinha de partes aleatórias do mundo, sendo metade dos bots benignos e a outra metade malignos.
### Bots benignos
Eu considero como benigno todo e aquele bot que coloca uma identificação em seu user-agent onde eu posso entrar em contato com o seu dono e pedir para me tirar da sua lista de scans,. Um deles foi um bot da Palo Alto Networks que possuía um endereço de e-mail para contato e eles foram super cordiais comigo.
Expanse, a Palo Alto Networks company,
searches across the global IPv4 space
multiple times per day to identify customers;
presences on the Internet.
If you would like to be excluded from our scans,
please send IP addresses/domains to: s******o@p**************s.com
Boa parte do tráfego que vinha dos bots benignos foi diminuída, entrei em contato com a maioria deles e todos me deram resposta.
We've added cezarcampos.com.br and zepintor.com.br to our excludelist.
It can take up to a week for the system to update excluded ranges and
domains, but once they propagate you will stop seeing connections from
our scanners. If you do still see activity after a week from our
ranges, please reach out
again with the time you observed scanning activity, and we'll
troubleshoot.
No entanto, nem todos os bots são assim.
### Bots malignos
A maioria dos bots malignos escaneavam diretórios nos meus sites para descobrir se é hospedado no Wordpress.
Isso no dia 24 de janeiro de 2024.
Outro detalhe é que esses bots usam protocolos mais antigos como HTTP/1.1, TLS 1.2 e IPv4. Raramente algum bot maligno aparecia nos registros usando algum IPv6. O que aparecia no user-agent em sua maioria eram imitações de navegadores populares como Chrome e Firefox, em nenhum caso o bot maligno se identificava com endereços de e-mail para contato.
## Onde
Agora vou lhes mostrar de que maneira os bots obtinham informações sobre os meus sites.
1- Mecanismos de busca
Os mecanismos de busca são usados pelos bots de inteligência artificial para encontrar sites de conteúdo para serem roubados, abaixo eu mostro as palavras-chave mais estranhas que levaram ao meu site de acordo com o Bing Webmasters.
É óbvio que os robôs não clicaram, por serem crawlers eles apenas copiam os endereços na memória e os acessam diretamente. Logicamente também, os robôs malignos não respeitavam o arquivo robots.txt.
# Conclusão
Se você quer manter um blog hoje em dia, considere adotar medidas para que o seu conteúdo não seja usado para treinar modelos de linguagem proprietários. Ao impedir que os robôs acessem o seu site, você também mitiga o treinamento dessas IAs. Considere comprar um domínio e usar um serviço gratuito como o da Cloudflare para impedir que os bots acessem seu site, não use Github pages ou qualquer outro serviço que não lhe ofereça proteção contra bots; caso você os use, você não terá nenhum controle sobre o que entra e sai do seu website. É isso.
Caso esteja interessado em obter mais dados sobre o meu caso, considere a leitura:
Why I blocked bots on my site - Por quê eu bloqueio bots no meu site?
Habilite o modo rewrite:
# a2enmod rewrite
# systemctl restart apache2
Coloque dentro do apache2.conf ou httpd.conf ou .htaccess (para quem usa essa #% $@%$ de htaccess):
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SEMrushBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Bytespider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MauiBot [NC]
RewriteRule .* - [F,L]
Salve e saia.
# systemctl restart apache2
Ou mais resumido:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (gumgum-bot|postmanruntime|ag_dm_spider|scrapy|chimebot) [NC]
RewriteRule .* - [F,L]
Habilitará proteção contra alguns bots mais conhecidos, depois você pesquisa para outros bots que forem aparecendo.
Monitore os logs.
Apesar de que proteção completa contra bots (ou qualquer outras praga de internet) é impossível.
_________________________________________________________
Always listen the Buck!
Enquanto o cursor estiver pulsando, há vida!