Bots de IA ameaçam Repositórios Abertos: COAR cria força-tarefa

Diariamente, diversos bots acessam o repositório 24 horas por dia, 7 dias por semana.

Estimamos que a degradação de desempenho devido à atividade dos bots ocorra cerca de uma ou duas vezes por dia, e pelo menos uma vez por semana o sistema trava completamente, exigindo intervenção – geralmente uma reinicialização do serviço. (respondente da pesquisa realizada pela COAR).

Há um número crescente de bots de IA rastreando repositórios.

Esses bots automatizados, ou rastreadores, navegam pela internet, coletando dados e indexando informações para mecanismos de busca, IA, grandes modelos de linguagem e outros fins.

Embora alguns bots sejam bastante inofensivos, outros são suficientemente agressivos a ponto de causarem cada vez mais interrupções de serviço em repositórios (e outras infraestruturas de comunicação acadêmica) [1].

Varredura e raspagem não são novidades: as empresas de mecanismos de busca sempre rastrearam sites e extraíram conteúdo para preencher os resultados de busca. Esse processo sempre beneficiou os proprietários de sites, pois os resultados das buscas redirecionavam o tráfego de volta para seus sites [2]

Mas, ao utilizar conteúdo extraído para treinar modelos de IA, as empresas de IA e de mecanismos de busca estão alterando a forma como os usuários interagem com o conteúdo na web. Esses modelos de IA começaram a gerar conteúdo derivado que agora aparece como uma visão geral acima dos resultados dos mecanismos de busca e como respostas a consultas nas ferramentas de IA generativa.

Os usuários confiam cada vez mais nesse conteúdo derivado, e muitas vezes não visitam o site original. Isso se tornou problemático para marcas e criadores de conteúdo, especialmente para editores de mídia, porque menos tráfego em seus sites pode afetar a capacidade de estimular assinaturas e a receita de publicidade. Ao mesmo tempo, esse aumento da confiança no conteúdo derivativo levanta questões sobre a proveniência dos dados, a propriedade intelectual e o uso indevido de conteúdo: em resumo, os criadores de conteúdo não têm mais controle sobre seu conteúdo [2].

Para saber mais sobre o estado atual e obter uma melhor compreensão do impacto de bots e rastreadores em repositórios, a COAR distribuiu uma pesquisa aos seus membros em abril de 2025. A pesquisa recebeu 66 respostas de repositórios de todo o mundo (22 do Canadá e EUA, 22 da Europa, 9 da América Latina, 6 da Ásia, 4 da Australásia, 2 da África e 1 de origem desconhecida). [1]

Mais de 90% dos participantes da pesquisa indicaram que seus repositórios estão sendo afetados por bots agressivos, geralmente mais de uma vez por semana, o que frequentemente leva a lentidão e interrupções de serviço [1].

Os bots de IA também apresentam riscos significativos de segurança e conformidade para todas as organizações, em todos os setores. 

Embora não haja como ter 100% de certeza sobre o propósito desses bots, a suposição na comunidade é que sejam bots de IA coletando dados para treinamento de IA generativa.

Esse tipo de tráfego apresentou um aumento significativo nos últimos dois anos e está tendo um impacto considerável nos repositórios, tanto em termos da qualidade do serviço prestado quanto do tempo e recursos necessários para lidar com os bots.

Esses bots podem roubar propriedade intelectual, comprometer aplicativos web e identificar vulnerabilidades que resultem em incidentes de segurança ou violações de dados [2].

Para mitigar esse impacto, diversas medidas estão sendo utilizadas para minimizar ou impedir o acesso de bots de IA aos repositórios. Algumas dessas medidas são consideradas relativamente eficazes na proteção dos repositórios contra interrupções de serviço, mas também é evidente que elas dificultam o acesso aos repositórios por outros agentes mais bem-vindos, como usuários humanos individuais e sistemas benignos [1].

Para impedir bots de IA maliciosos e controlar a varredura e a raspagem de conteúdo, as organizações precisam de uma estratégia de segurança em várias camadas. Essa estratégia combina controles estáticos com recursos mais preditivos, dinâmicos e governança granular [2].

A missão fundamental dos repositórios é fornecer acesso às suas coleções para que sejam reutilizadas e adaptadas em benefício da pesquisa e da sociedade. No entanto, o recente aumento na atividade de bots de IA agressivos pode levar os repositórios a limitar o acesso aos seus recursos, tanto para usuários humanos quanto para usuários de máquinas, resultando em uma situação na qual o valor da rede global de repositórios seja substancialmente reduzido [1].

Para ajudar a comunidade de repositórios a navegar nesse cenário em rápida evolução e desenvolver soluções que permitam que os repositórios permaneçam o mais abertos possível, a Confederation of Open Access Repositories COAR COAR lançou uma “Força-Tarefa de Repositórios e Bots de IA” em julho de 2025.

A Força-Tarefa reúne representantes técnicos de repositórios e outros especialistas para discutir possíveis soluções para esse problema e desenvolver recomendações para a comunidade de repositórios.

Objetivos da Força-Tarefa

  1. Articular o problema e fornecer evidências sempre que possível.
  2. Compreender e documentar as estratégias de mitigação disponíveis.
  3. Reiterar a importância de permitir o acesso legítimo de máquinas aos repositórios.
  4. Fazer recomendações para mitigar os problemas enfrentados pelos repositórios que não criam problemas para o acesso remoto legítimo ao sistema.

 

O objetivo final é disponibilizar um relatório para a comunidade em algum momento do outono de 2025 [1].

==Referências ==

[1] COAR. Open repositories are being profoundly impacted by AI bots and other crawlers: Report from a COAR Survey. COAR News, April 2025. Disponível em: https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/ Acesso em: 03 dez. 2025

[2] BOURZIKAS, Grant. Prevent AI crawlers and other bots from scraping your site. Disponível em: https://www.cloudflare.com/pt-br/the-net/building-cyber-resilience/regain-control-ai-crawlers/ Acesso em: 03 dez. 2025

__________________________________________________

Sobre a COAR

A Confederation of Open Access Repositories COAR é uma associação internacional que reúne repositórios individuais e redes de repositórios com o objetivo de desenvolver capacidades, alinhar políticas e práticas e atuar como uma voz global para a comunidade de repositórios.