Variabilidade, metadados irregulares do editor e a evolução contínua dos bancos de dados complicam a reprodutibilidade na pesquisa bibliométrica

Os vários bancos de dados bibliométricos disponíveis para pesquisadores e analistas são ferramentas inestimáveis ​​para entender o que está acontecendo na comunicação acadêmica e para planejar estratégias para um programa de publicação de periódicos.

Entretanto, cada uma dessas ferramentas é única, com diferentes pontos fortes, então é importante usar a ferramenta certa para o trabalho.

Ao usá-las para pesquisa, é importante perceber que, como fontes de dados, elas variam consideravelmente na forma como tratam os metadados frequentemente falhos fornecidos pelos editores.

Além disso, elas são impermanentes, ou seja, as principais ferramentas que usamos para informações bibliométricas estão em constante evolução, o que torna difícil, se não impossível, reproduzir exatamente qualquer parte da pesquisa.

Esta é uma tradução livre da matéria apresentada por David Crotty no The Scholarly Kitchen de 15 de agosto de 2024 [1].

Escrevi recentemente sobre algumas das diferenças entre alguns dos principais bancos de dados bibliométricos , em grande parte querendo destacar que os bancos de dados que dependem de identificadores persistentes (PIDs) como o DOI (digital object identifier) ​​se destacam quando se examina o estado atual do mercado, mas criam desafios quando se realiza análises históricas e se procura tendências ao longo do tempo.

Em suma, bancos de dados como Dimensions ou OpenAlex identificam artigos com base em seus DOIs.

Se um periódico muda de autopublicação para, digamos, uma parceria com a Elsevier, todos os seus DOIs são redirecionados para a versão da Elsevier, então no banco de dados parece que a Elsevier sempre foi a editora do periódico. Assim, o instantâneo que um banco de dados baseado em DOI fornece é o  estado atual do mercado.

É por isso que neste post de outubro passado , usei o Web of Science (WoS) para analisar a consolidação do mercado ao longo do tempo. O WoS é um banco de dados seletivo e com curadoria, então uma desvantagem de usá-lo para dimensionamento de mercado é que ele cobre apenas uma fatia do mercado total.

A vantagem do WoS, no entanto, é que ele mostra uma captura de tela estática para cada ano, oferecendo uma visão de onde um artigo estava quando foi publicado , em vez de fornecer dados em constante mudança com base em onde os DOIs de um periódico apontam atualmente .

Todos esses bancos de dados dependem de metadados fornecidos pelo editor como base para suas listagens e, como a qualidade do que cada editora publica pode variar, a qualidade dos resultados dos dados pode sofrer.

Diferentes bancos de dados têm diferentes processos de limpeza e refinamento na entrada de dados do editor e, portanto, podem mostrar resultados muito diferentes ao analisar o mesmo conjunto de publicações. Artigos de anais de conferências, por exemplo, podem aparecer de forma diferente no mesmo banco de dados, dependendo de como são marcados por diferentes editores.

No Dimensions, a SPIE mostra 25.000 “artigos de conferência” em 2023, enquanto a IOP Publishing não mostra nenhum, apesar de três de suas três maiores publicações serem periódicos de séries de conferências. Comparar com precisão dois editores, portanto, requer um exame cuidadoso das especificidades de cada programa, em vez de apenas uma coleção de números brutos.

Irregularidades na marcação podem levar a dados significativamente distorcidos para o mercado como um todo. Em 2022, o CABI Compendium (um recurso que “reúne dados e pesquisas sobre pragas e doenças”) deve ter feito algo diferente com os metadados de seus artigos, e tanto a Dimensions quanto a OpenAlex mostram que ele publicou quase 80.000 artigos naquele ano.

A OpenAlex lista com precisão esses artigos como tipos de “conjunto de dados”, enquanto a Dimensions os vê como artigos de pesquisa de periódicos. 

Na minha experiência, os editores têm pouco incentivo e motivação comercial para corrigir erros de metadados do passado — fazer isso leva tempo e esforço e frequentemente incorre em taxas de reabastecimento.

Assim, a vigilância constante de anomalias é necessária por aqueles que dependem de dados bibliométricos para garantir que sejam filtrados.

Mas a variação nos bancos de dados bibliométricos vai além de questões de metadados e como os diferentes bancos de dados analisam essas informações. Todos os principais bancos de dados bibliométricos evoluem ao longo do tempo.

Cada uma dessas organizações tem equipes dedicadas fazendo constantes melhorias tecnológicas, bem como decisões editoriais sobre o que é indexado e como.

Em algum momento do ano passado, a Plataforma Dimensions adicionou a capacidade (muito útil) de filtrar por “Tipo de documento”, o que pode ajudar a separar alguns (mas não todos) resumos de conferências de artigos de pesquisa reais em um periódico.

Isso permite segregar 277.000 resumos de conferências publicados em 2023 de artigos de periódicos reais, e mais de 3,4 milhões nos últimos vinte anos. Usando esse filtro para obter uma imagem mais precisa da literatura de pesquisa, o número total de artigos de periódicos a cada ano cai em significativos 5%.

A Clarivate fez grandes mudanças em seu Journals Citation Report (JCR) nos últimos anos, reduzindo as pontuações do Journal Impact Factor para décimos em vez de milésimos , mesclando periódicos do Emerging Sources Citation Index (ESCI) com seus outros índices e mesclando listagens de periódicos que apareceram em diferentes índices . Tudo isso significa que os dados coletados para 2023 precisam ser ajustados se você quiser que eles correspondam aos dados de 2022 ou 2021.

Não são apenas essas grandes mudanças nos bancos de dados. Periódicos novos e existentes são adicionados indexados regularmente, muitas vezes retrospectivamente. A Scopus adicionou quase 1.200 periódicos somente em 2021. 

Além disso, a indexação de artigos costuma ser um processo lento, e pode levar meses para que artigos publicados entrem nos índices. Caso extraia dados no início do ano com base no ano anterior, você corre o risco de perder artigos publicados nos últimos meses desse ano anterior.

Você também verá números diferentes conforme os erros são corrigidos e artigos perdidos são encontrados.

Dependendo do índice bibliométrico que você está usando, o status de acesso ao artigo pode mudar ao longo da vida do artigo: artigos de assinatura atingem seu ponto de embargo de 12 meses e são contados como artigos de acesso aberto (OA) verde. Artigos OA Bronze completam seu período de disponibilidade gratuita e voltam para trás de paywalls.

Tudo isso significa que quando você tenta verificar o trabalho em uma análise bibliométrica, ou mesmo seu próprio trabalho de algumas semanas atrás, os dados coletados em um determinado momento não podem mais ser reproduzidos.

Talvez haja um paralelo aqui com pesquisas ecológicas ou estudos que observam um evento único como um furacão ou uma supernova.

Uma pesquisa ecológica de uma região específica em um momento específico não pode ser reproduzida dez anos depois, nem se pode simplesmente criar um novo furacão para ver se os resultados relatados anteriormente se mantêm.

Então, como esses tipos de estudos, talvez devêssemos considerar a análise bibliométrica como visões transitórias do nosso conhecimento da literatura em um momento específico, em vez da última palavra sobre qualquer assunto.

Tornar públicos os dados por trás de qualquer análise desse tipo pode resolver alguns dos problemas, pelo menos permitindo que se verifique o trabalho feito em um estudo (mas não reproduzi-lo do zero, pois esses mesmos dados não estão mais disponíveis nas mesmas fontes).

Mas as coisas não são tão simples, porque estamos lidando principalmente com produtos comerciais com direitos limitados concedidos para redistribuição de conteúdo, embora o OpenAlex e sua licença CC0 forneçam um contraste gritante.

No mínimo, toda análise bibliométrica deve incluir uma explicação detalhada da coleta de dados. Há claramente anomalias nos dados disponíveis de todos os principais bancos de dados bibliométricos, e um analista experiente irá compensá-las.

Mas você pode estar ciente de anomalias diferentes das minhas, e nossas compensações podem não corresponder, levando a conclusões potencialmente diferentes. No mínimo, saber quais bancos de dados foram usados, quais filtros foram empregados, quais termos foram incluídos e excluídos e quais ajustes foram feitos para contabilizar anomalias conhecidas é essencial.

Como sempre, métodos abertos descritos detalhadamente oferecem resultados muito mais confiáveis ​​do que análises que ignoram os detalhes.

Mas, mesmo assim, talvez tenhamos que aceitar que há um nível de imprecisão e idiossincrasia que não pode ser evitado, e toda análise requer um certo nível de asteriscos e ressalvas.

REFERÊNCIA

[1] CROTTY, David. Variability, Irregular Publisher Metadata, and the Ongoing Evolution of Databases Complicates Reproducibility in Bibliometrics Research. The Scholarly Kitchen, Aug. 15, 2024. Disponível em: https://scholarlykitchen.sspnet.org/2024/08/15/variability-bad-publisher-metadata-and-the-ongoing-evolution-of-databases-makes-bibliometrics-research-reproducibility-difficult/ Acesso em: 01 set. 2024.