Estratégia para a recuperação de informação científica sobre as doenças tropicais negligenciadas: análise comparativa da Scopus, Pubmed e Web of Sciencea

ARTÍCULO TEÓRICO-METODOLÓGICO

 

Estratégia para a recuperação de informação científica sobre as doenças tropicais negligenciadas: análise comparativa da Scopus, Pubmed e Web of Science*

 

Estrategia para la recuperación de la información científica sobre enfermedades tropicales desatendidas: análisis comparativo de Scopus, PubMed y Web of Science

 

Strategy for information retrieval of scientific on neglected tropical diseases: comparative analysis of Scopus, PubMed and Web of Science

 

 

Natanael Vitor Sobral,I Zeny Duarte de Miranda,II Fabio Mascarenhas e SilvaIII

I Instituto de Ciência da Informação da Universidade Federal da Bahia. Brasil.
II Programa de Pós-graduação em Ciência da Informação da Universidade Federal da Bahia. Brasil.
III Programa de Pós-graduação em Ciência da Informação da Universidade Federal de Pernambuco (PPGCI/UFPE). Brasil.

 

 



RESUMO

Objetiva desenvolver um percurso metodológico para recuperar informações científicas sobre as Doenças Tropicais Negligenciadas (DTN) em bases de dados internacionais (Scopus, Web of Science e PubMed). Os procedimentos metodológicos desta pesquisa foram: a) identificação das principais doenças tropicais segundo a Organização Mundial da Saúde; b) padronização dos nomes das doenças a partir dos Descritores em Ciências da Saúde da Biblioteca Virtual de Saúde (DeCS/BVS); c) construção de duas listas: uma com os termos controlados associados a operadores booleanos, e outra com os termos não controlados, também estruturada com operadores booleanos; d) busca de informações nas principais bases de dados anteriormente citadas de maneira controlada e não controlada; e) comparação dos resultados obtidos entre a busca controlada e não controlada; f) construção de fluxo metodológico para fins de replicação. Percebeu-se que o uso da busca controlada aumentou a revocação do processo de recuperação da informação, especificamente, a Base Scopus apresentou um aumento mais significativo na recuperação de resultados (11,28 %). A PubMed teve um incremento na revocação de 8,92 % e a Web of Science de 2,64 %. Ademais, propõe-se neste trabalho um fluxo para a recuperação da informação nas referidas bases, que sirva para os pesquisadores neste tema, pois entende-se que o alto grau de variabilidade das palavras e a dispersão na representação do tema nas bases constitui-se no importante impeditivo para a recuperação de informações.

Palavras-Chave: Medicina Tropical; doenças negligenciadas; base de dados; armazenamento e recuperação da informação; vocabulário controlado.


RESUMEN

El objetivo de esta investigación fue desarrollar una metodología para recuperar informaciones científicas sobre las enfermedades tropicales desatendidas, en bases de datos internacionales (Scopus, Web of Science y PubMed). Los procedimientos metodológicos de esta investigación fueron: a) identificación de las principales enfermedades tropicales según la Organización Mundial de la Salud; b) estandarización de los nombres de las enfermedades a partir de los Descriptores en Ciencias de la Salud de la Biblioteca Virtual de Salud (DeCS/BVS); c) construcción de dos listas: una con los términos controlados asociados a operadores booleanos, y otra con los términos no controlados, también estructurada con operadores booleanos; d) búsqueda de informaciones en las principales bases de datos anteriormente citadas de manera controlada y no controlada; e) comparación de los resultados obtenidos entre la búsqueda controlada y no controlada; f) construcción de flujo metodológico para fines de replicación. Se percibió que el uso de la búsqueda controlada aumentó la revocación del proceso de recuperación de la información. Específicamente la Base Scopus presentó un aumento más significativo en los resultados (11,28 %). PubMed tuvo un incremento en la revocación del 8,92 % y la Web of Science del 2,64 %. Además, se propone en este trabajo un flujo para la recuperación de la información en las referidas bases, que sirva para los investigadores en este tema, pues se entiende que el alto grado de variabilidad de las palabras y la dispersión en la representación del tema en las bases se constituyen en importante impedimento para la recuperación de informaciones.

Palabras clave: Medicina Tropical; enfermedades desatendidas; base de datos; almacenamiento y recuperación de la información; vocabulario controlado.


ABSTRACT

It aims to develop a methodological pathway for the retrieval of scientific information on neglected tropical diseases in international databases (Scopus, Web of Science and PubMed). The methodological procedures performed in this work were: a) identification of the main tropical diseases according to the World Health Organization; b) conversion of the names of the diseases in standardized terms from the Descriptors in Health Sciences of the Virtual Health Library (DeCS), c) the construction of two lists: one with the standard terms associated with Boolean operators, and the other with the nonstandard terms; d) search for information in the main databases previously mentioned in a standardized and non-standardized way; e) comparison of the results obtained between standardized and non-standardized search; f) methodological flow construction for replication purposes. As a main result it was observed that the use of the standardized search increased the recall of the information retrieval process, and Scopus was the basis that presented a more significant increase in the retrieval of results (11.28 %). PubMed had an increase in recall of 8.92 % and Web of Science of 2.64 %. In addition, it is proposed in this work a flow for the retrieval of the information in the mentioned bases, that can be useful to all the researchers who wish to obtain scientific information on this subject, since it is understood that the high degree of variability of the words and the dispersion in the representation of the theme in the bases constitutes the important impediment for the information retrieval.

Key words: Tropical Medicine; neglected diseases; database; information storage and retrieval; controlled vocabulary.


 

 

INTRODUÇÃO

As doenças tropicais são enfermidades infecciosas que se proliferam em condições climáticas quentes e úmidas, comuns em países situados entre às proximidades da linha do Equador, entre os trópicos de Câncer e Capricórnio,1 exatamente onde se situa grande parte do território brasileiro, proporcionando condições favoráveis à rápida disseminação destas enfermidades, exigindo contínua atenção da comunidade científica.

Sabendo-se que se concentra nos países desenvolvidos os recursos (humanos, financeiros e tecnológicos) mais avançados da Medicina, entende-se ser primordial construir parcerias entre os países em desenvolvimento e os desenvolvidos, no intuito de fazer avançar as pesquisas em Medicina Tropical, estimulando a colaboração científica para a produção de medicamentos e soluções efetivas para estes problemas. De um lado há recursos consolidados para lidar com problemas avançados no campo da saúde, do outro se tem desafios e pesquisadores ávidos por parcerias profícuas que contribuam para a viabilização das soluções criativas pensadas nos países desenvolvidos para os países em desenvolvimento. Tal cenário pressupõe possibilidades de intercâmbio de recursos e conhecimentos, que são positivos para ambos.

De forma geral, admite-se que o envolvimento dos países desenvolvidos nas soluções dos desafios ligados à Medicina Tropical, comumente, está associado aos seguintes fatores: 1) possibilidade de lucrar sobre os países em desenvolvimento com a venda de vacinas e medicamentos; 2) surtos que afetam os seus territórios esporadicamente, como por exemplo, os casos de Zika, em 2016, nos Estados Unidos, que trouxeram como consequência problemas congênitos em 5 % dos bebês e fetos das mulheres acometidas pela doença.2

Da indústria farmacêutica, fortemente influenciada pelas forças do mercado, nota-se uma postura inerte no que tange a produção de medicamentos para as doenças tropicais. Dos 850 medicamentos e vacinas aprovados para todas as doenças entre 2000 e 2011, apenas 4 % foram para as Doenças Tropicais Negligenciadas (DTN), incluindo a malária, tuberculose, doenças diarreicas e outras enfermidades da pobreza.3

Percebida a relevância social e acadêmica que circunda a temática das DTN, e em especial, a importância da responsabilidade de participação de pesquisadores da América Latina na consecução de pesquisas sobre este assunto, nota-se que a solução para os questionamentos deste campo demandam abordagens interdisciplinares, considerando que muitas áreas do conhecimento, para além do domínio médico, têm contribuições a oferecer. Neste bojo, enquanto área interdisciplinar, a Ciência da Informação (CI) estabelece relações com as mais diversas áreas do conhecimento, visando contribuir para a solução de problemas distintos, porém, centrados nas questões informacionais.

Deste modo, evidentemente, não se pretende em um trabalho da área de CI apresentar soluções para as DTN,4 todavia, busca-se compreender questões vinculadas aos processos de busca, monitoramento e análise de informações situadas no campo da Medicina Tropical, tendo em vista que a dificuldade de recuperar informações científicas sobre DTN constitui-se em um importante problema, principalmente para os pesquisadores não pertencentes ao domínio da área médica, e que, consequentemente, não dominam a sua terminologia.

Assim, parte-se do pressuposto que a CI tem como objeto a produção, seleção, organização, interpretação, armazenamento, recuperação, disseminação, transformação e uso da informação,5 delimitando neste escopo a sua contribuição para os mais variados temas e áreas do conhecimento, inclusive para si mesma. Enquanto problemática, numa perspectiva diacrônica, verifica-se que a discussão das relações entre o acúmulo de informações e sua posterior seleção e utilização constituem-se como fenômeno de interesse da CI ao longo de sua curta história.

No contexto das DTN, tal problemática interfere diretamente na maneira e na velocidade como as informações científicas são geradas, sistematizadas, recuperadas e utilizadas pelos pesquisadores, sobretudo, considerando que em muitos casos, há o envolvimento de cientistas externos à área médica que desejam estudar o tema, porém, possuem pouco conhecimento sobre as alternativas e critérios para a recuperação de informações científicas sobre as enfermidades que compõem o escopo das DTN. Entende-se aqui, que a realidade supramencionada proporciona um obstáculo a estes pesquisadores, o que impede o avanço da interdisciplinaridade no campo em questão e o desenvolvimento de soluções criativas que só podem ser elaboradas a partir do relacionamento de competências e habilidades disciplinares diversificadas.

Justifica este estudo, a necessidade de utilização de vocabulários controlados complementados por outros métodos de descoberta de termos.6 A falta de destreza terminológica estimula os pesquisadores a limitarem-se aos termos gerais, comprometendo seus índices de recuperação, e prejudicando a composição de corpus bibliográfico. Em estudo anterior, foi possível verificar que a escolha do conjunto correto de termos controlados favoreceu a recuperação da informação na área biomédica, tanto em precisão, quanto em revocação.7 Por este motivo, reforça-se a necessidade de pensar todo o ciclo de recuperação, desde a delimitação do conceito do que se pretende recuperar, até a sua utilização.

Desta feita, o propósito deste estudo é desenvolver uma estratégia para a recuperação de informações científicas sobre as DTN nas principais bases de informações científicas internacionais que indexam conteúdo dessa área. Em suma, esta pesquisa objetiva desenvolver um percurso metodológico de recuperação de informações científicas sobre as DTN nas bases de dados: Scopus, Web of Science e PubMed.

Elegeram-se as bases supracitadas pelo eminente prestígio que estas possuem no meio acadêmico-científico, e por seu vasto acervo de informações científicas no campo de DTN com alta qualidade e impacto, constituindo-se assim, em um conjunto informacional indispensável para a realização de pesquisas que envolvem esta temática. Tal estratégia deverá avançar para outras bases e repositórios de conhecimento científico à medida que o projeto de doutorado a qual está vinculada evolua e realize experimentos em outros contextos. Compreende-se nesta pesquisa que a recuperação da informação científica sobre um determinado assunto é o ponto de partida para a produção de conhecimento e o avanço das descobertas e interlocuções acadêmicas em qualquer área.

As estratégias aqui apresentadas futuramente serão utilizadas para a Recuperação de Informações sobre DTN, visando aplicações bibliométricas e informétricas, que propiciem panoramas comparativos da produção científica nacional e internacional sobre o tema em questão. A proposta inicial da tese doutoral é a prospecção de métodos de Recuperação da Informação em bases de dados e a classificação da informação científica em DTN, e o presente artigo apresenta-se como fruto destes estudos.

AS DOENÇAS TROPICAIS NEGLIGENCIADAS E AS POLÍTICAS PÚBLICAS

A Medicina Tropical é uma área do conhecimento científico que investe grande parte de seus esforços no estudo das doenças negligenciadas, típicas de países em desenvolvimento, situados nas proximidades da linha do Equador, especificamente localizados em lugares com acentuada situação de pobreza. Tal linha de estudos, em geral, não faz parte da agenda dos países desenvolvidos, detentores de maior poder econômico e científico, devido ao fato destes não se veem acometidos frequentemente por tais enfermidades. Assim, recai sobre os países em desenvolvimento a responsabilidade maior de realização destas pesquisas.

As regiões da América Latina, Caribe, África e Ásia são as mais afetadas pelas doenças tropicais.8 Isto ocorre, principalmente, pelas seguintes causas: enorme diversidade ecológica, mudanças ambientais em curso, migrações massivas, questões socioeconômicas, proximidade da linha do equador (clima quente e úmido), condições sanitárias, e ausência de políticas efetivas orientadas ao enfretamento destas doenças.

Aqui, chama-se a atenção para o fato de que além das DTN há uma ciência tropical negligenciada, o que reforça as dificuldades dos países latino-americanos, africanos e asiáticos. Porém, admite-se que sozinhas essas nações encontrarão dificuldades para alcançarem as soluções que necessitam, tendo em vista o seu estágio atual de desenvolvimento em Ciência, Tecnologia & Inovação (CT&I). Para atenuar o problema, a recomendação é compor um esforço coletivo que envolva trabalhadores de saúde das comunidades locais e pesquisadores interessados em doenças tropicais de todo o mundo.9 Sem um esforço global organizado, sistematizado e acompanhado é improvável que sejam alcançadas as soluções necessárias para os problemas de DTN.

Considerando tal realidade, expõe-se que o combate aos problemas de saúde pública e tropical deve ser realizado em âmbito estratégico, visando atacar as causas e mitigar as variáveis que ocasionam as doenças. Dessa maneira, a figura 1 e o quadro, apontam os níveis de atuação das políticas públicas em saúde concernente a sua efetividade.10

 

As ações de natureza operacional ocorrem em curtíssimo prazo, em geral, atuam no âmbito da consequência do problema de forma corretiva, e devem servir como paliativo enquanto às ações preventivas, táticas e estratégicas, estão sendo desenvolvidas. As ações táticas empregam um grau de inteligência maior do que a operacional. Ainda que não sirva ao propósito de solução, mas sua natureza está intimamente relacionada a processos de geração de conhecimento, utilização de tecnologias, modernização e técnicas de planejamento e gestão, que permitem avançar em direção ao controle pleno de um determinado problema, e também, mitigar as consequências causadas pelas doenças. Quanto ao nível estratégico, visivelmente sua atuação está ligada às causas do problema, e não aos efeitos. Sua essência é orientada à construção de soluções efetivas e duradouras, que atinjam, precisamente, as condições de produção do problema.

Desta feita, nota-se que a primeira coluna da esquerda preocupa-se em apresentar ações de urgência para prevenir e tratar os efeitos da proliferação do mosquito causador da doença, realizando atos de natureza simples e imediata. A segunda coluna foca em ações gerenciais e de controle, que objetivam ampliar as condições de prevenção e tratamento, fortemente amparadas pelas técnicas administrativas e ferramentas de tecnologia da informação e comunicação. Enquanto isto, a terceira coluna enfatiza as ações que combatem a causa do problema, tendo em vista que a criação de vacinas, a eliminação das condições de reprodução do mosquito e a conscientização da população, se atingidas plenamente, eliminariam ou reduziriam drasticamente os casos de Dengue no Brasil.

De uma maneira geral, os esquemas apresentados na figura 1 e no quadro podem ser utilizados para a proposição de políticas públicas de prevenção e combate às DTN. Admite-se que a atuação nos três níveis apresentados é importante para o combate aos problemas de saúde atuais, deste modo, mesmo as ações operacionais são consideradas válidas, pois ajudam a ganhar tempo enquanto as ações mais elaboradas, efetivas e duradouras são desenvolvidas.

Em complementariedade aos pressupostos acima descritos, reconhece-se que, para o avanço das soluções centradas nos problemas das DTN, independente do nível de atuação político, é salutar a aplicação de conhecimentos interdisciplinares, que ultrapassem os limites de atuação da área médica, envolvendo outras áreas do conhecimento e suas possíveis contribuições para os problemas percebidos, lidando de maneira mais profunda com a complexidade que o tema requer.

Contextualizando a afirmação supramencionada com as proposições apresentadas no quadro, questiona-se: é coerente formular uma política de conscientização da população sobre a eliminação do mosquito da Dengue sem consultar os especialistas das Ciências Humanas e Sociais para entender questões de motivação e comunicação? É plausível imaginar a construção e aperfeiçoamento de instrumentos de limpeza urbana sem a colaboração de profissionais e pesquisadores da área de Engenharia e Meio Ambiente? Os aportes teóricos e técnicos das Ciências da Informação e da Computação são úteis para a concepção de técnicas e métodos voltados à sistematização e recuperação da informação científica visando favorecer processos de geração de inovação em DTN? Tais perguntas abrem espaço para construtivas reflexões sobre o papel de outros domínios nas soluções de problemas da área de DTN, que não serão aprofundadas neste artigo por não ser o seu foco primário, porém, são discussões que merecem atenção e maior espaço nos círculos de reflexões acadêmicas.

RECUPERAÇÃO DA INFORMAÇÃO CIENTÍFICA E SUAS RELAÇÕES COM OS ESTUDOS MÉTRICOS DA INFORMAÇÃO

A estratégia de busca é o processo de traduzir uma pergunta de pesquisa em um formato que o motor de busca consiga entender.11 Tal estratégia está inserida no processo de Recuperação da Informação. A Recuperação da Informação é o processo de encontrar informações, em geral, textos em grandes coleções, satisfazendo necessidades de informação dos usuários.12 Mooers, autor fundante da Recuperação da Informação, a conceituou como o processo ou método pelo qual um potencial usuário de informações é capaz de converter sua necessidade de informações em uma lista real de informações sobre documentos do seu interesse.13

Sob o aspecto prático, os itens que compõem um Sistema de Recuperação de Informação (Fig. 2), incluem documentos, necessidades do usuário que desencadeiam a formulação de consultas, e finalmente, a Recuperação da Informação, que depende do alinhamento entre o processo de indexação dos documentos e a busca realizada.14,15 Como produto disto, uma lista de documentos considerados relevantes é apresentada ao usuário solicitante. Havendo significativa divergência entre os termos de indexação e a busca dos usuários, as possibilidades de perda de informações são alavancadas, e o processo de Recuperação da Informação tende a ser menos eficaz.14

Historicamente, os estudos ligados à Organização e Recuperação da Informação estão presentes no centro/núcleo da CI. Na Web of Science, os primeiros trabalhos vinculados ao tema foram publicados por Mooers, que estudou os mecanismos de recuperação da informação e as relações da teoria da comunicação com a teoria da recuperação.16 Em 1956, o mesmo Mooers já expressava preocupação com o rápido desenvolvimento dos dispositivos de recuperação da informação, afirmando que, antes de um bibliotecário ou administrador de pesquisa entender um processo, vários novos métodos já teriam sido anunciados, panorama similar ao encontrado na atualidade.17

No final da década de 1970, Hawkins desenvolveu trabalho pioneiro relacionando a Recuperação da Informação aos Estudos Métricos da Informação (mais especificamente a bibliometria), porém, tal trabalho teve a finalidade de estudar a literatura sobre Recuperação da Informação Online, e não necessariamente compreender as inter-relações entre os assuntos.18 A conclusão do autor supracitado foi que a produção científica sobre o referido tema estava dispersa em várias revistas, muitas delas não dedicadas à Biblioteconomia e CI, o que ressaltou explicitamente a importância do tema para outras áreas do conhecimento.

No âmbito da Biblioteconomia e CI, alguns instrumentos têm recebido maior atenção nos últimos anos, dentre eles, o tesauro, que é uma das mais importantes modalidades de linguagem documentária, e, assim como outras, surge como resposta à ineficiência dos recursos de organização da informação incapazes de atender às demandas impostas pelo ambiente da produção de documentos especializados19.19 Dodebei relata que o tesauro evolui a partir da necessidade de se trabalhar com vocabulário mais específico do que aquele presente nos cabeçalhos de assunto (remissivas e referências cruzadas, tipo: ver e ver também).20 Seu objetivo maior é o controle terminológico, que pode ser alcançado com modificadores que contextualizam o sentido pretendido, e com definições e notas de escopo que evitam duas ocorrências: a da polissemia (dependendo do contexto uma palavra pode comportar mais de um significado), e a da homonímia (diferentes objetos designados pela mesma palavra).21

O tesauro pode auxiliar o usuário nas buscas informacionais, bem como, ajudar o indexador durante o processo de classificação. Moreira, Alvarenga e Oliveira22 consideram que o tesauro é um componente muito importante num sistema de recuperação por cumprir o papel de: determinar quais termos podem ser utilizados na indexação; estabelecer quais termos podem ser usados na busca para que esta tenha um resultado satisfatório; e permitir a introdução de novos termos e relações, de modo a aproximar as linguagens do usuário e do sistema. Na área das Ciências Biomédicas, destacam-se enquanto linguagens controladas: o MeSH (Medical Subject Heading); e o DeCS (Descritores em Ciências da Saúde), este último, fortemente presente neste artigo, foi criado pela BIREME (Centro Latinoamericano e do Caribe de Informação em Ciências Médicas) para uso na indexação de artigos de periódicos, livros, anais de congressos, bem como, para auxiliar na recuperação da informação científica em bases como a LILACS e MEDLINE.

Outra importante função das linguagens controladas é evitar a dispersão da informação em estudos bibliométricos, informétricos e cientométricos, permitindo assim, o agrupamento daquilo que é similar, e a separação daquilo que é diferente, contribuindo para estudos métricos fidedignos e precisos. Mais recentemente, destacados estudos relacionaram os estudos métricos da informação com a Recuperação da Informação. Leydesdorff e Bornmann discutiram a categorização de assuntos que a Web of Science oferece às revistas científicas indexadas em sua base. Dentre as inúmeras preocupações, chamou à atenção dos autores a importância que tal classificação possui, haja vista sua utilização pelos principais rankings científicos do mundo.23 Deste modo, qualquer problema de classificação de assunto, além de prover prejuízos à Recuperação da Informação, também, pode comprometer a qualidade dos rankings científicos, que são, sumariamente, de essência bibliométrica, cientométrica e informétrica.

A Recuperação da Informação não é apenas restrita aos contextos de comunicação acadêmica e às bases de dados bibliográficas. Sua área de aplicação engloba inteligência artificial, informações comerciais, catálogos de bibliotecas, coleções de museus e bibliotecas, e a rede mundial (web) como um todo (motores de busca).24 Todavia, reforça-se que no escopo dos Estudos Métricos da Informação, dentro da CI, em geral, estuda-se a Recuperação da Informação, principalmente, no universo dos artigos de revistas, e apenas recentemente, abriu-se espaço para a comunicação acadêmica na web (webometria e altmetria).25

Glänzel, ao observar as relações entre os Estudos Métricos da Informação e a Recuperação da Informação discute a importância das métricas para ajustar as estratégias de busca, e lembra que a recuperação bibliométrica (bibliometric retrieval) é uma ferramenta poderosa para desenvolver e ajustar a estratégia de busca em qualquer nível de agregação, mas que sempre haverá ruídos no processo de busca.19 Em especial, estes ruídos se dão por problemas de indexação, sinonímias, duplicação, incompletude dos metadados, erros de digitação, e obviamente, pode ocorrer, também, pela falta de destreza dos usuários.

Desse modo, nota-se que o processo de Recuperação da Informação não é trivial, diferenciando-se de um simples processo de consulta, e por isso, depende de alguns conhecimentos específicos para que se obtenha um resultado satisfatório. Dentre as diversas competências requisitadas, destacam-se as seguintes:

- Conhecimento da estrutura da base de dados e dos seus requisitos funcionais.

- Compreensão do tema e da variedade de termos que o representa.

- Entendimento da política de indexação e do método utilizado para atribuição de termos.

- Percepção da interface de busca.

- Destreza com os operadores e uso de busca avançada.

- Utilização de filtros de pesquisa.

- Noção das possibilidades de representação gráfica das informações recuperadas.

- Aferição das estatísticas informacionais para fins de validação da busca e definição de novos recortes.

No mais, enquanto alternativa automatizada existe a possibilidade de realizar a busca e monitoramento de informações de maneira constante via API (Application Programming Interface). Esta tecnologia, que se utiliza de comandos de query, solicita informações das bases para extração de dados, registros e informações. Tais monitoramentos podem servir a propósitos diversos, que vão desde o acompanhamento de atualizações sobre uma determinada produção até a obtenção de indicadores em tempo real.

Na Web of Science, por exemplo, é possível acessar informações formatadas e atualizadas para aprimorar o repositório da instituição; consultar automaticamente e em tempo real vários registros, eliminando a necessidade de pesquisas manuais. Por meio desta técnica, pode-se também elaborar estratégias de busca avançadas e solicitar das bases de dados, por meio de rotinas informatizadas, pedidos de informações em que aplicações externas terão acesso eletrônico ao sistema requerente (http://wokinfo.com/products_tools/products/related/webservices/).

Este estudo, de caráter metodológico, teve por objetivo desenvolver um conjunto de procedimentos para recuperação da informação nas principais bases internacionais de informação científica (Web of Science, Scopus e PubMed). No Brasil, o acesso às referidas bases é feito pelo Portal Periódicos Capes (PPC). Este portal está vinculado à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes), sendo uma biblioteca virtual que reúne e disponibiliza a instituições de ensino e pesquisa no Brasil o melhor da produção científica internacional. Ele conta com um acervo de mais de 38 mil títulos com texto completo, 134 bases referenciais, 11 bases dedicadas exclusivamente a patentes, além de livros, enciclopédias e obras de referência, normas técnicas, estatísticas e conteúdo audiovisual (http://www.periodicos.capes.gov.br/index.php?option=com_pcontent&view=pcontent&alias=missao-objetivos&Itemid=102).

 

PROCEDIMENTOS METODOLÓGICOS

Para a compreensão do processo de busca e recuperação da informação realizou-se uma pesquisa bibliográfica, consultando literaturas nacionais e internacionais que discutiam o assunto. Visando estruturar o resultado em um esquema visualmente entendível, aplicou-se a técnica de fluxogramas, amplamente adotada no Business Process Management (Gerenciamento de Processos de Negócio). Para este propósito, fez-se uso da ferramenta Bizagi® (https://www.bizagi.com/pt).

Após a estruturação do fluxo e realização do processo de recuperação foi possível comparar os resultados e verificar o aumento percentual de informações recuperadas em cada base analisada, a partir do parâmetro "busca controlada com uso de tesauro" versus "busca não controlada". Os experimentos foram realizados no ano de 2017, e contaram com apoio tecnológico do Laboratório Otlet CI da Universidade Federal de Pernambuco, Nordeste, Brasil.

 

RESULTADOS E DISCUSSÃO

Buscou-se aqui, desenvolver uma estratégia para a recuperação de informações científicas sobre as DTN nas principais bases internacionais que indexam conteúdo dessa área. Desse modo, os resultados obtidos pelo estudo estão sumarizados em dois tópicos: 1) sistematização do fluxo metodológico de recuperação de informações (Fig. 3); e 2) comparação da busca e recuperação com e sem termos controlados (Fig. 4).

Tal proposta metodológica, apresentada como parte do resultado da pesquisa, serviu ao propósito de teste, visando avaliar o efeito da recuperação da informação a partir da obtenção de palavras específicas, com base nos nomes das doenças, obtidas no site da OMS. Em seguida, realizou-se a conversão das palavras em termos controlados por meio do DeCS/BVS. Deste modo, a metodologia tem pretensão replicável, visando comprovar os benefícios da utilização dos instrumentos: site da OMS, DeCS/BVS e Bases de Dados Científicas, para a composição de termos precisos em DTN, conforme os passos descritos a seguir:

a) identificação das principais doenças tropicais segundo o site da Organização Mundial da Saúde (OMS) (vale ressaltar que essa lista está em constante atualização: http://www.who.int/neglected_diseases/diseases/en/): Buruli ulcer, Chagas disease, Dengue and Chikungunya, Dracunculiasis (guinea-worm disease), Echinococcosis, Yaws (Endemic treponematoses), Foodborne trematodiases, Human African trypanosomiasis (sleeping sickness), Leishmaniasis, Leprosy (Hansen's disease), Lymphatic filariasis, Onchocerciasis (river blindness), Rabies, Schistosomiasis, Soil-transmitted helminthiases, Taeniasis/Cysticercosis and Trachoma.

b) conversão dos nomes das doenças em termos controlados a partir dos Descritores em Ciências da Saúde da Biblioteca Virtual de Saúde (DeCS/BVS). Para isto, acessou-se o site (http://decs.bvs.br/) da BVS, digitando o nome de cada doença no campo de consulta, e obtendo os nomes equivalentes.

c) construção de duas listas: uma com os termos controlados associados a operadores booleanos, e outra com os termos não controlados, também estruturada com operadores booleanos. As listas ficaram estruturadas da seguinte maneira:

- Sem controle (24 palavras): ("Buruli ulcer" OR "Chagas disease" OR "Dengue" OR "Chikungunya" OR "Dracunculiasis" OR "guinea-worm disease" OR "Echinococcosis" OR "Endemic treponematoses" OR "Yaws" OR "Foodborne trematodiases" OR "Human African trypanosomiasis" OR "sleeping sickness" OR "Leishmaniasis" OR "Leprosy" OR "Hansen disease" OR "Lymphatic filariasis" OR "Onchocerciasis" OR "river blindness" OR "Rabies" OR "Schistosomiasis" OR "Soil-transmitted helminthiases" OR "Taeniasis" OR "Cysticercosis" OR "Trachoma").

- Com controle (47 palavras): ("Buruli Ulcer" OR "Mycobacterium ulcerans Infection" OR "Chagas Disease" OR "South American Trypanosomiasis" OR "Dengue" OR "Dengue Fever" OR "Chikungunya virus" OR "Chikungunya" OR "Dracunculiasis" OR "Dracunculosis" OR "Guinea Worm Infection" OR "Echinococcosis" OR "Hydatid Cyst" OR "Hydatidosis" OR "Cysts, Hydatid" OR" Yaws" OR "Frambesia" OR "Trematoda" OR "Flukes" OR "African Trypanosomiasis" OR "African Sleeping Sickness" OR" Nagana" OR "Leishmaniasis" OR "Leprosy" OR "Hansen's Disease" OR "Filarial Elephantiasis" OR "Lymphatic Filariasis" OR "Bancroftian Elephantiasis" OR "Bancroftian Elephantiasis" OR "Lymphatic Filariasis" OR "Onchocerciasis" OR "Rabies" OR "Hydrophobia" OR "Schistosomiasis" OR "Bilharziasis" OR "Helminthiasis" OR "Nematomorpha Infections" OR "Helminth Infestation" OR "Parasitic Worm Infections" OR "Parasitic Worm Infestations" OR "Vermination" OR "Taeniasis" OR "Taenia Infections" OR "Cysticercosis" OR "Taenia" OR "Trachoma" OR "Egyptian Ophthalmia").

d) busca de informações nas principais bases de dados (Web of Science, Scopus e PubMed) de maneira controlada e não controlada;

e) comparação dos resultados obtidos entre a busca controlada e não controlada;

f) construção de fluxo metodológico para fins de replicação da estratégia metodológica.

Com base nestas etapas, elaborou-se o esquema apresentado na figura 3, evidenciando um processo técnico voltado a pesquisadores de qualquer área do conhecimento que desejarem buscar informações científicas sobre o tema de DTN, seja para finalidade de estudos métricos da informação, ou para a composição de corpus bibliográfico. Abaixo, acrescentou-se a etapa "aplicação de filtros próprios das bases para refinar os resultados obtidos", que está relacionada ao refinamento dos registros recuperados, mediante categorias pré-estabelecidas pelas bases selecionadas para a pesquisa.

A literatura de Medicina Tropical carece de uma delimitação clara sobre quais são as doenças pertencentes ao rol de DTN. Como afirma Camargo, a priori, todas as doenças humanas são tropicais, uma vez que a espécie humana se originou nos trópicos, e, com ela, suas doenças, exceto as doenças que a humanidade foi adquirindo, ao longo de sua história de companheiros de jornada como cães, gatos, roedores, aves e mesmo de parentes próximos, os primatas.1

A título de exemplo, Silva e Domingues lembram que é preciso observar as diferentes dimensões (política, econômica e social) para determinar se uma doença é de fato tropical.26 Em linhas gerais, entende-se que os fatores causadores das doenças são diversos, o que dificulta a determinação da enfermidade enquanto uma "doença tropical". Assim, nota-se que há diversas classificações para o assunto, sendo um processo em constante atualização, haja vista o surgimento frequente de novas doenças. De todo modo, em concordância com Camargo, entende-se que a utilização do termo "doenças negligenciadas" surge como o mais adequado, pois não singulariza os trópicos como fator causador, e remete fortemente à questão da pobreza, que é um fator-chave para a ausência de prevenção e tratamento dessas doenças.1

Desta feita, pensa-se que a sistematização proposta pela OMS é um bom ponto de partida sob o aspecto classificatório das doenças, sobretudo, pela posição egrégia da instituição enquanto fomentadora e incentivadora do conhecimento neste tema. Assim, no processo expresso na figura 3, deu-se preferência ao mapeamento da lista de doenças pertencentes ao rol de DTN a partir da visão da OMS, sendo este, um caminho legítimo a ser percorrido por pesquisadores que desejam obter informações sobre o assunto.

Para solidificar a estratégia de busca, optou-se pela utilização do tesauro do DeCS/BVS. Frequentemente utilizado em trabalhos científicos, destaca-se aqui o estudo de León et al., que utilizaram este instrumento para padronizar os termos, e realizar buscas estruturadas em algoritmos baseados em linguagem booleana,27 similarmente ao presente trabalho.

Com isto, o processo de recuperação da informação se torna mais qualificado, pois além de se basear na classificação de DTN da OMS, ainda adota um tesauro para relacionar termos equivalentes, objetivando ampliar a revocação da consulta. De forma geral, os processos de recuperação são pautados apenas nos termos gerais, tais como "medicina tropical", "saúde tropical" e "doenças tropicais", conforme pode ser visto em trabalho anterior.28 Esta estratégia, conforme criticam os próprios autores pode se mostrar ineficiente por restringir a quantidade de informações recuperadas. O ideal é utilizar além dos termos gerais, os nomes das doenças (termos específicos), seus termos equivalentes (sinônimos), e quando aplicável, os agentes causadores das doenças. Tal estratégia assegura que o máximo de registros será recuperado, evitando a perda de informações pela utilização de uma estratégia de busca restritiva.

Ciente que um dos problemas da recuperação da informação em DTN é a perda de informações pelo uso de expressões de buscas não controladas, buscou-se comparar os resultados das buscas com e sem o uso de um tesauro em termos percentuais (Fig. 4). Para evitar a recuperação de resultados do tema consultado em outros domínios, para além da Medicina, limitou-se a busca em cada base ao domínio mais específico de vínculo do tema. Exemplo: Na Web of Science, foi possível limitar à área de Medicina Tropical; na Scopus, simplesmente à Medicina; e na PubMed, por já ser essencialmente uma base de saúde, optou-se pela não realização delimitações.

Conforme indica a figura 4, a Scopus foi a base que apresentou um aumento mais significativo na recuperação de resultados com o uso dos termos controlados (11,28 %). Em seguida, PubMed (8,92 %) e Web of Science (2,64 %). De forma geral, com a estratégia proposta foi possível obter um incremento na recuperação da informação. Assim, pressupõe-se que a busca sem o uso de um tesauro gera perda de informações, e com o uso de um tesauro gera ganhos, tendo em vista que o tesauro amplia as possibilidades de revocação a partir da indicação de um conjunto de termos sinônimos que representam um determinado tema, e também, certifica que as palavras-chave utilizadas são legítimas e presentes na literatura.

Para pesquisadores interessados nas DTN, tal resultado se revela animador, pois permite: 1) a delimitação conceitual de DTN e a percepção do conjunto de doenças que compõem essa temática; 2) obtenção de palavras-chave equivalentes, suprindo problemas de natureza informacional e linguística que prejudicam a consulta; 3) estratégia para obtenção de metainformações sobre as DTN, que podem ser exportadas para fins bibliométricos, e também; 4) a aquisição de documentos para fins de revisão de literatura, tendo utilidade fundamental para os pesquisadores das Ciências Humanas e Sociais que desejam levantar informações científicas sobre o guarda-chuva das DTN.

 

CONSIDERAÇÕES FINAIS

A estratégia proposta pode ser eficaz, principalmente, para pesquisadores que não possuem domínio da terminologia da área de Medicina Tropical, porém, desejam desenvolver estudos na área. A dificuldade para se obter termos que representassem a produção científica sobre as DTN motivou essa pesquisa, dada a necessidade futura do projeto de coletar as metainformações dos documentos para a realização de estudos métricos envolvendo o tema DTN.

Em suma, Scopus e PubMed apresentaram resultados bastante significativos no que diz respeito às vantagens de utilização de um tesauro para a busca de informações. Não se deve desprezar o resultado alcançado na Web of Science, haja vista que dependendo do contexto dos resultados, um documento pode representar um significativo sucesso para um pesquisador, por isso, o máximo de informações relevantes sobre um determinado tema sempre favorece a uma estratégia eficaz.

Em estudos futuros pretende-se realizar uma análise mais qualitativa dos resultados encontrados, visando entender em quais itens ocorre a perda de informações a partir da análise individual de cada palavra-chave utilizada. Outra estratégia futura é a utilização de outros tesauros para além do DeCS/BVS, sugere-se aqui a exploração mais aprofundada do MeSH ( Medical Subject Headings), vocabulário controlado dos artigos indexados na PubMed, que a propósito, fundamenta o DeCS/BVS.

Por fim, ressalta-se que os resultados foram gerados no início de 2017 e estão fase de aperfeiçoamento a partir do monitoramento e testes em outras bases de dados, no intuito de se construir indicadores ligados à produção científica brasileira e internacional sobre as DTN, inclusive, com o uso da ferramenta ScriptLattes (http://scriptlattes.sourceforge.net/) e de técnicas automáticas de geração e tratamento de palavras-chave que comporão capítulos da tese de doutorado do autor da pesquisa. Assim, os achados aqui expostos orientarão o avanço do projeto, estabelecendo um ponto de partida para a obtenção do corpus a ser estudado.

 

Agradecimentos

Nossa gratidão ao Laboratório Otlet CI da Universidade Federal de Pernambuco e à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) pelo histórico de apoio a este projeto. Especial agradecimento aos avaliadores desta edição que ajudaram a elevar o nível do artigo.

Contribuição dos autores

Todos os autores participaram da elaboração do artigo segundo a ordem de autoria indicada: orientando, orientador e coorientador.

Conflito de interesses

Declaramos que não há conflitos de interesses no presente artigo.

 

REFERÊNCIAS BIBLIOGRÁFICAS

1. Camargo EP. Doenças tropicais. Estudos avançados [internet]. 2008 [citado 10 noviembre 2017];22(64):95-110. Disponible en: http://www.producao.usp.br/handle/BDPI/11791

2. Centers for Diseases Control and Prevention. CDC analysis of data from US territories finds serious birth defects in about 1 in 12 fetuses or infants of pregnant women with Zika infection in the first trimester. United States of America: Department of Health & Human Services; 2017 [citado 10 noviembre 2017]. Disponible en: https://www.cdc.gov/media/releases/2017/p0608-zika-data-first-trimester.html

3. Pedrique B, Strub-Wourgaft N, Some C. The drug and vaccine landscape for neglected diseases (2000–11): a systematic assessment. The Lancet Global Health. 2013;1(6):e371-e9.

4. Sobral NV. Alinhamento da produção científica do programa de pós-graduação em medicina tropical da UFPE às necessidades sociais de saúde tropical em Pernambuco: análise cientométrica [dissertação]. Recife: Universidade Federal de Pernambuco; 2015 [citado 10 noviembre 2017]. Disponible en: http://repositorio.ufpe.br/handle/123456789/13842

5. Griffith BC. Key papers in information science. New York: Knowledge Industry Publ; 1980.

6. Reyes AAM, Peña CN. Methods and trends of biomedical and genomic information retrieval based on semantic relations of thesauri and MeSH. Investigación Bibliotecológica: Archivonomía, Bibliotecología e Información [internet]. 2016 [citado 2 diciembre 2017];30(68):109-23. Disponible en: http://www.sciencedirect.com/science/article/pii/S0187358X16300326

7. Su Y, Andrews J, Huang H, Wang Y, Kong L, Cannon P, Xu P. Reengineering of MeSH thesauri for term selection to optimize literature retrieval and knowledge reconstruction in support of stem cell research. BMC Medical Informatics and Decision Making. 2016 [citado 2 diciembre 2017];16(54):1-10. Disponible en: https://bmcmedinformdecismak.biomedcentral.com/track/pdf/10.1186/s12911-016-0298-z?site=bmcmedinformdecismak.biomedcentral.com

8. Dujardin JC, Herrera S, Rosario V, et al. Research Priorities for Neglected Infectious Diseases in Latin America and the Caribbean Region. PLoS Negl Trop Dis [internet]. 2010 [citado 10 noviembre 2017];4(10). Disponible en: http://dx.doi.org/10.1371/journal.pntd.0000780

9. World Health Organization (OMS). The Millennium Development Goals Report [internet]: United Nations; 2015 [citado 10 noviembre 2017]. Disponible en: http://www.un.org/millenniumgoals/2015_MDG_Report/pdf/MDG%202015%20rev%20(July%201).pdf

10. Sobral NV. Responsabilidade Social e Políticas Públicas no campo da Saúde. Brasil: Imip; 2015. p. 1-32.

11. Gillespie LD, Gillespie WJ. Finding current evidence: search strategies and common databases. Clin Orthop Relat Res. 2003;413:133-45.

12. Manning CD, Raghavan P, Schütze H. Introduction to information retrieval. Cambridge: Cambridge University Press; 2008.

13. Mooers CN. Zatocoding applied to mechanical organization of knowledge. J Assoc Inform Scien Technol. 1951;2(1):20-32.

14. Gey F. Models in Information Retrieval. 19th ACM Conference on Research and Development in Information Retrieval: Proceedings of the 19 th ACM; 1992.

15. Cardoso ONP. Recuperação de Informação. INFOCOMP Journal of Computer Science [internet]. 2004 [citado 10 noviembre 2017];2(1):33-8. Disponível em: http://infocomp.dcc.ufla.br/ojsfiles/journals/1/articles/46/submission/proof/46-1-64-1-10-20140917.pdf

16. Mooers CN. Choice and coding in information retrieval systems. Transact IRE Profess Group Inform Theory. 1954;4(4):112-8.

17. Mooers CN. Zatocoding and developments in information retrieval. Aslib proceedings: MCB UP Ltd; 1956. p. 3-22.

18. Hawkins DT. Bibliometrics of the online information retrieval literature. Online Review. 1978;2(4):345-52.

19. Lopes IL. Uso das linguagens controlada e natural em bases de dados: revisão da literatura. Ciência da Informação. 2002;31(1):41-52.

20. Dodebei VLD. Tesauro: Linguagem de representação da memória documentária. Niterói: Intertexto; 2002.

21. Cintra AM, Tálamo MFGM, Lara MLG, Kobashi NY. Para entender as linguagens documentárias. São Paulo: Polis; 2002.

22. Moreira A, Alvarenga L, Oliveira A. O nível do conhecimento e os instrumentos de representação: tesauros e ontologia. DataGramaZero. Rev Ciênc Inform [internet]. 2004 [citado 27 marzo 2017];5(6). Disponible en: http://www.brapci.inf.br/index.php/article/view/0000007546/48a6a7587e86e3ae4285329027026973

23. Leydesdorff L, Bornmann L. The operationalization of “fields” as WoS subject categories (WCs) in evaluative bibliometrics: the cases of "library and information science" and "science & technology studies". J Assoc Inform Scien Technol. 2016;67(3):707-14.

24. Mayr P, Scharnhorst A. Scientometrics and information retrieval: weak-links revitalized. Scientometrics. 2015;102(3):2193-9.

25. Glänzel W. Bibliometrics-aided retrieval: where information retrieval meets scientometrics. Scientometrics. 2015;102(3):2215-22.

26. Silva PCV, Domingues ALC. Aspectos epidemiológicos da esquistossomose hepatoesplênica no Estado de Pernambuco, Brasil. Epidemiol Serv Saúde. 2011 [citado 10 noviembre 2017];20(3):327-36. Disponible en: http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679-49742011000300007&lng=pt&nrm=iso

27. León LHB, Barrera AAL, Rodríguez AMA, Vega LCE. Análisis de la producción científica publicada entre 2008 y 2013 sobre suicidio en niños, niñas y adolescentes mediante un estudio bibliométrico. Rev Hosp Psiquiátr Habana [internet]. 2015 [citado 10 noviembre 2017];12(2):1-16. Disponible en: http://www.medigraphic.com/pdfs/revhospsihab/hph-2015/hph152i.pdf

28. Sobral NV, Silva FM, Miranda ZD. Perfil da produção científica em Medicina Tropical na América Latina: análise do termo "Tropical Medicine" na Web of Science. Questão. 2017 [citado 10 noviembre 2017];23:31-49. Disponible en: http://www.redalyc.org/pdf/4656/465650499003.pdf

 

 

Recibido: 10 de noviembre de 2017.
Aprobado: 22 de diciembre de 2017.

 

 

Natanael Vitor Sobral. Instituto de Ciência da Informação da Universidade Federal da Bahia. Brasil. Correo electrónico: natanvsobral@gmail.com


* Versão revisada, ampliada e atualizada de trabalho publicado originalmente no XVIII Encontro Nacional de Pesquisa em Ciência da Informação (XVIII ENANCIB/GT11– Informação & Saúde), Marília, SP (Brasil) em 2017.

 



Copyright (c) 2018 Natanael Vitor Sobral, Zeny Duarte de Miranda, Fabio Mascarenhas e Silva

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.