ARTÍCULOS
Elementos
sobre indización y búsqueda de la información por medio de
vocabularios controlados en bases de datos biomédicas
Elements
on indexing and search of information using controlled vocabularies in biomedical
databases
Rubén
Cañedo AndaliaI; María Caridad Small ChapmanII
I
Licenciado en Información Científico-Técnica y Bibliotecología.
Departamento Fuentes y Servicios de Información. Centro Nacional de Información
de Ciencias Médicas-Infomed.
II
Licenciada en Gestión de la Información en Salud. Facultad de Tecnología
de la Salud. Universidad de Ciencias Médicas de Holguín.
Desde las perspectivas de la alfabetización informacional y la búsqueda de la información, existe la imperiosa necesidad de conocer algunos elementos básicos sobre los procesos de indización y recuperación de la información antes de introducir a los alumnos en la búsqueda de la información en bases de datos que ofrecen la posibilidad de explorar sus colecciones mediante vocabularios controlados. Se define la indización y la búsqueda de información; se exponen sus elementos, nociones e importancia y se estudian los tesauros MeSH y su versión en español: el DeCS. El conocimiento de algunos elementos teóricos y prácticos sobre los procesos de indización y recuperación de la información es un escalón importante en la correcta comprensión de la actividad de búsqueda en bases de datos bibliográficas que utilizan vocabularios controlados.
Palabras
clave: Búsqueda de la información, indización, recuperación
de la información.
From the perspective of the literacy and search of the information, there is an urgent need of know some basic elements on the indexing and retrieval of the information before to introduce students in the information search in the databases offering the chance to explore the collections by means of controlled vocabularies. Indexing and search of information is defined, its elements, notions and significance are exposed and MeSH thesaurus is studied and its Spanish version. The knowledge of some theoretical and practical elements on the indexing and retrieval of information is a significant step in the appropriate understanding of the activity of search in bibliographic databases using controlled vocabularies.
Key
words: Search of information, indexing, information retrieval.
Los
lenguajes documentales también llamados de búsqueda informativa
existen desde la creación de las primeras bibliotecas, porque ellos surgen
precisamente cuando el volumen de
documentos depositados en un lugar es tan
alto que impide o hace impracticable la localización de uno o varios de
ellos. Es entonces imprescindible su organización para permitir su localización
en el momento oportuno.
Los primeros lenguajes, aparecidos en los orígenes de la biblioteca, fueron sistemas rudimentarios de clasificación.
Los lenguajes documentales son vocabularios que se utilizan, tanto para organizar los documentos que ingresan a las instituciones de información o sus solicitudes, como para representar sus contenidos. Son, por tanto, herramientas de organización y de recuperación.
Durante el último cuarto del siglo XIX y a lo largo del siglo XX, los sistemas de clasificación bibliográfica y las listas de encabezamiento de materias experimentaron una consolidación progresiva en la práctica de la recuperación de la información. A comienzos del siglo XXI, al parecer, ocurrirán transformaciones sustanciales en relación con dichos lenguajes y nuevas concepciones apuntan hacia los fundamentos teóricos de la indización, la recuperación y el empleo en general de los lenguajes para la búsqueda de la información. Tras algunos años de relativa calma, el debate en torno a las disyuntivas indización controlada versus indización libre y vocabulario controlado versus vocabulario libre ha vuelto a exacerbarse.
En un contexto más particular, relacionado con la alfabetización informacional en salud en Cuba, la experiencia indica que se requiere de un conocimiento previo general sobre los procesos de indización y recuperación de la información antes de introducir a los alumnos en la búsqueda de información en bases de datos que ofrecen la posibilidad de explorar sus colecciones mediante vocabularios controlados. Por eso a continuación, en apretada síntesis, se intentará bosquejar algunos de los elementos básicos necesarios para la comprensión de la búsqueda bibliográfica en bases de datos como PubMed-Medline y Scopus.
ALGUNOS
ELEMENTOS BÁSICOS PARA LA BÚSQUEDA BIBLIOGRÁFICA EN BASES
DE DATOS
LA INDIZACIÓN
La indizacióna busca la identificación y asignación de rubros, descriptores o encabezamientos de materia representativos, en esencia, de los contenidosb principales y secundarios, tratados en un documento con el objetivo de recuperar información sobre un tema determinado.1 Incrementa la relevancia de los resultados de las búsquedas de información en base de datos a partir de la representación precisa del contenido del documento y las solicitudes de información de los usuarios; se enfoca hacia una recuperación temática específica.
Precisamente, por su ostensible dualidad, se estudia de dos maneras:1
La indización es un proceso que implica dos fases:
1. La identificación de los contenidos tratados en el documento objeto de interés.
2. La conversión de las palabras y frases utilizadas en el lenguaje natural para representar una realidad en términos de un lenguaje controlado que pretende elevar la calidad de la recuperación de la información.
Entre los factores determinantes del éxito en la recuperación de información se encuentra el dominio del usuario del vocabulario empleado para representar los documentos de interés y las solicitudes de búsqueda.
Como producto, es una enumeración sucesiva de los diferentes encabezamientos (términos) que expresan el (los) tema(s) contenido(s) en un documento o solicitud. Requiere de la aplicación de criterios uniformes para su ejecución y del establecimiento previo de una lista de términos autorizados en la cual se basa el proceso. Dicho proceso se identifica, de igual modo, con otras denominaciones como asignación de epígrafes y clasificación alfabética por materias.
La
indización es una de las etapas del procesamiento analítico sintético
de la información (organización), que se ubica por su complejidad
intelectual entre la clasificación y la confección de resúmenes.
El producto final de este proceso es generalmente un índice bibliográfico,
una base de datos automatizada o simplemente un catálogo alfabético
de materias manual, indispensables para asegurar el acceso y consulta de la información
a los usuarios. Esta aseveración significa que se toman en cuenta los mismos
criterios para la ejecución. Ellos son exhaustividad, multiplicidad, especificidad,
coherencia, imparcialidad, fidelidad y buen juicio.
Atributos esenciales
En la indización, la especificidad y la exhaustividad constituyen los dos atributos cardinales. Estos son esenciales para determinar la clase de recuperación que se realizará.
La exhaustividad se define por el grado de cobertura que presentan los tópicos o asuntos tratados en los documentos o solicitudes en los resultados de la indización, es decir, en el producto. Cuanto mayor sea la representación de los tópicos expuestos en un documento o solicitud en su indización, mayor será la exhaustividad del proceso. Se expresa cuantitativamente por el número de términos utilizados para realizar la representación. Comprende tópicos centrales y colaterales (principales y secundarios).
Por su parte, la especificidad es el nivel de detalle y exactitud con que se representa cada tópico tratado en un documento o solicitud en la indización. La recuperación de información de manera eficiente requiere de la determinación de los términos más específicos que representan los conceptos presentes en un documento o solicitud. La representación de un concepto particular mediante un término, cuyo significado es más general que el concepto tratado en la entidad que se indiza, conduce a una pérdida de especificidad y, por consiguiente, de información.
LOS TESAUROS
El tesauro es un tipo de vocabulario controlado, compuesto esencialmente por una lista de términos autorizados, que se utilizan para indizar (representar semánticamente) los registros que ingresan a una base de datos o sistema de información, así como las solicitudes de búsqueda que formulan sus usuarios. Es el medio más eficaz para realizar una búsqueda por materia. Sin embargo, los tesauros, como es obvio, son incapaces de reunir el total los conceptos tratados en la literatura especializada. Por esta razón, los índices y los estudios de la frecuencia de empleo de las palabras y frases relacionadas con un tema de interés son fundamentales. Tesauro e índice son herramientas complementarias. De hecho es frecuente el empleo en una búsqueda de vocablos controlados y de palabras y frases del lenguaje natural, o vocablos libres.
Las bases de datos disponen además de un índice alfabético ascendente del total de palabras y frases significativas que contienen sus registros. Para cada palabra, nombre, abreviatura, siglas y otros. El índice relaciona a menudo el número de veces en que éste aparece y el número de registros que le corresponden.
El índice es útil para:
1. Comprobar la ortografía de los términos, conocer sus sinónimos o verificar si la palabra tecleada aparece en la base de datos.
2. Elegir las entradas más apropiadas y eliminar aquellas por las cuales no se desea buscar.
3. Hallar las palabras que con mayor especificidad representan el contenido de una solicitud.
4. Delimitar la búsqueda a los registros de un autor determinado. En ocasiones, en una base de datos se consigna un mismo autor de diferentes maneras (Lowe, HJ o Lowe, Henry J.); al conocerlas todas es posible maximizar los resultados de la búsqueda, como es obvio esto es válido para la exploración por cualquiera de los campos de la base.
5. Combinar de manera automática dos términos relacionados con la búsqueda que se seleccione y crear con ellos una prescripción de búsqueda basada en operador lógico.
6. Usar varios términos de búsqueda con una misma raíz, pues al inspeccionarse los que presentan una raíz común, se pueden elegir todos los que sean relevantes (y obviar los que no lo son, pero poseen la misma raíz), con lo cual se evita la elección de términos no deseados.
El MeSH y el DeCS
En el área de la salud, uno de los tesauros más empleados es el MeSH (Medical Subject Headings - http://preview.ncbi.nlm.nih.gov/mesh), un vocabulario controlado y jerárquico de encabezamientos de materiasc (Headings), elaborado por la Biblioteca Nacional de Medicina de los Estados Unidos. Este, a su vez, presenta una versión en español: el DeCS (Descriptores en Ciencias de la Salud - http://decs.bvs.br/E/homepagee.htm), útil para aquellos usuarios que no dominan la terminología médica en inglés. El DeCS está muy difundido en Latinoamérica y el Caribe. Ambos son totalmente compatibles. Y posibilitan:
El MeSH y el DeCS sugieren relaciones entre los términos a partir de una estructura jerárquica de términos genéricos y específicos, que enlaza términos no autorizados y autorizados, así como los relacionados entre ellos. Los tesauros, al igual que el índice, ayudan a la localización de los términos más específicos. Sus referencias cruzadas remiten de los vocablos no autorizados muchas veces sinónimos o subordinados a los términos autorizados. Los tesauros referidos permiten recorrer una jerarquía de términos en dos direcciones, con vista a delimitar o ampliar los resultados de la búsqueda.
A continuación, sobre la base del criterio de que tanto el conocimiento de los términos del MeSH y el DeCS como de su estructura y organización es determinante para la ejecución eficiente de las búsquedas, se estudiarán una serie de detalles útiles para su empleo.
Los tesauros mencionados disponen básicamente sus términos en tres formas de organización diferentes: alfabética, jerárquica y permutada. La relación alfabética organiza sus elementos en forma ascendente; estos elementos son los descriptores principales y secundarios, subencabezamientos (o calificadores) y referencias cruzadas. Por su parte, en la estructura jerárquica se organizan los términos desde los más genéricos hasta los más específicos (de la A a la Z) y comprende términos y calificadores. La totalidad de los encabezamientos se distribuye en 20 categorías principales que responden a una compleja jerarquía de las especialidades o ramas del saber en el área de la salud (fig.). También se les denomina árboles estructurales.
Finalmente, la lista permutada contiene una relación que abarca, tanto los términos no autorizados como los autorizados y lleva de los primeros a los segundos.
Estos tesauros contienen referencias cruzadas que relacionan a los términos con sus sinónimos o cuasi-sinónimos y ofrecen una especie de definición de cada término denominadas notas de alcance.
Adicionalmente, los tesauros poseen índices permutados de casi todos los términos donde se excluyen los subencabezamientos, cuya función es ayudar a la identificación del término deseado, cuando este no se recuerda o conoce con exactitud. Estos índices contienen una relación alfabética de todas las palabras significativas que son similares o se relacionan con el término.
A
continuación se explican algunos de los términos componentes de
estos vocabularios:
1. Descriptor principal.
Es cualquier término del MeSH o el DeCS que se acepta directamente y sin conversión alguna a otro término y bajo el cual se almacenan las referencias bibliográficas. Aparece destacado tipográficamente en la lista alfabética. Entre los descriptores principales se encuentran algunos denominados especiales, los cuales confieren gran especificidad a la indización y recuperación. Estos tipos especiales de términos nunca designan un concepto desde el punto de vista temático, aunque sí se pueden utilizar para efectuar búsquedas. Ellos son:1
2. Calificador o subencabezamiento.
Es una palabra o frase con la cual se califica un término principal. Comprende aspectos generales frecuentemente utilizados y describe con mayor precisión los temas principales que discute el autor. Como proporciona un nivel adicional de especificidad, permite limitar la recuperación a referencias bibliográficas que traten sobre un aspecto específico de un concepto biomédico; por ejemplo: diagnostico, tratamiento, cirugía, estadísticas, clasificación, etcétera.El calificador se utiliza combinado con el descriptor. Cuando sea posible, es preferible aplicar una combinación encabezamiento/subencabezamiento en lugar de una combinación encabezamiento/encabezamiento para recuperar referencias bibliográficas sobre un aspecto específico de un tema. Es válido subrayar que no se permiten todas las combinaciones descriptor/calificador, porque estas se rigen por ciertas reglas relacionadas con la categoría permisible a cada término.
Se acostumbra a preceder a los calificadores por una diagonal. Entre ellos, es posible citar a modo de ilustración: /epidemiología o /química. El empleo adecuado de los subencabezamientos aumenta el grado de especificidad de las búsquedas.
3. Estructuras jerárquicas.Las estructuras jerárquicas constituyen otro de los recursos disponibles en los lenguajes controlados para lograr especificidad en la búsqueda. Este tipo de organización de los términos posibilita la formulación de solicitudes de búsqueda, amplias o específicas, porque permite la revisión ascendente o descendente una estructura jerárquica hasta localizar el término que nos resulta más representativo del concepto o noción de nuestro interés.
Con el empleo de la estructura jerárquica para hallar el término más específico, se logra mejorar la precisión de la búsqueda, disminuir el número de referencias recuperadas no relevantes. Igualmente, permite ampliar el alcance de la búsqueda y por ende mejorar el recobrado, porque gracias a ella es posible encontrar el término más general.
Es oportuno destacar que los árboles estructurales (estructuras jerárquicas) son valiosos auxiliares en la modificación de la especificidad de la búsqueda y aportan un método para localizar determinado término a partir, únicamente del conocimiento de su área conceptual general.
Los elementos disponibles en el MesH o el DeCS aseguran la especificidad en el proceso de recuperación de información.
4. Referencias cruzadas.
Son términos utilizados para señalar los encabezamientos autorizados establecidos previamente y sirven para remitir de un término a otro: Término de entrada - Término autorizado.
5. Notas de alcance.
Tanto los calificadores como la mayoría de los términos de estos vocabularios contienen una información para definirlos denominada Notas. En el caso de los calificadores sólo presentan notas de alcance, una especie de definición del término que ayuda a seleccionar el subencabezamiento adecuado.
En los encabezamientos, además de las notas de alcance, pueden aparecer notas para los indizadores y personas que realizan búsquedas, notas históricas y notas para efectuar búsquedas automatizadas. Todo este conjunto de datos ofrece una información amplia y muy útil para propiciar tanto la indización como la recuperación.
PROCEDIMIENTO PARA LA INDIZACIÓN CON UN VOCABULARIO CONTROLADO
BÚSQUEDA DE INFORMACIÓN Y BÚSQUEDA BIBLIOGRÁFICA
La búsqueda de información es una secuencia ordenada de pasos, ejecutados con la finalidad de localizar los documentos que contienen cierta información o de entregar datos/información concreta que responde a determinada pregunta. La búsqueda bibliográfica se circunscribe a la identificación, selección, ordenamiento y entrega de las referencias de los documentos y sus enlaces, si están disponibles, al texto completo de ellos.
La búsqueda bibliográfica es una etapa condicionante de la investigación como proceso central de la actividad científica. Puede dividirse en tres etapas principales: planificación, ejecución y evaluación.
La planificación de la búsqueda es una fase esencial, previa a su ejecución y de la que depende, en gran parte, la evaluación de sus resultados. Sin embargo, con frecuencia recibe una escasa atención entre los investigadores como consecuencia de la existencia de una inadecuada concepción sobre la búsqueda bibliográfica que le niega su carácter de investigación documental, con exigencias nada inferiores a los de la investigación histórica, social u otras. Esta insuficiencia se convierte entonces en una de las causas principales de sus pobres resultados de investigación.
El conocimiento de las características de las bases de datos, como son su cobertura temática, documental, geográfica e idiomática; la retrospectividad de la colección y su período de actualizaciónd, entre otros, así como de las facilidades que ofrece su sistema de recuperación: vocabularios controlados (tesauros, encabezamientos de materias), operadores, opciones para restringir la recuperación de resultados (límites), posibilidades para el agrupamiento de los términos (paréntesis o corchetes) y para el truncado, estructura de los campos y otras, son imprescindibles para formular una estrategia de búsqueda moderadamente adecuada. En dependencia de las posibilidades que ofrece el sistema, la estrategia tomará una forma u otra y será necesario trabajar más o menos para conseguir los resultados deseados.
En
la fase de planificación se formulan las necesidades referidas en los términos
y formas que comprende el sistema de recuperación de la información;
a esta formulación se le denomina, indistintamente, prescripción,
condición o estrategia de búsqueda. La estrategia propiamente dicha
abarca el contenido o temática de la necesidad, así como algunos
de sus aspectos formales como son: el idioma, las fechas de publicación,
los tipos de documentos, etcétera.
El recobrado (también llamado sensibilidad), por su parte, se refiere a la capacidad de la estrategia de búsqueda para recuperar la mayor parte posible de los documentos existentes en la base de datos, relacionados con el tema objeto de búsqueda. Finalmente la precisión (también denominada especificidad) se refiere a la capacidad de la estrategia para discernir entre los documentos existentes en la base de datos objeto de exploración, aquellos que mejor responden a la prescripción de búsqueda.
La evaluación de los resultados de la búsqueda depende en gran medida de la intención de quien la realiza. Si el interés es recuperar el mayor número de referencias posible, entonces un alto recobrado será un indicador apropiado para medir la calidad de la exploración. Si lo que se requiere es que los resultados presenten la mayor correspondencia semántica posible con la prescripción de búsqueda, entonces será el nivel de precisión de los resultados el que medirá su calidad como proceso de búsqueda y así sucesivamente. En general, estas nociones son difíciles de determinar, por los volúmenes de información que es necesario manejar y, sobre todo, por el grado de subjetividad que encierran.
Sin
embargo, con frecuencia la necesidad de información como tal no se satisface
solo como resultado de la utilización de una estrategia de búsqueda
eficaz en la recuperación de la información en uno o varios recursos
y requiere a menudo del diseño de un servicio personalizado que considere,
además de los aspectos relativos a la semántica de la necesidad,
los relacionados con la estructura y los requerimientos de la actividad o actividades
profesionales que desempeña el usuario y en el seno de las cuales se originan
las necesidades de información que el servicio pretende satisfacer; las
condiciones en que se realizan estas, así como las características
sociopsicológicas y culturales de quienes se propone servir.3
CONSEJOS ÚTILES PARA AUMENTAR LA PRECISIÓN DE LOS RESULTADOS DE UNA BÚSQUEDA
Existen diversas alternativas para aumentar la precisión o especificidade de los resultados de una búsqueda de información, una vez seleccionada la base de datos más apropiadaf para realizar la búsqueda, entre ellas:
REFERENCIAS BIBLIOGRÁFICAS
1.
Jiménez Miranda J. La indización en el Sistema Nacional de Información
de Ciencias Médicas. Parte I. El Medical Subject Headings (MESH). Acimed.
2001;9(3). Citado 15 de junio de 2010. Disponible
en:
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1024-94352001000300002&lng=es
2. Alfonso Sánchez I, Armenteros Vera I. Indización biomédica. La Habana: Editorial Ciencias Médicas; 2008.
3.
Fernández Valdés MM, Núñez Paula IA. Metodología
para el estudio de las necesidades de información, conocimiento y aprendizaje
en las bibliotecas y centros de documentación de salud. Acimed. 2007;15(4).
Citado 28 de junio de 2010. Disponible en: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1024-94352007000400004&lng=es
Recibido: 27 de junio de 2011.
Aprobado: 9 de julio de 2011.
Lic.
Rubén Cañedo Andalia. Departamento Fuentes y Servicios de
Información. Centro Nacional de Información de Ciencias Médicas-Infomed.
Calle 27 No. 110 e/ N y M, El Vedado. Plaza de la Revolución. Ciudad de
La Habana. Cuba. Correo electrónico: ruben@infomed.sld.cu
b Puede incluir aspectos relacionados con la forma del documento, el tipo de artículo del que se trata u otros aspectos.
c Un encabezamiento de materia es un término controlado similar a un descriptor. La diferencia entre ellos radica en su amplitud semántica. Un descriptor con frecuencia es un término más específico; y por eso, comprende un contenido menor que el que abarca un encabezamiento de materia. A pesar de esto, en muchas ocasiones es imposible determinar si un término controlado pertenece a una u otra categoría.
d Es el período que transcurre desde el momento de la publicación de la contribución hasta la aparición de su referencia en la base de datos.
e Los aspectos tratados en el acápite titulado Procedimiento para la indización con un vocabulario controlado son útiles para esta sección del documento.
fEn esta selección debe atenderse especialmente al tipo de base de dato (bibliográfica, factográfica, textual u otra); su accesibilidad (libre o por suscripción); su cobertura (temática, documental, geográfica, idiomática, etc.), así como la consistencia, adecuación y facilidades que ofrece su interfaz de búsqueda.
g El campo de palabras claves de algunas bases de datos, como Scopus, abarca también los términos de indización del registro, es decir, los términos controlados. En este caso, palabras puede hacer referencia al nombre de un autor, de una revista, de una sustancia u otros. Buscar por ejemplo, el nombre de un autor o de una sustancia en el texto completo de un registro puede llevarnos a resultados irrelevantes como la biografía o el obituario de una persona llamada igual al autor que buscamos o a que el documento recuperado solo mencione la sustancia pero no trate sobre su empleo.
h Recuérdese el ejemplo sobre las ataxias.
i En PubMed-Medline, [MJ], principales, y [MN], secundarios. En Scopus, no es posible diferenciarlos.
j Obsérvese, 4 x 5 + 3 = 23 y 4 x (5 + 3) = 32.