ARTÍCULO ORIGINAL
Descubrimiento
de interacciones farmacológicas en MEDLINE con el uso de medidas de centralidad
Searching
for drug interactions in MEDLINE with the use of measures of centrality
Carmen Gálvez
Departamento Información y Comunicación. Universidad de Granada, España.
En este trabajo se propone una aproximación para la identificación y la predicción de interacciones farmacológicas en la literatura biomédica mediante el uso de medidas de centralidad. Las interacciones farmacológicas están provocadas por alteraciones del efecto de un fármaco. Los especialistas en salud cuentan con bases de datos farmacológicas en las que se proporciona información sobre dichas interacciones. Sin embargo, la cobertura de dichas bases de datos es limitada. Por tanto, la literatura biomédica sigue siendo la fuente de información científica por excelencia. El método utilizado para la identificación de tales interacciones se ha basado en análisis de redes y técnicas de visualización de la información. Partiendo de un conjunto de fármacos extraídos de la base de datos MEDLINE, aplicamos las métricas de grado, cercanía e intermediación para clasificar los fármacos en la red. Los resultados a los que se ha llegado muestran que la centralidad de intermediación constituye la medida más adecuada para identificar y predecir nuevas interacciones. La conclusión es que las interacciones farmacológicas, descubiertas con el procedimiento propuesto, podrían ser buenas candidatas para posteriores análisis experimentales en los que se comprobara su relevancia clínica. Además, este mismo procedimiento se podría utilizar en los procesos de curación de contenido en las bases de datos farmacológicas.
Palabras clave: análisis de redes; medidas de centralidad; interacciones farmacológicas.
ABSTRACT
The paper proposes an approach to the identification
and prediction of drug interactions in biomedical literature using measures
of centrality. Drug interactions are caused by alterations in the effect of
a drug. Health specialists have pharmacological databases at their disposal
in which information is provided about such interactions. However, because such
databases have a limited scope, biomedical literature continues to be the source
of scientific information par excellence. The method used to identify such interactions
was based on network analysis and information visualization techniques. Degree,
closeness and betweenness metrics were applied to a set of drugs extracted from
the database MEDLINE with the purpose of classifying the drugs in the network.
The results obtained show that the centrality of betweenness is the most appropriate
measure to identify and predict new interactions. The conclusion is that the
drug interactions revealed by the procedure proposed could be good candidates
for further experimental analysis aimed at verifying their clinical relevance.
The procedure could also be used for the content curation of drug databases.
Key words: network analysis; measures of centrality; drug interactions.
INTRODUCCIÓN
Las interacciones farmacológicas están provocadas por modificaciones o alteraciones del efecto de un fármaco, causadas por la administración simultánea o sucesiva de otro fármaco, pero también a través de plantas medicinales, alimentos, bebidas o contaminantes ambientales.1 Esta modificación suele traducirse en una variación de la intensidad, aumento o disminución del efecto habitual o en la aparición de un efecto distinto al esperado. El riesgo de aparición de una interacción aumenta en función del número de fármacos administrados al mismo tiempo a un paciente. Si un paciente que toma dos fármacos ve aumentado el efecto de uno de ellos se puede caer en una situación de sobredosis y, por tanto, de mayor riesgo de que aparezcan efectos secundarios. Aunque la incidencia de la interacción es difícil de determinar, se relaciona fundamentalmente con el número de fármacos administrados conjuntamente al mismo paciente.2-3 Conocer las interacciones de interés clínico y sus mecanismos de producción podría ayudar a identificarlas y prevenirlas. Por otra parte, la investigación y el desarrollo de medicamentos requieren esfuerzos coordinados de múltiples disciplinas y especialidades médicas, como la genómica, la epidemiología, la química farmacéutica o la farmacología. Todas estas disciplinas se conectan en proyectos de gran complejidad que permiten avanzar desde el descubrimiento de nuevas dianas terapéuticas hasta la puesta en el mercado de nuevos medicamentos.
Para la identificación de interacciones, los profesionales de la salud cuentan con distintas bases de datos, que incluyen además información sobre el mecanismo de acción y gravedad de las posibles reacciones adversas, tales como: Hansten y Horn,4 Lexi-Comp,5 Facts & Comparisons,6 Medscape,7 Thomson Micromedex8 o Medinteract.9 Estas bases de datos se forman básicamente por medio de la extracción de datos de las publicaciones científicas. Estos pasan por un proceso de filtrado, transformación, curación y anotación manual. El reconocimiento y clasificación de nombres de fármacos constituye el primer paso para el desarrollo de un sistema que permita la extracción automática de interacciones farmacológicas de la literatura biomédica.10 Cada dato requiere habitualmente de un código de identificación tanto para citarlo en publicaciones, como para retomar la estructura básica de cómo se generó dicha información.
Sin embargo, en diversos trabajos realizados, se ha demostrado que la calidad de las bases de datos de interacciones es muy desigual, y en consecuencia es muy difícil concretar la relevancia clínica de cada una de las interacciones. Además, la cobertura de estas bases datos, que proporcionan información extraída manualmente de la literatura, es limitada. Frente a esta situación, los textos biomédicos constituyen el principal recurso para obtener información sobre nuevas interacciones.11 La base de datos MEDLINE, con más de 22 millones de citas, se ha convertido en la fuente de información biomédica más utilizada. Sin embargo, a pesar de la accesibilidad a este recurso, la extracción automatizada de información útil sigue suponiendo un desafío, ya que los textos y resúmenes están en lenguaje natural.
En este trabajo, partimos de que una gran cantidad de asociaciones entre determinadas entidades biomédicas se encuentra dispersa en la literatura, por esta razón nuestra principal hipótesis es que el análisis sistemático de tales datos heterogéneos nos permitiría inferir nuevas relaciones entre diferentes entidades farmacológicas. El descubrimiento y la predicción de posibles asociaciones entre estas entidades sería de gran utilidad en los procesos de curación de contenidos de las bases de datos de interacciones farmacológicas, además las interacciones descubiertas serían buenas candidatas a posteriores análisis experimentales para comprobar su relevancia clínica.
MÉTODOS
Para la extracción e identificación de interacciones basadas en la literatura médica vamos a utilizar métodos propios de la minería de textos y del lenguaje matemático, como son el álgebra relacional y la teoría de grafos. Dentro de estos procedimientos se encontrarían los métodos basados en el análisis de co-ocurrencias, y el análisis de redes. Nuestra propuesta para la identificación de interacciones se descompone básicamente en tres pasos:
El material que utilizamos en este estudio, como fuente de datos, fueron 5 754 resúmenes extraídos de la base de datos MEDLINE12 mediante la siguiente estrategia de búsqueda: términos MeSH "drug interactions" and "Humans" y calificadores MeSH "Adverse effects". El corpus se limitó al periodo 2004-2014 y al tipo de publicación Journal Article.
El primer paso para la construcción de una red de fármacos extraídos de la literatura biomédica consistió en la construcción de un matriz de coocurrencia de fármacos. Se entiende por coocurrencia de palabras-clave la aparición conjunta de dos términos en un corpus textual dado. Esta técnica se encarga de analizar el contenido de un texto a partir de la ocurrencia conjunta de pares de ítemes, representados aquí por términos o palabras, que permiten identificar relaciones entre conceptos dentro de un determinado dominio. Cuanto mayor sea la frecuencia de aparición conjunta de las palabras, mayor será su vinculación conceptual. Para realizar el análisis de coocurrencia se deben seguir una serie de técnicas que consisten en extraer las palabras representativas de los términos de la base de datos; a continuación, habría que construir una matriz de coocurrencia que permitiría realizar el análisis posterior. Siguiendo este modelo, en este trabajo se ha identificado la coocurrencia de nombres de fármacos que aparecen en el campo Título (TI) a partir de los registros extraídos de la base de datos MEDLINE. A continuación, se generó una matriz cuadrada de N x N elementos, donde N es el nombre de fármaco a representar, a partir de las veces que ocurre en los documentos. El resultado es una matriz de coocurrencias que refleja el número de veces que un par de nombres de fármacos conjuntamente en dos documentos.
El paso siguiente fue examinar las relaciones con técnicas de análisis de redes (AR), network analysis, también denominado análisis estructural centra su atención en el análisis de las relaciones existentes entre distintas entidades.13 Este método permite reconocer las relaciones entre determinadas unidades para plasmarlas en un mapa que facilite la identificación de las relaciones que se pretenden identificar. Desde esta perspectiva, la relación entre un par de entidades sería una propiedad del par, es decir, de la relación y no una cuestión inherente a las características individuales de cada uno de las entidades relacionadas. Siguiendo con nuestra hipótesis, estas relaciones podrían ayudarnos a identificar e inferir interacciones en el dominio farmacológico. El análisis estructural se fundamentaría empíricamente en: la creación y desarrollo de una matriz de relaciones y la construcción de grafos. Los datos son relacionales, entendiendo por dato relacional un vínculo específico existente entre un par de elementos.
Desde la perspectiva del AR, la relación centralidad de un nodo en la red define la importancia de ese nodo en el grafo. El concepto de centralidad se refiere a la posición de los nodos en las redes, y la centralización al conjunto de la estructura de una red. La manera según la cual la centralidad sea definida dependerá de la medida que adoptemos y de lo pretendamos obtener en una aplicación empírica. Para valorar adecuadamente los componentes del grafo se han aplicado tres medidas de centralidad que son las más comúnmente utilizadas en el análisis de redes:14-15
La centralidad de grado se usaría para medir el número de lazos de un nodo en la red, la cercanía se usaría para medir las distancias más cortas desde un nodo hacia todos los demás de la red, y la intermediación se usaría para medir si un nodo se encuentra entre otros dos nodos en la red. Estas son las tres propiedades estructurales más importantes para caracterizar a los miembros de una red:16,17
Utilizando las medidas anteriores, en el método de análisis reticular un nodo con un grado de centralidad elevado ocupará posiciones centrales, se hará especialmente visible y se convertirá en un elemento importante para la interconexión entre los nodos de la red. Cuanto más elevada sea su centralidad por cercanía, mayor será su capacidad de interacción con el resto de áreas. Cuanto mayor sea su valor de intermediación, más capacidad tendrá para actuar como punto de interconexión entre dos nodos de la red. La elección de cada medida de centralidad dependerá de lo que se busca analizar en una red. En este trabajo pretendemos descubrir (o inferir) posibles interacciones en la literatura biomédica. Con nuestro planteamiento, la aplicación de las medidas de centralidad nos va a permitir:
Para la obtención de los valores de centralidad hemos utilizado el software Gephi.18 A su vez, los resultados del análisis de la coocurrencia de fármacos se pueden visualizar con un muchos métodos y técnicas, pero en este trabajo hemos seleccionado dos formas: 1) a través de un grafo o red bibliométrica, en la que se muestran los elementos y las relaciones entre los nombres de fármacos, drug-drug network, y 2) a través de un mapa bibliométrico, basado en un proceso de agrupamiento para localizar los grupos o clústeres de fármacos que están fuertemente relacionados entre sí; es decir, mediante un proceso automático que clasifica conglomerados de datos, clusters, según la similitud o similaridad que existan entre ellos.19,20 En este trabajo la red bibliométrica de fármacos se crea utilizando la herramienta Gephi,18 y el mapa bibliométrico se crea aplicando algoritmos de clustering y técnicas VOS (visualization of similarities) utilizando el software VOSviewer.19,20
Por último, dada la dificultad y la especificidad del tipo de relaciones que estamos analizando, para comprobar las interacciones detectadas y el descubrimiento de posibles interacciones hemos usado la base de datos de interacciones farmacológicas Medscape.7
RESULTADOS Y DISCUSIÓN
A partir del cálculo de coocurrencia de los nombres de fármacos en el campo Título (TI) se obtuvo una matriz cuadrada de datos que fue representada por medio del procedimiento de análisis de redes. Los resultados del análisis de los nombres de fármacos extraídos de los documentos pueden visualizarse en una red o grafo de fármacos, en la que dos términos estarán conectados si ambos aparecen en los mismos documentos. Sobre esta red se aplicaron las distintas métricas de centralidad (tabla 1). La red de asociaciones entre fármacos quedó conformada por 53 nodos y 93 líneas o relaciones (fig. 1).
Para la visualización de los principales grupos de fármacos en un mapa bibliométrico se utilizó la herramienta VOSviewer.19 De los diferentes tipos de representaciones que permite este software seleccionamos mapas de densidad, o mapas de color, en los que cada nodo en el mapa se representa con un color que va del rojo al azul, reflejando la densidad de las relaciones entre los nombres de fármacos y su distribución espacial: cuanto mayor es la coocurrencia entre los nombres de fármacos, la tonalidad se acerca al rojo, y cuanto menor es la coocurrencia el color se aproxima al azul, lo que indicaría una mayor dispersión (fig. 2). La agrupación de los nombres de fármacos seleccionados dio lugar a diez clusters (tabla 2).
La primera observación sobre los resultados de este análisis es la existencia de subredes claramente definidas y sin conexión, que podría indicar que hay grupos de fármacos que no interaccionan entre ellos. Se realizó la comprobación en la base de datos Medscape7 y se confirmó la falta de relación entre los fármacos de las subredes sin conexión. Es necesario aclarar que no se analizó la red global porque no está dentro de los objetivos de este trabajo, en el que intentamos probar una hipótesis y no descubrir relaciones con unos fines concretos. Así, adentrándonos en el análisis particular de un conjunto de entidades farmacológicas para comprobar la evidencia de las posibles interacciones, se decidió seleccionar un grupo de fármacos conectados y analizarlo de forma detallada. El grupo seleccionado (G2) está formado por los siguientes ítems: warfarin, aspirin, digoxin, anticoagulant, antibiotics, capecitabine, phenprocoumon, metformin y acarbose. Los resultados de la aplicación de las diferentes medidas de centralidad a este grupo de fármacos aparecen en la tabla 3. La red de asociaciones entre fármacos quedó conformada por 9 nodos y 10 líneas o relaciones (fig. 3).
El mapa de densidad de este grupo de fármacos (fig. 4) refleja que el nombre de fármaco warfarin es el que mayor densidad de relaciones entre este grupo de fármacos; es decir, es el que mayor coocurrencia entre este grupo de fármacos seleccionado. A continuación, se procedió a analizar las propiedades estructurales en cada uno de los nodos de esta subred. Para comprobar los resultados obtenidos, consultamos previamente la base de datos de interacciones farmacológicas Medscape7 (tabla 4).
Dentro del agrupamiento G2 destaca de manera significativa el fármaco warfarin con un mayor valor de centralidad de grado con respecto a otros nodos que los componen. Hemos comprobado que las relaciones obtenidas con la métrica de centralidad de grado coinciden en su mayor parte con las que aparecen en la base de datos Medscape.7 Aún así, hay relaciones no-detectadas en dicha base de datos que podrían ser inferidas como warfarin+anticoagulant, warfarin+antibiotics, aspirin+anticoagulant, phenprocoumon+metformin. Esto significaría, según nuestro planteamiento, que el análisis de redes y la medida de centralidad de grado se podría utilizar para ratificar y descubrir posibles interacciones no-detectadas previamente.
RESULTADOS CENTRALIDAD DE CERCANÍA
Con esta métrica global se ha medido la centralidad de una entidad farmacológica en relación con las conexiones con el conjunto de miembros de la red. Chequeamos las posibles interacciones de los resultados obtenidos en Medscape.7 Comprobamos que los fármacos de la subred analizada interaccionan entre ellos, y no con otros fármacos de la red. Además, los valores de todos los nodos de la subred son similares. Dichos valores se interpretarían como falta de interacción con los otros fármacos de la red en su globalidad. Al tratarse de un grupo de fármacos dentro de una subred sin conexión con otras, esta métrica no aporta valores significativos para el descubrimiento de posibles inferencias sobre interacciones no identificadas.
RESULTADOS CENTRALIDAD DE INTERMEDIACIÓN
Utilizando esta métrica se ha cuantificado la frecuencia con la que un nodo actúa como "puente" entre dos nodos; es decir, mediría la frecuencia con la que un nodo aparece en el camino más corte entre nodos de la red de fármacos. En la subred que estamos analizando, los fármacos warfarin y metformin establecen conexiones entre los nodos separados y podrían ser utilizados para descubrir interacciones no detectadas en la base de datos Medscape.7 En la tabla 5 se muestran las posibles inferencias sobre interacciones que no se han detectado en la base de datos que estamos tomando como referencia. Según nuestro planteamiento, la Centralidad de Intermediación se trataría de la métrica más eficaz para descubrir interacciones en la literatura biomédica. Por lo tanto, la aplicación de esta medida nos permitirá predecir posibles interacciones desconocidas. En todo caso, las interacciones descubiertas requerirán un posterior análisis experimental para comprobar su relevancia clínica.
CONCLUSIONES
Las bases de datos en el área farmacológica se forman por medio de la extracción de información de las publicaciones científicas. Esa información pasa por un proceso de filtrado, transformación, curación de contenidos y anotación manual. Sin embargo, muchas veces la cobertura de dichas bases de datos es limitada. Por eso, la literatura biomédica sigue siendo la fuente de información científica por excelencia. El análisis automático de la literatura sigue siendo un reto, no solo en el área de la Ciencia de la Información, sino también en la Biomedicina, la Bioinformática y la Farmacología. Si bien muchos de los métodos de extracción de información disponibles actualmente nos permiten localizar la documentación que cada investigador necesita y busca, no resultan suficientes para llegar a realizar un análisis en profundidad que aporte una visión integral. Con la perspectiva de un incremento de las publicaciones, es cada vez más evidente la necesidad de desarrollar sistemas que vayan más allá de una sencilla búsqueda documental. En este trabajo hemos presentado una nueva aproximación para descubrir y predecir posibles interacciones farmacológicas basadas en medidas de centralidad. La identificación de tales interacciones se podría utilizar en los procesos de curación de contenidos de las bases de datos farmacológicas.
Partiendo de un conjunto de entidades farmacológicas extraídas de la base de datos MEDLINE, en nuestra propuesta hemos aplicado las métricas de grado, la cercanía e intermediación para inferir posibles interacciones. Además, hemos clasificado dichas entidades en redes y mapas bibliométricos. Finalmente, para la validación de los datos obtenidos hemos recurrido a la base de datos de interacciones farmacológicas Medscape.7 Los resultados muestran que: 1) la centralidad de grado confirmaría que las posibles interacciones detectadas ya están identificadas en la bases de datos de interacciones farmacológicas; 2) la centralidad de cercanía no aporta resultados relevantes; y 3) la centralidad de intermediación es la medida más adecuada para inferir interacciones no detectadas previamente en las bases de datos de interacciones farmacológicas. El paso siguiente, dada la complejidad y la especialización de la información que hemos tratado, sería validar y comprobar la relevancia clínica de las interacciones descubiertas por medio de posteriores estudios experimentales. Por otra parte, es necesario mencionar que los resultados se han producido solo en un conjunto muy restringido de datos, ya que nuestro interés, desde la Ciencia de la Información, es solo ofrecer una nueva aproximación metodológica en un área muy específica que requerirá mucha más investigación futura.
REFERENCIAS BIBLIOGRÁFICAS
1. Stockley I. Interacciones Farmacológicas. Barcelona: Pharma Editores; 2004.
2. Amariles P, Giraldo NA, Faus MJ. Interacciones medicamentosas: aproximación para establecer y evaluar su relevancia clínica. Med Clín. 2007;129(1):27-35.
3. Rodríguez-Terol A, Santos-Ramos B, Caraballo-Camacho M, Ollero-Baturone M. Relevancia clínica de las interacciones medicamentosas. Med Clín. 2008;130(19):758-59.
4. Hansten PD, Horn JR. Drug interactions: analysis and management. St Louis: Facts and Comparisons; 2007.
5. Lacy CF, Armstrong LL, Goldman MP, Lance LL. Drug information handbook with international trade names index. Lexi-Comp Inc.; 2007.
6. Medscape. Drug Interaction Checker. 2015 [citado 20 de octubre de 2015]. Disponible en: http://reference.medscape.com/drug-interactionchecker
7. Thomson Micromedex. Drug Information for the Health Care Professional. 2007 [citado 20 de octubre de 2015]. Disponible en: http://micromedex.com/training
8. Girona L. Interacciones farmacológicas. Pharmaceutical Care España. 2013;15(3):105.
9. Gálvez C. Reconocimiento y anotación de nombres de fármacos genéricos en la literatura biomédica. Rev Cubana Inform Cienc Sal. 2012;23(4):326-45.
10. Minh VL, McCart GM, Tsourounis C. An assessment of free, online drug -drug interaction screening programs (DSP). Hospital Pharmacy. 2003;38(7):662-8.
11. MEDLINE. EE.UU. Nacional Library of Medicine. 2015 [citado 20 de octubre de 2015]. Disponible en: https://www.nlm.nih.gov
12. Wasserman S, Faust K. Social network analysis: Methods and applications. New York: Cambridge University Press; 1994.
13. Freeman LC. A set of measures of centrality based on betweenness. Sociometry. 1997;40:35-41.
14. Hanneman RA, Riddle M. Introduction to social network methods. Riverside: University of California Press; 2005.
15. Newman MEJ. The structure and function of complex networks. SIAM Review. 2003;45:167-256.
16. Freeman LC. Centrality in social networks: conceptual clarification. Social Networks. 1979;1:215-39.
17. Bastian M, Heymann S, Jacomy M. Gephi: an open source software for exploring and manipulating networks. ICWSM. 2009;6:361-2.
18. Van Eck NJ, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping. Scientometrics. 2010;84(2):523-38.
19. Waltman L, Van Eck NJ, Noyons ECM. A unified approach to mapping and clustering of bibliometric networks. J Informetr. 2010;4(4):629-35.
20. Everitt B. Cluster Analysis. New York: Halsted Press; 1980.
Recibido: 19 de
octubre de 2015.
Aprobado: 7 de diciembre de 2015.
Carmen Gálvez.
Departamento Información y Comunicación. Universidad de Granada,
España. Correo electrónico: cgalvez@ugr.es