Caracterización de un corpus extraído de historias clínicas electrónicas de maternas a través de técnicas de procesamiento de lenguaje natural
Resumen
Este artículo tuvo como propósito caracterizar el texto libre disponible en una historia clínica electrónica de una institución orientada a la atención de pacientes en embarazo. La historia clínica electrónica, más que ser un repositorio de datos, se ha convertido en un sistema de soporte a la toma de decisiones clínicas. Sin embargo, debido al alto volumen de información y a que parte de la información clave de las historias clínicas electrónicas está en forma de texto libre, utilizar todo el potencial que ofrece la información de la historia clínica electrónica para mejorar la toma de decisiones clínicas requiere el apoyo de métodos de minería de texto y procesamiento de lenguaje natural. Particularmente, en el área de Ginecología y Obstetricia, la implementación de métodos del procesamiento de lenguaje natural podría ayudar a agilizar la identificación de factores asociados al riesgo materno. A pesar de esto, en la literatura no se registran trabajos que integren técnicas de procesamiento de lenguaje natural en las historias clínicas electrónicas asociadas al seguimiento materno en idioma español. En este trabajo se obtuvieron 659 789 tokens mediante los métodos de minería de texto, un diccionario con palabras únicas dado por 7 334 tokens y se estudiaron los n-grams más frecuentes. Se generó una caracterización con una arquitectura de red neuronal CBOW (continuos bag of words) para la incrustación de palabras. Utilizando algoritmos de clustering se obtuvo evidencia que indica que palabras cercanas en el espacio de incrustación de 300 dimensiones pueden llegar a representar asociaciones referentes a tipos de pacientes, o agrupar palabras similares, incluyendo palabras escritas con errores ortográficos. El corpus generado y los resultados encontrados sientan las bases para trabajos futuros en la detección de entidades (síntomas, signos, diagnósticos, tratamientos), la corrección de errores ortográficos y las relaciones semánticas entre palabras para generar resúmenes de historias clínicas o asistir el seguimiento de las maternas mediante la revisión automatizada de la historia clínica electrónica.
Palabras clave: Procesamiento de lenguaje natural; historia clínica electrónica; aprendizaje de máquina; word embedding; redes neuronales artificiales.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Aquellos autores que tengan publicaciones con esta revista, aceptan los términos siguientes:
- Los autores conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Licencia Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) que permite a terceros compartir la obra siempre que se indique su autor y su primera publicación esta revista.
- Los autores podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un repositorio institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
- Se permite y recomienda a los autores difundir su obra a través de Internet (p. ej.: en repositorios institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto). En ese caso, solicitamos que en la cabecera del manuscrito se indique:"Esta es una versión preprint enviada a la Revista Cubana de Información en Ciencias de la Salud http://rcics.sld.cu/"
ENGLISH VERSION
AUTHORS WITH PUBLICATIONS IN THIS JOURNAL ACCEPT THE FOLLOWING TERMS:
- Authors will retain their copyright and will grant the Journal the right of first publication of their work, which will also be subject to a Creative Commons License Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) allowing third parties to share the work as long as the author's name and data about initial publication in this Journal are stated.
- Authors may adopt other license agreements for non-exclusive distribution of the version of the work published (e.g. deposit it in an institutional repository or publish it in a monographic volume), as long as initial publication in this Journal is indicated.
- It is permitted and recommended for authors to disseminate their work on the Internet (e.g. in institutional repositories or their web page) before and during the submission process, which may result in interesting exchanges and increase the number of citations of the published work) (see The effect of open access).