Por: John Roach
Los investigadores biomédicos han adoptado la inteligencia artificial para acelerar la implementación de tratamientos de cáncer dirigidos a los perfiles genómicos específicos de los pacientes, un tipo de medicina de precisión que en algunos casos es más efectiva que la quimioterapia tradicional y tiene menos efectos secundarios.
El potencial para esta nueva era de tratamiento del cáncer se deriva de los avances en tecnología de secuenciación del genoma, que permite a los investigadores descubrir de manera más eficiente las mutaciones genómicas específicas que impulsan al cáncer, y una explosión de investigación en el desarrollo de nuevos medicamentos que apuntan a esas mutaciones.
Para aprovechar este potencial, los investigadores en The Jackson Laboratory, una institución independiente y sin fines de lucro de investigación biomédica, también conocida como JAX y ubicada en Bar Harbor, Maine, desarrolló una herramienta que ayuda a las comunidades globales médicas y científicas a mantenerse al tanto del creciente volumen de datos generados por los avances en la investigación genómica.
La herramienta, llamada Clinical Knowledge, o CKB, es una base de datos con motor de búsqueda donde los expertos en la materia almacenan, clasifican e interpretan complejos datos genómicos para mejorar los resultados del paciente y comparten información sobre pruebas clínicas y opciones de tratamiento.
El desafío está en encontrar la información más relevante relacionada con el cáncer de los cerca de 4 mil documentos de investigación biomédica publicados cada día, de acuerdo con Susan Mockus, directora asociada de desarrollo clínico del mercado genómico con el instituto de medicina genómica de JAX en Farmington, Connecticut.
“Debido a que hay muchos datos y tantas complejidades, sin la adopción y la incorporación de inteligencia artificial y aprendizaje automático para ayudar en la interpretación de los datos, el progreso sería lento”, comentó.
Es por eso que Mockus y sus colegas en JAX colaboran con científicos computacionales que trabajan en el Proyecto Hanover de Microsoft que desarrollan tecnología IA que permite a las máquinas leer complejos documentos médicos y de investigación y resaltan la importante información que estos contienen.
Si bien esta tecnología de lectura automática se encuentra en las primeras etapas de desarrollo, los investigadores han encontrado que pueden conseguir progreso al limitar el enfoque hacia áreas específicas como oncología clínica, de acuerdo con Peter Lee, vicepresidente corporativo de Microsoft Healthcare en Redmond, Washington.
“Para algo que en verdad importa como el tratamiento del cáncer donde hay miles de nuevos documentos de investigación publicados cada día, tenemos una verdadera oportunidad de que la máquina los lea todos y ayude a una junta de especialistas en cáncer a responder preguntas sobre la investigación más reciente”, mencionó.
La curaduría de CKB
Mockus y sus colegas utilizan la tecnología de lectura automática de Microsoft para realizar curaduría de CKB, que almacena información estructurada sobre mutaciones genómicas que impulsan al cáncer, medicamentos dirigidos a los genes del cáncer y la respuesta de los pacientes a estos.
Una aplicación de esta base de conocimiento permite a los oncólogos descubrir qué, si las hay, coincidencias existen entre las mutaciones genómicas conocidas relacionadas con el cáncer de un paciente y los medicamentos dirigidos a estas, a medida que exploran y sopesan las opciones de tratamiento, incluida la inscripción a ensayos clínicos para medicamentos en desarrollo.
Esta Información también es útil para investigadores translacionales y clínicos, acotó Mockus.
El cuello de botella se encuentra en el filtrado de más de 4 mil documentos publicados cada día en revistas biomédicas para encontrar el subconjunto de alrededor de 200 relacionados con el cáncer, leerlos y actualizar CKB con la información relevante sobre la mutación, el medicamento y la respuesta del paciente.
“Lo que quieres es algún grado de inteligencia incorporada al sistema que pueda salir y no solo ser eficiente, sino que también sea efectiva y relevante en términos de cómo puede filtrar información. Eso es lo que ha hecho Hanover”, comentó Auro Nair, vicepresidente ejecutivo de JAX.
El núcleo de Project Hanover de Microsoft es la capacidad de peinar miles de documentos publicados cada día en la literatura biomédica y etiquetar y clasificar todos los que sean relevantes de manera potencial para los investigadores de cáncer, que destaquen, por ejemplo, información sobre genes, mutación, drogas y respuesta del paciente.
Los curadores humanos que trabajan en CKB son entonces liberados para enfocarse en los documentos de investigación etiquetados, para validar la precisión de la información resaltada.
“Nuestra meta es darles un superpoder a los curadores humanos”, comentó Hoifung Poon, director de procesamiento de lenguaje natural de salud de precisión con la organización de investigación de Microsoft en Redmond y líder del Proyecto Hanover.
“Con el lector automático, podemos sugerir que este podría ser un caso donde un documento habla sobre una relación de mutación medicamento-gen que te interesa”, explicó Poon. “El curador puede ver este contexto y, en minutos, decir, ‘Es justo lo que quiero’, o ‘Esto es incorrecto’”.
Auto supervisión
Para conseguir éxito, Poon y su equipo necesitan entrenar a los modelos de aprendizaje automático de tal manera que capten toda la información relevante a nivel potencial – y asegurar que no hay lagunas en el contenido – y, al mismo tiempo, eliminar la información irrelevante lo suficiente como para hacer más eficiente el proceso de curación.
En las tareas tradicionales de lectura automática como encontrar información sobre celebridades en noticias, los investigadores tienden a enfocarse en relaciones contenidas dentro de una sola oración, como el nombre de la celebridad y una nueva película.
Dado que este tipo de información se extiende a través de las noticias, los investigadores pueden omitir casos que son más desafiantes, como cuando el nombre de la celebridad y la película son mencionados en párrafos separados, o cuando la relación involucra más de dos piezas de información.
“En biomedicina no puedes hacer eso, porque tal vez tu descubrimiento más reciente sólo aparece en solo este documento y si te lo saltas, puede ser de vida o muerte para este paciente”, explicó Poon. “En este caso, tienes que hacer frente a algunos de los difíciles desafíos lingüísticos que tienes enfrente”.
Poon y su equipo han tomado lo que llaman un enfoque de autosupervisión al aprendizaje automático en el cual el modelo anota de manera automática ejemplos de entrenamiento de texto sin etiquetar al aprovechar el conocimiento previo en bases de datos y ontologías existentes.
Por ejemplo, una iniciativa del Instituto Nacional del Cáncer compiló información de manera manual de la literatura biomédica sobre cómo los genes se regulan entre ellos, pero no fue capaz de mantener el esfuerzo más allá de dos años. El equipo de Poon utilizó el conocimiento compilado para etiquetar documentos de manera automática y entrenar al lector automático para encontrar nuevas instancias de regulación de genes.
Ellos tomaron el mismo enfoque con los conjuntos públicos de datos en medicamentos aprobados para el cáncer y medicamentos en pruebas clínicas, entre otras fuentes.
Este enfoque de “conectar los puntos” crea un modelo de aprendizaje automático que “es muy raro que se pierda algo” y tiene la precisión suficiente “donde podemos, de manera potencial, mejorar mucho la eficiencia de la curación”, comentó Poon.
Colaboración con JAX
La colaboración con JAX permite a Poon y a su equipo validar la efectividad de la tecnología de lectura automática de Microsoft a la vez que incrementa la eficiencia de Mockus y su equipo conforme realizan la curaduría de CKB.
“Al aprovechar el lector automático, podemos decir aquí es lo que nos interesa y ayudará a evaluar y en verdad clasificar documentos para nosotros que tienen un alto significado clínico”, comentó Mockus. “Y luego una persona se adentra y separa esos datos”.
Con el tiempo, la retroalimentación de los curadores será utilizada para ayudar a entrenar a la tecnología de lectura automática, para hacer los modelos más precisos y, en retorno, hacer más eficientes a los curadores y permitir que el alcance de CKB se expanda.
“Nos sentimos en verdad muy bien con esta relación”, comentó Nair. “En particular desde el punto de vista del impacto que puede tener en brindar a los médicos una poderosa herramienta”.
Contenido relacionado:
- Conozcan más sobre Clinical Knowledgebase y The Jackson Laboratory
- Conozcan más sobre Proyecto Hanover
- Lean: Cómo los científicos computacionales e investigadores de Microsoft trabajan para ‘resolver’ el cáncer
- Lean: Microsoft anuncia disponibilidad general de herramientas basadas en la nube para investigación genómica
John Roah escribe sobre investigación e innovación de Microsoft. Síganlo en Twitter.