Expandindo a tecnologia de IA em textos biomédicos não estruturados para além do inglês

Hadas Bitran Chefe de Saúde e Ciências da Vida do Centro de P&D de Israel

 

O setor de saúde está adotando o poder do Big Data, da Computação em Nuvem e da Análise Clínica, aproveitando os dados para fornecer insights que podem melhorar o atendimento e aumentar a eficiência. Ainda assim, os textos não estruturados, como as anotações médicas, continuam sendo um desafio – ficando ainda mais complexo pelas barreiras da linguagem, pois muitas vezes dados são deixados sem referência por serem difíceis de analisar, compreender e de extrair insights, o que acaba resultando em perda de oportunidades de diagnósticos e um melhor atendimento.

A Microsoft reconhece a necessidade de permitir que as organizações de saúde em todo o mundo reúnam informações a partir desses dados — para um atendimento melhor, mais rápido e mais personalizado, o que melhora a equidade na área da saúde. Com a Análise de Texto para Saúde, que faz parte dos Serviços Cognitivos do Azure, as organizações de saúde do mundo todo agora podem extrair insights significativos a partir de textos não estruturados em sete idiomas e processá-los de uma maneira que permita o suporte à decisão clínica como nunca visto antes. Expandindo-se para além do inglês, a Análise agora suporta seis idiomas adicionais na versão prévia: são eles espanhol, francês, alemão, italiano, português e hebraico – tornando essa tecnologia inovadora e ajudando a extrair informações de notas clínicas não estruturadas em vários idiomas, tornando-as acessíveis para mais organizações de saúde em todo o mundo. Isso marca o primeiro serviço de Processamento de Linguagem Natural (PNL) que suporta holisticamente a análise de dados biomédicos não estruturados em vários idiomas e foi desenvolvido com uma abordagem de aprendizagem federada. A maior parte das tecnologias na área da saúde são limitadas ao idioma inglês, tornando-as inacessíveis para milhões de pessoas em países onde o inglês não é a língua principal. Disponibilizar a tecnologia de PNL em vários idiomas é um enorme passo na busca por preencher as lacunas da equidade no setor da saúde, criadas pelas barreiras linguísticas, e garantir que o acesso e a qualidade dos atendimentos na saúde não sejam determinados pela capacidade de falar e entender o inglês.

A Análise de Texto para Saúde usa uma poderosa tecnologia de PNL para detectar e identificar termos médicos em textos, classificá-los e associá-los a sistemas padronizados de codificação clínica, bem como inferir relações semânticas e afirmações nos dados, permitindo uma compreensão contextual mais profunda. Isso abre um mundo de possibilidades para provedores, segurados, profissionais das áreas biológicas e empresas farmacêuticas, permitindo que eles unifiquem pontos de dados de textos não estruturados com dados estruturados e que apresentem insights importantes, identifiquem riscos, automatizem o preenchimento de formulários ou combinem ensaios clínicos com pacientes para uma melhor seleção de candidatos, com base em dados abrangentes, incluindo textos clínicos não estruturados. 

Treinando o modelo de PNL para diferentes idiomas

Um dos desafios para um serviço de PNL está justamente em ir além do inglês – com o objetivo de analisar texto de diferentes idiomas. Isso é o que a equipe da Microsoft pretendia fazer – o objetivo era capacitar todas as organizações de saúde, independentemente do idioma em que seu texto esteja. Os desafios únicos vêm da necessidade de treinar modelos de IA para vários idiomas, bem como se ajustar às necessidades específicas de cada país. A sintaxe é diferente entre idiomas, especialmente quando se trata de idiomas não latinos. As línguas têm semânticas e limites diferentes, especialmente aquelas com morfologia rica ou palavras compostas. Os vocabulários são diferentes, o jargão é específico do país e até mesmo os sistemas de codificação diferem por país. As palavras são muitas vezes emprestadas de outras línguas, levando a um texto que contém uma mistura de vários idiomas. O texto escrito é uma mistura de coloquialismos, termos médicos locais e taquigrafia que é específica do país. Modelos de treinamento para entender essas diferenças e, em seguida avaliar esses modelos, exigiram quantidades significativas de dados clínicos e um trabalho com especialistas no assunto em diferentes idiomas.

A Leumit Health Services, um dos quatro fundos nacionais de saúde em Israel, trabalhou em estreita colaboração com a equipe de P&D da Microsoft para treinar o modelo TA4H para a língua hebraica. Israel tem um sistema de saúde único e robusto, onde os registros de cada indivíduo são armazenados em registros médicos eletrônicos (EMR) e todos os residentes cidadãos são obrigados a se juntar a uma das quatro HMOs designadas de acordo com a lei. Os dados de saúde disponíveis são ricos, diversificados e fornecem um ótimo ponto de partida para pesquisas e análises.

A Leumit Health Services tinha mais de 130 milhões de registros de pacientes em seu EMR, que poderiam ser usados para treinar o modelo multilíngue da Análise de Texto para Saúde no hebraico. O desafio era justamente permitir que a Microsoft acessasse dados sem identificação pessoal para fins de treinamento de uma maneira que protegesse a privacidade e a segurança das informações de saúde dos pacientes. A resposta estava em uma abordagem de Aprendizagem Federada – o que significa que os dados nunca deixaram o limite de confiança da Lemit e as informações de saúde dos pacientes nunca foram expostos à Microsoft.

A Leumit criou uma assinatura separada no Azure com permissões de acesso estritas, onde a Microsoft instalou sua infraestrutura e ferramentas de aprendizagem federada. A Leumit então colocou dados não identificados necessários para a pesquisa e os desenvolvedores da Microsoft acionaram o treinamento do modelo em uma configuração de aprendizagem federada nesses dados não identificados – o tempo todo, esses dados nunca deixaram a instância da assinatura da Leumit, e os desenvolvedores nunca conseguiram ver nenhum detalhe de identificação dos dados.

A Leumit então se tornou um dos primeiros clientes a testar o modelo de Análise de Texto para Saúde para hebraico clínico, o que é um grande desafio, uma vez que é comum termos palavras em hebraico e inglês na mesma frase. O caso de uso foi uma tentativa de verificar se o modelo de Análise de Texto para Saúde poderia analisar o texto livre de consultas médicas para identificar preditores de acidentes vasculares cerebrais em pacientes. Os resultados preliminares são muito encorajadores e positivos – mostrando que o modelo tem a capacidade de analisar as declarações clínicas em hebraico e inglês, e de uma maneira que pode ajudar a identificar vários indicadores potenciais de acidente vascular cerebral. Isso poderia ajudar os prestadores de cuidados a configurar mecanismos de alerta precoce e fornecer cuidados mais personalizados para uma variedade de condições agudas.

Usando a PNL em hebraico da Microsoft, poderemos analisar nossos 20 anos de dados do EMR e mensagens de pacientes para médicos, e assim desenvolver ferramentas que economizarão tempo dos médicos e reduzirão seu esgotamento em um mundo pós-Covid-19“. —Izhar Laufer, Chefe da Leumit Start.

Figura 1: Análise de texto biomédico não estruturado em hebraico usando a Análise de Texto para Saúde
Figura 2: Análise de texto biomédico não estruturado em hebraico usando a Análise de Texto para Saúde

Analisando texto não estruturado em dados do mundo real

O desafio dos dados não estruturados é ainda maior no mundo da pesquisa com o uso de dados do mundo real. No Brasil, entre outros lugares, a falta de um padrão de interoperabilidade e coleta de dados leva a muitos dados não estruturados – relatórios de campo, anotações médicas e até resultados de exames laboratoriais. Isso retarda o processo de pesquisa e análise para provedores como o Grupo Oncoclínicas. Fundado em 2010, o Grupo é o maior provedor privado de tratamento oncológico do País, com 129 unidades em 33 cidades – incluindo clínicas, laboratórios de genômica e patologia e centros integrados de tratamento do câncer.

Com a ajuda da Dataside, parceira brasileira da Microsoft Brasil, a OncoClinicas está usando a Análise de Texto para Saúde da Microsoft para extrair dados de campos não estruturados, como anotações médicas, patologia anatômica e exames genômicos e de imagem, como ressonâncias magnéticas. Esses dados são então usados para vários casos de uso, como viabilidade de ensaios clínicos, uma melhor compreensão dos cenários para farmacoeconomia e uma compreensão mais profunda da epidemiologia do grupo e dos resultados de interesse.

Figura 3: Análise de texto biomédico não estruturado em português utilizando a Análise de Texto para Saúde

A Análise de Texto para Saúde era o que faltava para o Grupo Oncoclínicas escalar nossos processos e estruturar nossas anotações clínicas, relatórios de exames e análises de campo, que antes dependiam apenas da curadoria manual. Ter uma solução que funcione em português é fundamental – a maioria das soluções globais tende a atender apenas no inglês, negligenciando assim outros idiomas. A precisão no português nativo nos permitiu manter um alto nível de precisão ao analisar textos não estruturados.” —Marcio Guimarães Souza, Chefe de Dados e IA do Groupo OncoClinicas.

Análise e estruturação para o padrão FHIR® (Fast Healthcare Interoperability Resources)

Universidade italiana Vita-Salute San Raffaele e o Hospital IRCCS San Raffaele estão construindo o atendimento médico do futuro, aproveitando os serviços de Inteligência Artificial (IA) da Microsoft. Com a Análise de Texto para Saúde, os hospitais podem classificar, padronizar e analisar uma enorme quantidade de dados clínicos disponíveis no hospital, a fim de criar uma plataforma digital inovadora para o gerenciamento de dados. Usando essa plataforma, os médicos do hospital podem obter informações clínicas importantes sobre seus pacientes e fornecer cuidados mais personalizados. Um dos casos de uso que está sendo desenvolvido atualmente usando esta plataforma de dados é permitir a seleção de pacientes elegíveis para imunoterapia para câncer de pulmão de células não pequenas. A equipe médica pode utilizar a análise de soluções de IA para aumentar a taxa de sucesso da terapia, combinando o tratamento relevante com os pacientes mais elegíveis.

A Análise de Texto para Saúde tem desempenhado um papel fundamental na análise de uma enorme quantidade de dados clínicos não estruturados que temos no hospital. Também estamos utilizando a capacidade de estruturação FHIR, que permite maior interoperabilidade com outros sistemas hospitalares. Ter a Análise de Texto para Saúde disponível em italiano agora nos permite expandir ainda mais nossas capacidades para oferecer aos nossos pacientes o melhor atendimento possível.” —Professor Carlo Tacchetti, Professor de Anatomia Humana da Universidade Vita-Salute San Raffaele e coordenador do projeto.

Figura 4: Análise de texto biomédico não estruturado em italiano usando a Análise de Texto para Saúde

Faça mais com seus dados com a Microsoft Cloud for Healthcare

Com a Análise de Texto para Saúde, as organizações de saúde podem transformar o atendimento ao paciente, descobrir novos insights e aproveitar o poder do machine learning e da IA aplicando essas tecnologias em textos não estruturados. A Microsoft está empenhada em fornecer tecnologias que habilitem os seus dados para o futuro da inovação no domínio dos cuidados de saúde com novas funcionalidades da Microsoft Cloud for Healthcare.

 


Estamos ansiosos para atuar como parceira enquanto você constrói o futuro da saúde.
• Saiba mais sobre a Análise de Texto para Saúde.
• Saiba mais sobre a Microsoft Cloud for Healthcare.

®FHIR é marca registrada da Health Level Seven International, registrada no Escritório de Marcas Registradas dos EUA, e foi usada com sua permissão.

Tags:

Posts Relacionados