Microsoft anuncia a disponibilidade de ferramentas baseadas na nuvem para pesquisa genômica

Por John Roach //

Da esquerda para a direita, Ravi Pandya, Geralyn Miller e Bob Davidson, da Microsoft, discutem o serviço Microsoft Genomics. (Foto: Dan DeLong para Microsoft)

Para que os cientistas avancem em pesquisas que possam ajudar a curar cânceres pediátricos, os pesquisadores de todo o mundo precisam compartilhar e colaborar dados genômicos com facilidade. Foi por isso que, em 2010, o biólogo computacional, Jinghui Zhang, e sua equipe, no St. Jude Children’s Research Hospital, em Memphis (EUA), começaram a enviar genomas anônimos de células saudáveis e cancerígenas de seus pacientes para repositórios públicos de dados.

“Percebemos que era muito difícil para as pessoas baixarem os dados e usá-los em sua pesquisa por causa do seu tamanho e volume”, disse Zhang. “Então, St. Jude começou a explorar outras formas de facilitar o compartilhamento de dados com a comunidade de pesquisa global.”

Isso levou a uma colaboração com membros de um grupo na organização de pesquisa da Microsoft. Na época, a Microsoft estava começando a trabalhar em um pipeline computacional baseado na nuvem para alinhar o quebra-cabeça de bilhões de peças de dados de genoma brutos com genomas de referência e, em seguida, identificar onde eles diferem, uma técnica analítica conhecida como alinhamento e variante de chamada.

Na quarta-feira, 28 de fevereiro, a Microsoft anunciou a disponibilidade do serviço Microsoft Genomics, resultado do trabalho inicial da Microsoft nessa área.

Jinghui Zhang, presidente do Departamento de Biologia Computacional do St. Jude Children’s Research Hospital, conversa com a assistente do corpo docente, Xiang Chen. (Foto do St. Jude Children’s Research Hospital / Peter Barta)

Variantes são características que tornam os indivíduos únicos. Eles são marcadores dos traços, que vão desde atributos físicos até suscetibilidade a doenças. As variantes também são o combustível para os chamados estudos de associação de todo o genoma, que permitem aos pesquisadores identificar o que as variantes significam. Quanto mais os pesquisadores de dados do genoma acessam e analisam, mais precisamente podem deixar de lado a complexidade da biologia e progredir na cura de doenças, como o câncer.

A equipe de Zhang trabalhou com os pesquisadores da Microsoft no desenvolvimento do alinhamento do genoma e na variante de chamada que está no radar em parceria com a DNAnexus, uma plataforma segura e baseada em nuvem para gerenciar dados do genoma, que é executada no Microsoft Azure.

Até hoje, os colaboradores processaram meio petabyte de dados e os armazenaram no Azure para análise. Para a perspectiva, metade de um petabyte de dados preencheria 750 mil discos CD-ROM padrão.

Os dados do genoma de St. Jude analisados por meio do pipeline e armazenados na nuvem são a base para uma plataforma de compartilhamento de dados que o hospital de pesquisa está construindo com a DNAnexus e a Microsoft. O objetivo é permitir que pesquisadores de todo o mundo colaborem na busca de curas para cânceres pediátricos, que são diagnosticados em cerca de 175 mil crianças com 14 anos ou menos em todo o mundo a cada ano.

“Foi uma oportunidade incrível poder testar dados reais desse tipo e trabalhar lado a lado com essas equipes”, afirma Geralyn Miller, que dirige o grupo genômico na área de pesquisa da Microsoft.

Bons dados facilitados

O serviço Microsoft Genomics é parte da Healthcare NExT, uma iniciativa da Microsoft que visa acelerar a inovação em saúde por meio da inteligência artificial (IA) e da computação em nuvem.

Em genômica, o caminho para a realização desses objetivos começa com dados limpos e precisos.

“Sabemos que precisamos ter bons dados e, se podemos torná-los muito, muito fáceis para as pessoas, então podemos trazer a informação biológica para ferramentas analíticas na nuvem e, espero, tornar as pessoas muito mais produtivas e melhorar sua taxa de descoberta”, comenta Bob Davidson, principal arquiteto de software do grupo genômico da Microsoft.

O serviço Microsoft Genomics, ele explica, é um elemento essencial na maquinaria de IA da próxima geração, que irá impulsionar avanços na compreensão e no tratamento de doenças, como câncer, com medicamentos de precisão. Por exemplo, ao analisar dados do genoma dos tecidos saudáveis e tumorais de um paciente, um médico poderá selecionar o tratamento que será mais efetivo com base na comparação com dados de outros pacientes com câncer, incluindo tratamentos e resultados.

Uma lista comum para o processamento de dados do genoma ajuda a reduzir os artefatos e o ruído que podem obstruir os dados, e isso resulta em um sinal mais forte para os elementos de IA da medicina precisa, observou Miller.

“Estamos ‘comoditizando’ esse passo”, disse ela. “Vamos simplificar para que as pessoas o façam e o que vai sair do outro lado são dados consistentes.”

 ‘O perfeito volume de trabalho na nuvem’

A oportunidade de ‘comoditizar’ o alinhamento e a fase da variante de chamada da sequência do genoma, chamada de análise secundária, surgiu à medida que o custo da sequência de um único genoma humano caiu de US$ 100 milhões, em 2001, para menos de US$ 1 mil atualmente, o que está na faixa de outros exames médicos de rotina. Os especialistas do setor esperam que o genoma, com valor inferior a R$ 1 mil,  estimule uma corrida de sequência – até 2025, eles preveem que mais de 100 milhões de genomas humanos serão sequenciados.

E isso apresenta outro problema que a Microsoft e a DNAnexus estão prontas a resolver.

Um único genoma humano ocupa 100 gigabytes de espaço de armazenamento. À medida que mais e mais genomas são sequenciados, as necessidades de armazenamento crescerão de gigabytes para petabytes e para exabytes. Até 2025, estima-se que sejam necessários 40 exabytes de capacidade de armazenamento para dados do genoma humano. Um exabyte é equivalente a aproximadamente mil petabytes, ou dados suficientes para preencher 1,5 bilhão de discos CD-ROM padrão.

“Dados do genoma são dados realmente grandes”, observa Miller. “E é realmente uma computação intensa”. O processamento de um único genoma humano requer várias centenas de horas. Unidades de processamento de computadores, ou CPUs, em computadores portáteis modernos normalmente possuem quatro núcleos. Os datacenters, em contrapartida, possuem milhares de núcleos, que “tornam a genômica uma carga de trabalho perfeita para a nuvem.”

Além disso, o tratamento de dados do genoma envolve uma lista de itens legais e éticos para manter a privacidade e a segurança dos dados. A Microsoft possui datacenters Azure espalhados pelo mundo, e o Microsoft Genomics atualmente é oferecido nos EUA, Europa Ocidental e Sudeste Asiático. O serviço Microsoft Genomics possui o certificado ISO, atendendo a determinados padrões internacionais de segurança, privacidade e qualidade. Também é coberto pela Microsoft sob o HIPAA Business Associate Agreement, que garante que as empresas gerenciem informações de saúde pessoais de forma responsável. Ele segue os princípios de segurança e privacidade expostos no Microsoft Trust Center.

Ecossistema de parceiros

A DNAnexus, implantada no Azure, é a empresa de gerenciamento de dados do genoma que trabalha com o St. Jude Children’s Research Hospital em sua plataforma de compartilhamento de dados. A DNAnexus integrará o serviço Microsoft Genomics, além de outras ferramentas analíticas e de visualização genômica, fornecendo aos pesquisadores uma interface para acessar ferramentas e conjuntos de dados diversos em um ecossistema colaborativo e seguro.

“Temos mais sucesso quando nossos cientistas se envolvem com os profissionais do cliente para entender seu problema científico e, em seguida, trabalham em transportar seu fluxo de trabalho para a plataforma. Eles executam alguns testes, e então vamos para a rua”, disse Richard Daly, diretor executivo da DNAnexus. “Neste caso, nossa equipe trabalhou em estreita colaboração com o St. Jude e a Microsoft para determinar os requisitos específicos e traduzir isso em soluções personalizadas.”

Miller, Davidson e seus colegas no grupo de pesquisa genômica da Microsoft veem o serviço Microsoft Genomics como a primeira de muitas ferramentas que estão prontas para a integração com um crescente ecossistema de parceiros no Azure, incluindo a DNAnexus. Por exemplo, uma discussão em curso, observou Miller, se concentra em outro desafio que o St. Jude enfrenta: como compartilhar e colaborar em diferentes tipos de dados produzidos por diferentes organizações com diferentes ferramentas?

“O que é diferente do Microsoft Genomics é o vínculo com a pesquisa”, afirma Miller. “Temos o domínio do conhecimento para poder sair e fazer experiências e tirar essas ideias do laboratório e levá-las para o mundo.”

John Roach escreve sobre pesquisa e inovação na Microsoft.

Tags: , , ,

Posts Relacionados