O quebra-cabeça do macarrão: Decodificando o DNA do trigo duro para um futuro sustentável

Uma Itália que não consegue cultivar seu próprio trigo para macarrão? É uma corrida contra o tempo. Usando um banco de dados compartilhado em um supercomputador da Microsoft, cientistas da Itália e de outros países estão trabalhando juntos para desenvolver novas variedades de trigo duro que possam resistir melhor ao calor e à seca causados pelas mudanças climáticas.

Como conta Luigi Cattivelli: a história do trigo duro começa há mais de 10 mil anos, quando alguns agricultores neolíticos começaram a cultivar uma gramínea selvagem chamada espelta.

Esses agricultores selecionaram sementes que exibiam características que tornavam a espelta mais fácil de colher e comer. Ao longo de gerações, por meio de cultivo seletivo e cruzamentos, os seres humanos desenvolveram o trigo duro e, mais tarde, o trigo para pão.

À medida que pequenos grupos de pessoas migraram do Crescente Fértil, uma área do Oriente Médio onde se acredita que a primeira agricultura tenha ocorrido, eles levaram sementes consigo, adaptando ainda mais as plantas aos climas e condições de novas terras – incluindo a Itália, onde o trigo duro se tornou a fonte do macarrão.

Cattivelli, especialista no genoma do trigo, diz que o próximo capítulo da história trata de nosso futuro imediato; os cientistas devem desenvolver novas variedades de trigo e outras culturas alimentares básicas para atender ao ritmo acelerado ditado pelas mudanças climáticas.

“Precisamos nos adaptar ao planeta exatamente como nossos antecessores fizeram”, diz ele. “É basicamente a mesma história, exceto que agora, mesmo ficando na mesma localidade, precisamos nos adaptar porque o clima está mudando.”

Luigi Cattivelli, diretor do Conselho de Pesquisa Agrícola e Econômica do governo italiano (CREA) em Fiorenzuola d’Arda, Itália. Foto de Chris Welsch para a Microsoft.

Mudanças climáticas impulsionando um senso de urgência

Cattivelli dirige o Centro de Pesquisa Genômica em Fiorenzuola, que faz parte do Conselho de Pesquisa Agrícola e Econômica do governo italiano (CREA). Cattivelli e seus colegas, juntamente com equipes de geneticistas de culturas de outras partes do mundo, estão usando a computação de alto desempenho na nuvem Microsoft Azure para tentar desvendar os segredos genéticos do trigo duro e de outras variedades de trigo. No Projeto Pangenoma, eles estão analisando os genomas de cerca de 40 variedades de trigo e seus ancestrais em busca de características que ajudem a cultura a prosperar em condições extremas, serem mais eficientes no uso de recursos naturais e serem resistentes a doenças e pragas, reduzindo a necessidade de fertilizantes e pesticidas.

Não é apenas uma questão de macarrão para os italianos; é uma busca urgente porque cultivar alimentos básicos como trigo, arroz e milho em quantidade suficiente é essencial para a sobrevivência humana.

O trigo compõe cerca de 20% das calorias consumidas pelos humanos globalmente. E as mudanças climáticas são uma ameaça direta à produção de culturas em todo o mundo, desde secas e calor até chuvas torrenciais e outros eventos climáticos extremos, como as recentes inundações no leste da Espanha.

Trabalhando em conjunto com a Microsoft, o CREA construiu uma estrutura na nuvem Azure que eventualmente poderia abrigar e analisar múltiplos petabytes de dados genéticos dos genomas de muitas variedades de trigo de múltiplas fontes. (Para ter uma ideia do que isso significa, um petabyte poderia conter até 2 mil anos de música digital, se tocada continuamente.)

Curtis Pozniak, geneticista que dirige o Centro de Desenvolvimento de Culturas da Universidade de Saskatchewan, no Canadá, está entre os fundadores do Projeto Pangenoma.

“Estamos gerando petabytes de informações que precisamos filtrar para algo significativo”, diz ele. “A única maneira eficiente de fazer isso é por meio de plataformas baseadas em nuvem, onde os mesmos dados podem ser compartilhados com uma ampla gama de especialistas ao mesmo tempo.”

Esses dados, que são armazenados no data center da Microsoft do Norte da Itália, são então processados e analisados no que é conhecido como “pipeline”, também hospedado no Azure. Um pipeline é uma série de etapas de processamento de dados, neste caso criado com programação de código aberto. Este pipeline genômico específico é projetado para lidar com bilhões de pequenas sequências que precisam ser ordenadas para formar os 14 cromossomos do genoma do trigo duro. O pipeline é uma ferramenta que ajuda os cientistas a montar esse quebra-cabeça elaborado.

Este enigma genômico pode ser visto e trabalhado por equipes de cientistas onde quer que estejam no mundo. Conhecimento e informações extraídas do quebra-cabeça genômico serão incorporados em novas variedades que serão disponibilizadas aos agricultores nos próximos anos.

Um homem de óculos e camisa polo verde examina atentamente algumas plantas de cor castanha.

“Trabalhar na nuvem nos dá várias vantagens”, diz ele. “Mas a mais importante é como fazemos a ciência. Agora, pesquisadores do Canadá, Austrália, Japão e Estados Unidos podem trabalhar nos mesmos dados, com as mesmas ferramentas, no mesmo problema. E este é o verdadeiro avanço.”

Luigi Cattivelli, diretor do Conselho de Pesquisa Agrícola e Econômica do governo italiano (CREA), examina plantas de trigo em uma estufa no laboratório do CREA em Fiorenzuola, Itália. Foto de Chris Welsch para a Microsoft.

Com as vantagens da computação de alta velocidade e da colaboração eficaz, a velocidade da pesquisa é grandemente acelerada, diz Pozniak, que também é professor e criador de trigo.

Ele afirma estar empolgado pelos pesquisadores que estão no início de suas carreiras, porque eles têm ferramentas que não estavam disponíveis quando ele estava trabalhando em seu doutorado há 20 anos.

“Levei a maior parte do meu doutorado para clonar um único gene que era importante para uma característica do trigo”, lembra Pozniak. “Com os tipos de dados e ferramentas de análise que temos à nossa disposição agora, estamos fazendo isso em questão de semanas ou meses. É um momento emocionante para ser um cientista.”

A evolução do trigo

Cattivelli tem uma história pessoal com o trigo; ele cresceu em uma fazenda no Vale do Rio Po, cerca de 20 quilômetros, ou 12 milhas, de seu escritório no centro de pesquisa. Seu pai cultivava trigo, entre outras culturas.

Os pesquisadores do CREA estão usando uma abordagem multidisciplinar chamada genômica para obter uma compreensão granular do trigo.  A genômica combina biologia, bioinformática e tecnologia da informação para analisar e interpretar dados biológicos. As ferramentas são diferentes, mas os objetivos são os mesmos que têm sido há milhares de anos – selecionar características para garantir a melhor colheita possível.

“A bioinformática é apenas o último capítulo da história”, diz Cattivelli.

Uma de suas colegas do Centro de Pesquisa Genômica, Primetta Faccioli, liderou o esforço para criar o sistema na nuvem Azure para armazenar e analisar dados genômicos. Ela começou sua carreira como bióloga trabalhando no laboratório com plantas. Agora ela trabalha principalmente com dados.

Como Cattivelli, Faccioli cresceu em uma fazenda perto do centro de pesquisa em Fiorenzuola e, como ele, se apaixonou pela genética – a história por trás das plantas que sua família estava cultivando.

“Alguns anos atrás, pensávamos que a produção de dados era mais difícil do que a análise de dados, mas não é assim”, diz ela. “Precisamos de ambos no mesmo nível. O ditado ‘lixo entra, lixo sai’ é verdadeiro. Então, se o lixo vem do laboratório, a bioinformática produz lixo. Precisamos trabalhar juntos.”

Cientistas trabalhando globalmente para decifrar códigos genômicos

O genoma do trigo para pão foi completado em 2017. Mas isso é apenas um passo. O genoma, essencialmente uma lista de genes que compõem uma forma de vida, contém bilhões de bases de DNA, e elas são construídas em sequências (se você lembra das aulas de biologia, essas sequências são formadas por um alfabeto de quatro letras, A, C, G e T).

Essas sequências são códigos elaborados que descrevem como uma forma de vida funciona nos mínimos detalhes. O trigo tem um genoma particularmente elaborado – o trigo duro tem 10,5 bilhões de bases e o trigo para pão tem cerca de 15 bilhões de bases – isso é três vezes mais do que o genoma humano, dizem os cientistas do CREA.

A ideia é encontrar os genes que controlam características específicas na planta, possibilitando a criação de novas variedades com as características-alvo e com maior rapidez, diz Faccioli.

Para voltar à metáfora do quebra-cabeça, a nuvem Azure cria a mesa onde os cientistas podem juntar todas as peças. Mas com muitas pessoas trabalhando ao mesmo tempo, deve haver controle de qualidade, reprodutibilidade e portabilidade, diz Faccioli. (Antes da nuvem, muitas instituições estavam enviando malas cheias de discos rígidos umas para as outras para compartilhar dados.)

Faccioli, Mario Giorgioni, um especialista em TI do CREA, e Wolfgang De Salvador, um especialista da Microsoft em computação de alto desempenho e infraestrutura de inteligência artificial, trabalharam juntos para construir o que é conhecido como pipeline.

Eles construíram esta série de etapas de computação usando um orquestrador de fluxo de trabalho chamado Nextflow, criado e suportado pelo parceiro da Microsoft, Seqera. Este sistema na nuvem Azure tornou possível que as equipes trabalhassem juntas usando a mesma sequência de programas de código aberto para alcançar resultados reprodutíveis. Giorgioni diz que eles construíram essa plataforma de pesquisa centralizada com ferramentas que atendem aos três pilares principais de qualquer sistema de computação de alto desempenho: armazenamento compartilhado rápido, recursos de computação de alto desempenho e interconexões de rede rápidas.

A infraestrutura, construída usando Azure CycleCloud e aproveitando os serviços de HPC do Azure, permite que os pesquisadores escalem facilmente os recursos computacionais conforme necessário, diz ele. O armazenamento compartilhado baseado em Blob do Azure serve como espinha dorsal, oferecendo a largura de banda e a escalabilidade necessárias para projetos de pesquisa intensivos em dados.

“Os pesquisadores têm acesso a uma ampla gama de recursos de computação para enfrentar os desafios mais intrincados em seu trabalho diário”, diz ele.

Pipelines baseados em Nextflow estão ajudando os cientistas no projeto a converter dados brutos sobre o genoma do trigo em informações úteis, diz Faccioli.

Uma visão de perto de uma fita de DNA feita de macarrão, mostrando os detalhes complexos e a estrutura da dupla hélice.

Este quebra-cabeça genômico pode ser visto e trabalhado por equipes de cientistas onde quer que estejam no mundo. Conhecimento e informações extraídas do quebra-cabeça genômico serão incorporados em novas variedades que serão disponibilizadas aos agricultores nos próximos anos.

Macarrão em forma de hélice de DNA com código binário. Imagem gerada pelo Microsoft Copilot.

Para simplificar, Faccioli diz, ela costuma explicar aos estudantes visitantes que há uma grande diferença entre dados e informações. “Eu dou a eles um número, e isso não é nada além de dados. Não diz nada”, diz ela. “Mas se eu disser a eles que esse número é o número de telefone deste escritório, isso é informação.”

Elisabetta Mazzucotelli é uma das pesquisadoras em Fiorenzuola trabalhando no Projeto Pangenoma. Parte do seu trabalho é vasculhar os genomas de muitas variedades de trigo duro e seus ancestrais para redescobrir características genéticas antigas, mas úteis.

À medida que qualquer planta é domesticada, há um efeito de “gargalo”, no qual algumas características genéticas da planta antiga são perdidas após o cruzamento e a replicação de uma nova variedade.

“Precisamos encontrar e registrar toda a diversidade genética que existe porque agora estamos enfrentando novos desafios por causa das mudanças climáticas”, diz ela. “Pode haver características de resistência a doenças ou uma capacidade de prosperar no bioma do solo, que foram eliminadas das variedades atuais de trigo duro.”

Uma mulher de óculos olha atentamente através de uma grande lupa para uma planta verde que ela está tocando com um conta-gotas de plástico.
Caterina Mare, pesquisadora do Conselho de Pesquisa Agrícola e Econômica (CREA) do governo italiano em Fiorenzuola, Itália, trabalha para hibridizar uma planta de arroz. Foto de Chris Welsch para a Microsoft.

Mazzucotelli diz que a capacidade de supercomputação na nuvem Azure permite que ela gerencie e compare quantidades de dados que seriam impossíveis anteriormente. Para ela, é outra ferramenta na busca pelo conhecimento.

“Eu sou muito curiosa, e quando posso ver uma planta que é verde em um campo cheio de outras plantas que são amarelas e suscetíveis a doenças, fico me perguntando por que existe essa diferença”, diz ela. “E na maioria dos casos, o resultado é uma diferença em nível genético. Isso significa que podemos usar essa diferença para trazer inovação e criar uma nova solução. Podemos usar as características dessa única planta verde para fazer muitas plantas tão verdes e saudáveis quanto essa”, finaliza.