El rompecabezas de la pasta: descifrar el ADN del trigo duro para un futuro sostenible
¿Una Italia que no puede cultivar su propio trigo para la pasta? Es una carrera contra el tiempo. Por medio de una base de datos compartida en una supercomputadora de Microsoft, científicos de Italia y otros países trabajan juntos para desarrollar nuevas cepas de trigo duro que puedan resistir mejor el calor y la sequía causados por el cambio climático.
Como cuenta Luigi Cattivelli, la historia del trigo duro comienza hace más de 10 mil años, cuando algunos agricultores neolíticos comenzaron a cultivar una hierba silvestre llamada emmer.
Estos agricultores seleccionaron semillas que exhibían rasgos que hacían que el emmer fuera más fácil de cosechar y comer. A lo largo de generaciones, a través del cultivo selectivo y el cruzamiento, los seres humanos desarrollaron el trigo duro y, más tarde, el trigo panificable.
A medida que pequeños grupos de personas emigraron del Creciente Fértil, una zona de Oriente Medio donde se cree que se realizó la primera agricultura, trajeron semillas con ellos, para adaptar aún más las plantas a los climas y condiciones de las nuevas tierras, incluida Italia, donde el trigo duro se convirtió en la fuente de pasta.
Cattivelli, experto en el genoma del trigo, dice que el siguiente capítulo de la historia trata de nuestro futuro inmediato; los científicos deben desarrollar nuevas variedades de trigo y otros cultivos básicos para hacer frente al rápido ritmo dictado por el cambio climático.


«Necesitamos adaptarnos al planeta justo como lo hicieron nuestros progenitores», dice. «Es casi la misma historia, excepto que ahora, incluso manteniéndonos en la misma posición, debemos adaptarnos porque el clima ha comenzado a cambiar».
El cambio climático impulsa un sentido de urgencia
Cattivelli dirige el Centro de Investigación Genómica en Fiorenzuola, que forma parte del Consejo de Investigación Agrícola y Económica (CREA, por sus siglas en inglés) del gobierno italiano. Cattivelli y sus colegas, junto con equipos de genetistas de cultivos de otras partes del mundo, utilizan cómputo de alto rendimiento en la nube de Microsoft Azure para tratar de descubrir los secretos genéticos del trigo duro y otras variedades de trigo. En el Proyecto Pangenoma, examinan los genomas de unas 40 variedades de trigo y sus ancestros antiguos en busca de rasgos que ayudarían al cultivo a prosperar en condiciones extremas, ser más eficiente en el uso de los recursos naturales y ser resistente a enfermedades y plagas, lo que reduce la necesidad de fertilizantes y pesticidas.
No es solo una cuestión de pasta para los italianos; es una búsqueda urgente porque cultivar suficientes alimentos básicos como el trigo, el arroz y el maíz es esencial para la supervivencia humana.
El trigo representa alrededor del 20% de las calorías consumidas por los seres humanos en todo el mundo. Y el cambio climático es una amenaza directa para la producción de cultivos a nivel mundial, debido a la sequía y el calor, así como a las lluvias torrenciales y otros fenómenos meteorológicos extremos, como las recientes inundaciones en el este de España.
En colaboración con Microsoft, CREA creó un marco en la nube de Azure que, con el tiempo, podría albergar y analizar varios petabytes de datos genéticos de los genomas de muchas variedades de trigo procedentes de múltiples fuentes. (Para tener una idea de lo que eso significa, un petabyte podría contener hasta 2 mil años de música digital, si se reprodujera de forma continua).
Curtis Pozniak, genetista que dirige el Centro de Desarrollo de Cultivos de la Universidad de Saskatchewan, Canadá, es uno de los fundadores del Proyecto Pangenoma.
«Generamos petabytes de información que necesitamos filtrar y convertirlos en algo significativo», dice. «La única forma eficiente de hacerlo es a través de plataformas basadas en la nube donde los mismos datos se pueden compartir con una amplia gama de expertos al mismo tiempo».
Esos datos, que se almacenan en la región del centro de datos del norte de Italia de Microsoft, se procesan y analizan en lo que se conoce como una «tubería», también alojada en Azure. Una canalización es una serie de etapas de procesamiento de datos, en este caso creadas con codificación de código abierto. Esta línea genómica en particular está diseñada para tratar con miles de millones de pequeñas secuencias que deben ordenarse para formar los 14 cromosomas del genoma del trigo duro. El oleoducto es una herramienta que ayuda a los científicos a armar ese elaborado rompecabezas.
Este rompecabezas genómico puede ser visto y trabajado por equipos de científicos en cualquier parte del mundo. El conocimiento y la información extraídos del rompecabezas genómico se integrarán en nuevas variedades que se pondrán a disposición de los agricultores en los próximos años.


«Trabajar en la nube nos da varias ventajas», afirma. «Pero la más importante es cómo hacemos la ciencia. Ahora, investigadores de Canadá, Australia, Japón y Estados Unidos pueden trabajar con los mismos datos, con las mismas herramientas, sobre el mismo problema. Y este es el verdadero avance».
Con las ventajas del cómputo de alta velocidad y la colaboración efectiva, la velocidad de la investigación se acelera de manera importante, dice Pozniak, quien también es profesor y mejorador de trigo.
Dice que está emocionado por los investigadores que están en las primeras etapas de sus carreras porque tienen herramientas que no estaban disponibles cuando él trabajaba en su doctorado hace 20 años.
«Me llevó la mayor parte de mi doctorado clonar un solo gen que era importante para un rasgo del trigo», recuerda Pozniak. «Con el tipo de datos y herramientas de análisis que tenemos a nuestra disposición ahora, lo hacemos en cuestión de semanas o meses. Es un momento emocionante para ser científico».
La evolución del trigo
Cattivelli tiene una historia personal con el trigo; creció en una granja en el valle del río Po, a unos 20 kilómetros de su oficina en el centro de investigación. Su padre cultivaba trigo, entre otros cultivos.
Los investigadores de CREA utilizan un enfoque multidisciplinario llamado genómica para obtener una comprensión granular del trigo (juego de palabras). La genómica combina la biología, la bioinformática y la tecnología de la información para analizar e interpretar datos biológicos. Las herramientas son diferentes, pero los objetivos son los mismos que los de miles de años: seleccionar rasgos que garanticen la mejor cosecha posible.
«La bioinformática es solo el último capítulo de la historia», dice Cattivelli.

Una de sus colegas en el Centro de Investigación Genómica, Primetta Faccioli, dirigió el esfuerzo de crear el sistema en la nube de Azure para almacenar y analizar datos genómicos. Comenzó su carrera como bióloga «húmeda», donde trabajaba de manera directa en el laboratorio con plantas. Ahora se describe a sí misma como una bióloga «seca», que trabaja en su mayoría con datos.
Al igual que Cattivelli, Faccioli creció en una granja cerca del centro de investigación de Fiorenzuola y, al igual que él, se enamoró de la genética, la historia detrás de las plantas que cultivaba su familia.
«Hace algunos años, pensábamos que la producción de datos era más difícil que el análisis de datos, pero no es así», dice. «Necesitamos las dos cosas al mismo nivel. El dicho «entra basura, sale basura» es cierto. Entonces, si la basura viene del laboratorio, la bioinformática produce basura. Por lo tanto, tenemos que trabajar juntos».
Científicos que trabajan a nivel mundial para descifrar los códigos del genoma
Se completó el genoma del trigo para pan, con mucha fanfarria, en 2017. Pero eso es solo un paso. El genoma, en esencia una lista de genes que componen una forma de vida, contiene miles de millones de bases de ADN, y están construidas en secuencias (si recuerdas tu clase de introducción a la biología, esas secuencias están formadas por un alfabeto de cuatro letras, A, C, G y T).
Esas secuencias son códigos elaborados que detallan cómo funciona una forma de vida con el detalle más intrincado y minucioso. El trigo tiene un genoma que es bastante elaborado (el trigo duro tiene 10.500 millones de bases y el trigo panificable tiene alrededor de 15.000 millones de bases), es decir, tres veces más que el genoma humano, dicen los científicos de CREA.
La idea es encontrar los genes que controlan rasgos específicos en la planta, lo que permite crear nuevas variedades con los rasgos objetivo y con mayor rapidez, dice Faccioli.
De vuelta a la metáfora del rompecabezas, la nube de Azure crea la mesa donde los científicos pueden juntar todas las piezas. Pero con muchas personas que trabajan a la vez, debe haber control de calidad, reproducibilidad y portabilidad, dice Faccioli. (Antes de la nube, muchas instituciones volaban maletas llenas de discos duros entre sí para compartir datos).

Faccioli, Mario Giorgioni, especialista en TIC de CREA, y Wolfgang De Salvador, especialista de Microsoft en computación de alto rendimiento e infraestructura de inteligencia artificial, trabajaron juntos para construir lo que se conoce como un oleoducto.
Construyeron esta serie de pasos de cómputo por medio de un orquestador de flujo de trabajo llamado Nextflow, creado y respaldado por el socio de Microsoft Seqera. Este sistema en la nube de Azure hizo posible que los equipos trabajaran juntos a través de la misma secuencia de programas de código abierto para llegar a resultados reproducibles. Giorgioni dice que construyeron esta plataforma de investigación centralizada con herramientas que abordan los tres pilares principales de cualquier sistema informático de alto rendimiento: almacenamiento compartido rápido, recursos informáticos de alto rendimiento e interconexiones de red rápidas.
La infraestructura, construida con Azure CycleCloud y que aprovecha los servicios de Azure HPC, permite a los investigadores escalar con facilidad los recursos computacionales según sea necesario, afirma. El almacenamiento compartido basado en Azure Blob, actúa como columna vertebral y ofrece el ancho de banda y la escalabilidad necesarios para los proyectos de investigación con uso intensivo de datos.
«Los investigadores tienen acceso a una amplia gama de recursos informáticos para abordar los desafíos más complejos en su trabajo diario», dice.
Las tuberías basadas en Nextflow ayudan a los científicos del proyecto a convertir los datos brutos sobre el genoma del trigo en información útil, dice Faccioli.


Este rompecabezas genómico puede ser visto y trabajado por equipos de científicos en cualquier parte del mundo. El conocimiento y la información extraídos del rompecabezas genómico se integrarán en nuevas variedades que se pondrán a disposición de los agricultores en los próximos años.
Para decirlo en términos simples, dice Faccioli, a menudo explica a los estudiantes visitantes que hay una gran diferencia entre los datos y la información. «Les doy un número, y eso no es más que un dato. No dice nada», dice. «Pero si les digo que ese número es el número de teléfono de esta oficina, eso es información».
Elisabetta Mazzucotelli es una de las investigadoras de Fiorenzuola que trabaja en el Proyecto Pangenoma. Parte de su trabajo consiste en peinar los genomas de muchas variedades de trigo duro y sus ancestros para redescubrir rasgos genéticos antiguos pero útiles.
Como cualquier planta es domesticada, se produce un efecto de «cuello de botella» en el que algunos rasgos genéticos de la planta anterior se pierden después de cruzarse y replicar una nueva variedad.
«Necesitamos encontrar y registrar toda la diversidad genética que existe porque ahora nos enfrentamos a nuevos desafíos debido al cambio climático», dice. «Puede haber rasgos de resistencia a las enfermedades, o una capacidad para prosperar en el bioma del suelo, que se han eliminado de las variedades actuales de trigo duro».

Mazzucotelli dice que la capacidad de supercomputación en la nube de Azure le permite administrar y comparar cantidades de datos que antes habrían sido imposibles. Para ella, es una herramienta más en la búsqueda del conocimiento.
«Tengo mucha curiosidad, y cuando puedo ver una planta que es verde en un campo que está lleno de otras plantas que son amarillas y susceptibles a las enfermedades, me pregunto por qué hay esta diferencia», dice. «Y en la mayoría de los casos, el resultado es una diferencia a nivel genético. Esto significa que podemos utilizar esta diferencia para aportar innovación y crear una nueva solución. Podemos usar los rasgos de esta planta verde para hacer muchas, muchas más plantas tan verdes y saludables como esta».