Microsoft открывает доступ к облачным инструментам для геномных исследований

Слева направо: Рави Пандья, Джералин Миллер и Боб Дэвидсон обсуждают службу Microsoft Genomics. (Фото: Дэн Делонг для Microsoft.)
Слева направо: Рави Пандья, Джералин Миллер и Боб Дэвидсон обсуждают службу Microsoft Genomics. (Фото: Дэн Делонг для Microsoft.)

Чтобы совершать открытия, ведущие к прорывам в лечении онкологических заболеваний у детей, исследователям со всего мира нужна возможность делиться геномными данными и совместно изучать их. Поэтому в 2010 году специалист по вычислительной биологии Джингуи Чжан со своей командой из Детского исследовательского госпиталя Св. Иуды (St. Jude Childrens Research Hospital) начала загружать в общедоступные репозитории анонимизированные геномы здоровых и раковых клеток своих пациентов.

«Мы понимали, что загружать данные и использовать их в исследованиях очень сложно из-за их огромных объемов, — говорит Чжан. — Поэтому наш госпиталь начал искать другие способы обмена данными с глобальным исследовательским сообществом». Это привело к сотрудничеству с группой, занимающейся геномными исследованиями в Microsoft. В то время Microsoft начинала работу над облачными вычислительными ресурсами, позволяющими сопоставлять миллиарды фрагментов необработанных геномных данных с референсными геномами, а затем определять, чем отличаются сопоставляемые и ссылочные геномы, используя аналитический метод сопоставления и определения вариантов.

В среду, 28 февраля, Microsoft объявила об открытии доступа к службе Microsoft Genomics, ставшей результатом работы Microsoft в этой важной области.

Джингуи Чжан, профессор кафедры вычислительной биологии Детского исследовательского госпиталя Св. Иуды, беседует с ассистентом Сяном Ченом. (Фото: Детский исследовательский госпиталь Св. Иуды / Питер Барта.)
Джингуи Чжан, профессор кафедры вычислительной биологии Детского исследовательского госпиталя Св. Иуды, беседует с ассистентом Сяном Ченом. (Фото: Детский исследовательский госпиталь Св. Иуды / Питер Барта.)

Варианты — это то, что делает индивидов уникальными. Это маркеры самых разных черт, от физических качеств до склонности к заболеваниям. Чтобы разобраться в значениях вариантов, исследователи используют метод, называемый полногеномным поиском ассоциаций. Чем больше геномных данных исследователи будут получать и анализировать, тем точнее они смогут раскладывать их на составляющие сложные биологические структуры и быстрее приближаться к нахождению методов лечения рака и других заболеваний.

Команда доктора Чжан работает над созданием конвейера для сопоставления геномов и поиска вариантов совместно с исследователями из Microsoft, с помощью безопасной облачной платформы DNAnexus, созданной на основе Microsoft Azure.

К сегодняшнему дню исследователи обработали около 500 терабайт геномных данных и сохранили их в Azure для дальнейшего анализа. Для сравнения: чтобы записать 500 терабайт, потребуется 750 000 стандартных компакт-дисков.

Геномные данные из госпиталя Св. Иуды, проанализированные с помощью конвейера и сохраненные в облаке, стали основой для платформы обмена данными, которую исследовательский госпиталь создает вместе с DNAnexus и Microsoft. Цель этого предприятия — предоставить исследователям со всего мира возможность участия в поиске методов лечения онкологических заболеваний, которые каждый год диагностируются примерно у 175 000 детей младше 15 лет.

«Возможность проводить опыты с реальными данными совместно с такими исследователями — это большая удача для нас», — говорит Джералин Миллер, руководитель группы геномных исследований Microsoft.

Легкое получение качественных данных

Служба Microsoft Genomics является частью инициативы Microsoft Healthcare NExT, нацеленной на ускорение внедрения инноваций в области здравоохранения посредством искусственного интеллекта (ИИ) и облачных вычислений.

Боб Дэвидсон, старший архитектор ПО, геномная группа Microsoft. (Фото: Дэн Делонг для Microsoft.)
Боб Дэвидсон, старший архитектор ПО, геномная группа Microsoft. (Фото: Дэн Делонг для Microsoft.)

В геномике путь к достижению этих целей начинается с достоверных и точных данных. «Мы знаем, что нам нужны качественные данные, и если мы значительно облегчим получение таких данных, тогда мы сможем передавать биологическую информацию в облако для анализа и, будем надеяться, сделаем работу более продуктивной и результативной», — говорит Боб Дэвидсон, старший архитектор ПО из геномной группы Microsoft.

Дэвидсон объяснил, что служба Microsoft Genomics — важнейший элемент следующего поколения механизмов на основе искусственного интеллекта, которые помогут совершать прорывы в понимании и эффективном лечении рака и других заболеваний. Например, анализируя геномные данные опухолей и здоровых тканей пациента, врач сможет выбирать наиболее подходящее лечение, опираясь на результаты сравнения с данными о других раковых пациентах, включая методы и исходы лечения.

Миллер отмечает, что общий конвейер для обработки геномных данных помогает уменьшить шум и искажения, ухудшающие качество данных, и получить более сильный сигнал для ИИ-элементов точной медицины.

«Мы делаем этот этап общедоступным, — говорит Миллер. — Мы хотим, чтобы люди могли легко пройти его и на выходе получить согласованный набор данных».

Идеальная работа для облака

Этап секвенирования, на котором выполняется сопоставление и поиск вариантов, называется вторичным анализом. Возможность сделать этот этап общедоступным стала появляться по мере снижения стоимости секвенирования одного человеческого генома. Если в 2001 году для этого требовалось 100 млн долл., то сегодня менее 1000 долл., что сопоставимо со стоимостью других распространенных медицинских тестов. Эксперты ожидают, что такое удешевление приведет к резкому увеличению спроса, и к 2025 году будет секвенировано более 100 млн человеческих геномов.

Джералин Миллер, руководитель геномной группы Microsoft. (Фото: Дэн Делонг для Microsoft.)
Джералин Миллер, руководитель геномной группы Microsoft. (Фото: Дэн Делонг для Microsoft.)

Но это создает другую проблему, которую Microsoft и DNAnexus уже готовы решить. Для хранения одного человеческого генома требуется около 100 Гб дискового пространства, а с увеличением числа секвенированных геномов гигабайты данных превратятся в петабайты и экзабайты. Ожидается, что к 2025 году для хранения данных человеческих геномов потребуется хранилище объемом 40 экзабайт. Экзабайт равен примерно 1000 петабайтам, что эквивалентно 1,5 млрд стандартных компакт-дисков.

«Геномные данные — это действительно большие данные, требующие очень интенсивных вычислений», — говорит Миллер. Обработка одного человеческого генома занимает несколько сотен часов процессорного времени. Современные ноутбуки обычно оснащены четырехъядерными процессорами, тогда как в дата-центрах доступны сотни тысяч процессоров, что делает обработку геномных данных «идеальной работой для облака».

Кроме того, с обработкой геномных данных связан целый ряд юридических и этических требований, необходимых для обеспечения конфиденциальности и безопасности данных. В распоряжении Microsoft есть сеть центров обработки данных Azure, распределенных по всему миру, и служба Microsoft Genomics в настоящее время доступна в США, Западной Европе и Юго-Восточной Азии. Microsoft Genomics прошла сертификацию ISO, подтверждающую, что эта служба соответствует определенным международным стандартам безопасности, конфиденциальности и качества. В дополнение к этому, Microsoft распространяет на эту службу деловое соглашение HIPAA, в соответствии с которым компании должны ответственно подходить к управлению персональными медицинскими данными. Применяемые принципы и правила безопасности описаны на сайте Microsoft Trust Center.

Экосистема партнеров

Компания DNAnexus, управляющая геномными данными, работает с Детским исследовательским госпиталем Св. Иуды над созданием платформы для обмена данными на основе Azure. DNAnexus будет интегрировать службу Microsoft Genomics и другие средства анализа и визуализации геномных данных, предоставляя исследователям интерфейс для доступа к инструментам и наборам данных и создавая безопасную экосистему для совместной работы.

«Мы добиваемся наибольшего успеха, когда наши ученые решают научные проблемы вместе с учеными наших клиентов, а затем переносят данные на эту платформу. Они проводят определенные испытания, после чего начинается главная работа, — говорит Ричард Дэли (Richard Daly), директор DNAnexus. — В данном случае наша команда активно работает вместе с госпиталем Св. Иуды и с Microsoft над определением требований и созданием решений на их основе».

Миллер, Дэвидсон и их коллеги из группы геномных исследований Microsoft рассматривают службу Microsoft Genomics как первый из многих инструментов, которые будут включены в основанную на Azure экосистему, объединяющую всех партнеров, включая DNAnexus. Например, как отмечает Миллер, пока не решен вопрос, вставший перед исследователями из госпиталя Св. Иуды: как будет происходить обмен и совместная работа с данными разного типа, полученными разными организациями с помощью разных инструментов?

«Службу Microsoft Genomics отличает акцент на исследованиях, — говорит Миллер. — Мы имеем достаточно экспертных знаний, чтобы пробовать новое и воплощать в жизнь идеи, возникшие в лабораториях».

Ссылки по теме (на английском языке):

Связанные посты