Автор – Вани Мандава, директор Data Science Outreach
Группа Microsoft Research Outreach последние несколько лет активно работала с внешним исследовательским сообществом над созданием облачной инфраструктуры для научных исследований. За это время мы в полной мере ощутили правоту четвертой парадигмы Джима Грея, в соответствии с которой научные открытия происходят на основе обработки больших объемов данных, то есть почти все исследовательские проекты требуют работы с данными. Кроме прочего, рост потоков данных продемонстрировал потребность исследовательского сообщества в систематизированных наборах осмысленных данных, необходимых не только в области информатики, но и в междисциплинарных и предметных науках.
Сегодня мы рады представить Microsoft Research Open Data — новый облачный репозиторий данных, созданный для облегчения совместной работы в международном исследовательском сообществе. Это удобное централизованное облачное хранилище предлагает наборы данных, ставшие результатом многих лет систематизированного сбора данных и исследовательской работы Microsoft. Эти датасеты уже использовались в опубликованных научных исследованиях.
Почему мы инвестируем в это
Наша цель — предоставить исследователям из Microsoft и их партнерам простую платформу для обмена наборами данных и другими исследовательскими инструментами и технологиями. Платформа Microsoft Research Open Data упрощает доступ к наборам данных и облегчает взаимодействие между исследователями, предоставляя необходимые облачные ресурсы и обеспечивая воспроизводимость исследований. Мы продолжим развивать и расширять этот репозиторий и будем добавлять в него функции, о которых просит сообщество.
Мы понимаем, что исследователи уже используют десятки других репозиториев данных, и надеемся, что наш репозиторий расширит имеющиеся возможности для исследований.
«Это многое меняет в сообществе больших данных. Инициативы, подобные Microsoft Research Open Data, уменьшают барьеры на пути к совместному использованию данных и помогают обеспечивать воспроизводимость, используя мощь облачных вычислений».
— Сэм Мэдден, профессор Массачусетского технологического института
Если объемы данных продолжат расти с экспоненциальной скоростью, то к 2025 году у нас будет более 150 зеттабайт данных. Поэтому уже сейчас понятно, что необходимо обрабатывать данные там, где они находятся, а не передавать их по каналам доступа к Интернету, пропускная способность которых растет гораздо медленнее. Мы считаем, что возможность обрабатывать данные там, где они находятся, будет действительно полезной. Поэтому пользователи смогут не только загружать данные на свои компьютеры, но и копировать наборы данных непосредственно на виртуальную машину Data Science в Azure, как показано на рис. 2.
В виртуальную машину Data Science по умолчанию загружены различные средства разработки, популярные среди исследователей и практиков (рис. 3).
«Меня часто просят поделиться моими исследовательскими данными, и те данные, которые я уже предлагал общественности, пользовались большим спросом. Координация и каталогизация этих наборов данных в одном месте с помощью Azure будет полезна как внутренним, так и сторонним исследователям. Это облегчит доступ, будет способствовать сотрудничеству и предоставит возможность использовать богатые наборы общедоступных данных в облаке Microsoft Research».
— Джон Крамм, старший исследователь Microsoft Research AI
Наборы данных в Microsoft Research Open Data категоризированы по основной области исследований, как показано на рис. 4. Здесь можно найти ссылки на исследовательские проекты или публикации, в которых использован выбранный набор данных. Можно просматривать доступные наборы данных и загружать их на свой компьютер или копировать непосредственно в подписку Azure с помощью автоматизированного рабочего процесса. Репозиторий, насколько это возможно, отвечает самым высоким стандартам обмена информацией, обеспечивая доступность наборов данных, их совместимость и возможность многоразового использования; весь корпус не содержит никакой информации, по которой можно идентифицировать личность. Мы продолжим развивать эту платформу по мере получения отзывов от пользователей.
Microsoft Research Open Data — результат работы научной программы Microsoft Research Outreach Data, достижение которого стало возможным благодаря сотрудничеству между многими командами и исследователями из Microsoft, нашими отраслевыми партнерами и научными консультантами.
Мы хотели бы услышать ваши комментарии и отзывы! Написать нам можно с помощью функции Feedback на сайте http://microsoftopendata.com.