На протяжении последних 8 лет Тони Хей занимает должность вице-президента Microsoft Research Connections и руководит исследовательской работой в MSR, а также налаживанием контактов с другими исследовательскими организациями и авторитетными учеными во всем мире. В этом году Тони приехал в Москву, чтобы участвовать в Летней школе MSR — традиционном мероприятии, проводимом исследовательским подразделением Microsoft для обмена опытом и профессионального общения между талантливыми молодыми учеными, работающими в области информационных технологий.
Воспользовавшись случаем, мы встретились с Тони Хеем и задали ему несколько вопросов по теме Летней школы 2013 года — Big Data. Надеемся, читателям будет интересно узнать мнение исследователя и преподавателя с мировым именем о потенциале и возможных путях развития этой технологии.
– “Облачные вычисления”, “большие данные”, “обучающиеся системы” – для многих за этими словами не стоит ничего реального. В каких областях уже сегодня есть интересные примеры использования больших данных, где они появятся в ближайшее время?
– Сегодня на лекции я приводил несколько интересных примеров, каждый из которых мог бы стать ответом на ваш вопрос. Один из них мне кажется особенно актуальным, с учетом того, что сейчас лето и мы в Москве. Вы наверняка помните, как летом 2010 года в Подмосковье горели леса и это стало большой проблемой для жителей столицы? Похожие лесные пожары охватили в 2007 году Грецию. Вообще, проблема – уже совсем не новая, с ней сталкивалась любая страна, в которой есть леса. Однако именно в Греции впервые была опробована система борьбы с лесными пожарами с использованием больших данных. Сотрудники Microsoft в Греции совместно с учеными из Афинского аграрного университета разработали и протестировали на одном из греческих островов вычислительную модель, на основе исторических метеоданных, метеоданных, поступающих в реальном времени со спутников и наземных датчиков, топографии и дорожной сети острова, расположения и типологии лесов, а также ресурсов и местоположения пожарных бригад. Система работала в облаке, поскольку на греческом острове, как вы понимаете, довольно затруднительно найти достаточно мощный центр обработки данных.
В результате система с высокой точностью позволяла выявить места, в которых риск возникновения пожара наиболее велик, просчитать в каком направлении и с какой интенсивностью будет развиваться пожар и своевременно провести профилактические противопожарные меры, а также подготовить местную пожарную службу и жителей.
– Кто на сегодняшний день проявляет наибольшую заинтересованность в использовании Big Data: бизнес, правительства, частные пользователи, сами ИТ-компании?
– К сожалению, я не смогу привести конкретные цифры, поскольку не занимаюсь маркетингом, но заинтересованность и практическую пользу технологий легко экстраполировать. Например, сегодня практически все пользователи (и частные, и корпоративные) работают с теми инструментами, которые предоставляют им облачные технологии. Как мы знаем, они очень быстро получили массовое распространение. То же самое сейчас происходит с большими данными: для кого-то это все еще технология будущего, но для целого ряда компаний и организаций, занятых, например, исследованиями в области медицины и биологии они стали долгожданным средством для решения задач, которые на протяжении многих лет представлялись неразрешимыми. Благодаря Big Data было сделано множество важнейших открытий в области генетики и здравоохранения. Часто бывает так, что одно и то же лекарство по-разному влияет на больных, которым оно прописано – разгадка в генетических различиях. Когда врачи, принимая решение о средствах лечения, смогут учитывать индивидуальные генетические особенности пациента, эффективность их работы увеличится в несколько раз.
Если говорить о тех решениях, которые существуют сегодня, хорошим примером станет система на основе анализа больших данных, прогнозирующая повторное поступление больного в отделение интенсивной терапии. Такая информация не только позволяет экономить ресурсы лечебного учреждения или страховой компании, но и спасает жизни.
– Сравнительно недавно Microsoft рассказала о новой инициативе CityNext. Каким вы видите ее будущее?
– CityNext – отличная демонстрация нового, более эффективносго подхода к решению уже существующей задачи. Прежде всего, такой как оптимизация и анализ информации об окружающей вас городской среде. Эффективность подобных решений была доказана уже неоднократно. В Нью-Йорке у нас есть совместный проект с центром муниципальных исследований Нью-йоркского университета, в рамках которого мы создаем ИТ-инструменты для решения задач, которые стоят перед всеми крупными городами. Например, как организовать пространство, делая его максимально комфортным и безопасным или как повысить эффективность работы городских служб. Я вижу у этого направления большое будущее, в том числе и для создания коммерческих проектов – облачных сервисов, которые помогут наилучшим образом решать повседневные задачи городского жителя.
– Строители крупнейших городов мира, никак не могли предположить будущих проблем, связанных с их ростом. Насколько облачные вычисления и машинное обучение готовы к росту масштабов их востребованности?
– Я думаю, что достижение определенных пределов масштабирования возможно, однако, облачные технологии изначально поддерживают возможность максимального расширения. Они заведомо более эффективны, чем любые альтернативные модели, существующие сегодня.
Что касается аналогии с городами, не могу не вспомнить о том, что в период моей работы в университете, формирование и эксплуатация городской среды была одной из тем, по которым мое мнение не всегда совпадало с мнением коллег. Я пытался уверить их в том, что все городские объекты постепенно станут интеллектуальными: они будут реагировать на изменения окружающей среды, оптимизировать потребление электроэнергии, взаимодействовать с городскими жителями. Те же принципы по моему мнению найдут применения в транспортных и прочих системах. В результате все они станут элементами структуры, которая работает и развивается как единое целое на основе облачных сервисов и машинного обучения. Города станут комфортнее, а проблема роста и перенаселенности уйдет в прошлое. Однако очевидный контраргумент заключается в том, что у каждой системы есть максимальный размер, преодолев который она поменяет свою природу. Не факт, что люди захотят жить в городе, если он превысит некий предел масштаба.
Вероятно, в какой-то момент всем нам придется придумывать что-то новое.
– Если представить себе идеальную ситуацию использования и анализа всех существующих и создаваемых данных, приведет ли это к своеобразному информационному детерминизму?
– Я полагаю, что природа машинного обучения и ряда смежных технологий сегодня выражается в том, чтобы научиться максимально точно прогнозировать вероятности и давать их количественную оценку. Однако некоторая степень неопределенности будет оставаться всегда. Поэтому я не рискнул бы использовать слово «детерминизм» – скорее стоит говорить о создании полезных и эффективных средств, позволяющих принимать обоснованные решения.