Машинное обучение поможет ускорить революцию больших данных

За последнее десятилетие количество продуктов и инструментов, использующих возможности машинного обучения, выросло в разы. В том числе и в продуктах Microsoft. Они позволяют управлять интерфейсом при помощи жестов, распознавать речь и рукописный текст, прогнозировать события и быстро анализировать данные. Все продукты Microsoft последних лет в большей или меньшей степени используют возможности машинного обучения.

Кристофер Бишоп, руководитель Группы по машинному обучению и восприятию в Microsoft Research в Кембридже, выделяет распознавание рукописного текста на планшетных ПК как первый из примеров этого процесса перехода. «Это была первая коммерческая система, имеющая уровень точности распознавания рукописного текста, который можно использовать на практике», — говорит он.

Если тогда это было прорывом, то сейчас существует множество примеров интеллектуальных функций — которые уже воспринимаются, как должное — основанных на машинном обучении. Одна из них — инструмент управления изображениями в Microsoft Office. Функция правки, как говорит Бишоп, удаляет фон с фотографии собаки. «Вы можете вырезать собаку и вставить ее в документ Word — это практически идеальный результат, основанный на компьютерном обучении. Я делаю какие-то действия с изображением в реальном времени, а базовый алгоритм настраивается при просмотре огромного количества изображений».

Проще говоря, для анализа, необходимого для аккуратного удаления фона без обрезания уха у собаки, требуется обработка бесконечного количества статистических данных по объектам вообще и распределению цветов в объектах и фоне. «Это казалось невыполнимой задачей, а сейчас воспринимается, как должное», — замечает Бишоп. Другой замечательный пример продукта Microsoft с машинным обучением в центре технологий — датчик движения и распознавания речи Kinect. Подобным образом, алгоритм предсказания рекламы в поисковом механизме Bing — который используется для оценки вероятности щелчка по рекламному объявлению — также появился благодаря машинному обучению.

Бишоп видит машинное обучение как корзину для множества технологий, которые были разработаны, усовершенствованы, вошли в моду и вышли из нее за последние 30-40 лет, включая искусственный интеллект, интеллектуальные системы, нейронные сети и анализ данных. По сути, все эти технологии поддерживают компьютерные системы, обучающиеся на основании статистического анализа наборов данных. Теперь Бишоп и его команда добавляют новый мощный инструмент Infer.NET, который бесплатно доступен для некоммерческого использования. Он предоставляет каркас для написания программного обеспечения, которое может адаптироваться, обучаться и размышлять, переводя машинное обучение на более высокий уровень, где алгоритмы, масштабируемые до миллионов точек данных будут укрощать, управлять и опрашивать растущий приток Больших данных, формируя начальное понимание и знания.

Революция под управлением данных

«Мы находимся на пороге революции под управлением данных. Для использования этих данных в полном объеме и управления революцией нам нужны новые технологии машинного обучения, которые могут масштабироваться», — говорит Бишоп. Infer.NET обеспечивает такую возможность, позволяя комбинировать детальные знания в предметной области — как показано на графической модели — со статистическим методом байесовского вывода, когда вероятность правильной гипотезы автоматически обновляется при поступлении дополнительных доказательств.

Здесь возможно большее количество допустимых интерпретаций отдельных измерений. Например, при распознавании рукописного текста, «привет» может также интерпретироваться, как «приват» или «привел». В прошлом эти возможности учитывались вручную. При помощи Infer.NET компьютер постепенно обучается. «Сегодня компьютеры оперируют большими объемами информации, но интеллект предоставляет человек. Обучение на основе моделей изменит эту традицию», — говорит Бишоп. Infer.NET сделает возможным написание программного обеспечения для интеллектуальных задач, «когда то, над чем вы работаете, невозможно четко измерить», — добавляет он.

«Большие данные» возникли независимо от машинного обучения, и сегодня можно получить информацию огромных потоков данных, поступающих из социальных сетей, веб-поиска, датчиков состояния окружающей среды, геномики и множества других источников без использования машинного обучения. Примером может быть визуализация данных, такая как наложение преступлений на карту, которая является полезным источником информации для полиции, страховых компаний и продавцов недвижимости.

Однако применение машинного обучения к растущим хранилищам данных приведет к плавному изменению функций, так как это даст возможность просмотра взаимосвязей различных типов данных. Если смотреть с этой точки зрения, слияние машинного обучения и Больших данных может породить новые методы проведения научных исследований и бизнес-аналитики.

 

Астма у детей — откуда она?

Этот потенциал занимает основное место в исследовательской программе, которую Бишоп со своими коллегами ведет вместе с учеными Манчестерского университета, где машинное обучение на основе моделей применяется вместе с традиционными статистическими методами для исследования причин детской астмы .

Исследование рассматривает группу из 1 тыс. детей, которые наблюдаются с рождения, с целью понимания причин, почему у одних людей возникает астма, а у других — нет. Это рассматривается в том контексте, что в то время как ранее основной причиной считался генетический компонент, случаи астмы заметно увеличились в последние 30 лет, что отмечает существенный компонент окружающей среды в этиологии заболевания. Однако до недавнего времени эти факторы изучались по-отдельности, и поэтому попытки определения доли генетики и окружающей среды были неубедительными.

Огромное количество клинических, генетических, экологических и социо-экономических данных, охватывающих 2 тыс. переменных, было собрано примерно за 12 лет с момента рождения детей. Машинное обучение на основании моделей дало возможность получить комплексный обзор всех знаний в предметной области по факторам, которые могут быть важны, и определить их воздействие — и взаимоотношения — одновременно.

За пределами медицинской статистики

Главным результатом исследования на сегодняшний день является пять естественных групп детей — от самой большой в количестве 50% наблюдаемых, у которых астмы нет, до самой малой группы детей, у которых многочисленные аллергии появились на ранних периодах, и сейчас переходят в астму. Эта информация может быть полезна для диагностики, лечения и разработки новых медикаментов от астмы, а также привести к более глубокому пониманию роли генетических факторов в детской астме. «При помощи машинного обучения на основании моделей, мы сможем посмотреть с другой точки зрения на традиционную медицинскую статистику, и, возможно, это поможет нам найти ключи», — говорит Бишоп.

Хотя непосредственной целью является понимание причин астмы, реализация этой задачи сможет стать мощным примером для использования машинного обучения на основании моделей для анализа клинической информации по другим заболеваниям, и открыть понимание других хранилищ Больших данных.

Это исследование также демонстрирует возможности и масштабируемость Infer.NET, прокладывая дорогу для машинного обучения, чтобы вывести продукты Microsoft на качественно новый уровень и направить мощь революции Больших данных на благо пользователей и бизнесов.

По материалам Центра разработки Microsoft в России

Tags: , , ,

Связанные посты