Массив данных от Microsoft поможет машинам отвечать на вопросы не хуже людей

Microsoft обнародовала массив из 100 тыс. вопросов и ответов, которыми смогут воспользоваться разработчики искусственного интеллекта для создания систем, способных распознавать вопросы и отвечать на них не хуже людей.

Набор данных называется MS MARCO, что расшифровывается как Microsoft MAchine Reading COmprehension (машинное чтение и понимание текста), и, по словам команды разработчиков, это самый полезный набор данных в своем роде, поскольку он основан на анонимных данных от реальных пользователей. Предоставив широкий доступ к этому набору данных, команда надеется поспособствовать таким же прорывам в сфере машинного чтения, как и те, что сейчас наблюдаются в сфере распознавания изображений и речи.

Разработчики также надеются стимулировать инновации, которые способны в конечном счете привести к реализации долгосрочной цели по созданию общего искусственного интеллекта (artificial general intelligence) или машин, способных думать как люди.

«Для того чтобы приблизить создание общего искусственного интеллекта, нам необходимо научить машину читать документы и понимать их как человек, – говорит Ранган Маджумдер, руководитель исследовательской программы в подразделении Bing, возглавляющий работу над проектом. – Это и есть шаг в данном направлении».

В настоящий момент, по словам г-на Маджумдера, возможности систем отвечать на сложные вопросы находятся в зародышевом состоянии. Поисковые системы, такие как Bing, и виртуальные помощники, такие как Cortana, могут отвечать на простейшие вопросы, вроде «когда начинается Ханука?» или «сколько будет 2000 умножить на 43?».

Однако во многих случаях поисковики и виртуальные помощники вместо ответа предлагают пользователю набор результатов поиска. В итоге пользователь получает нужную информацию, однако для этого ему приходится отсортировать результаты поиска, а ответ на вопрос он находит на сторонней интернет-странице.

Для того чтобы улучшить системы автоматических ответов на вопросы, разработчикам требуется надежный источник данных для обучения. Наборы данных MS MARCO можно использовать для того, чтобы научить системы искусственного интеллекта распознавать вопросы и формулировать ответы на них. В итоге можно будет научить такие системы предлагать ответы на уникальные вопросы, не встречавшиеся ранее.

Маджумдер и его команда, в которую входят специалисты Microsoft и разработчики продуктов Microsoft, утверждают, что массив данных MS MARCO имеет особую ценность, поскольку вопросы основаны на реальных запросах в поисковике Bing и виртуальном помощнике Cortana. Команда выбрала из них анонимные вопросы, которые, по их мнению, представляли наибольший интерес для разработчиков. Кроме того, вопросы были сформулированы реальными людьми, основаны на реальных веб-страницах и были проверены на предмет точности.

Предоставляя открытый доступ к реальным вопросам и ответам, исследователи могут обучать системы для более эффективной работы с различными нюансами и сложностями, которые содержатся в вопросах обычных людей, включая запросы, на которые нельзя дать четкий ответ или когда возможных ответов несколько.

Например, в наборе данных есть вопрос «чем питались древние греки?». Для правильного ответа на этот вопрос приходилось копаться в обрывках информации из различных документов и во фрагментах текстов, где упоминались такие продукты, как злаки, торт, молоко, оливки, рыба, чеснок и капуста.

Ли Дэн, менеджер по работе с партнёрами Microsoft Deep Learning Technology Center, отмечает, что раньше наборы данных создавались с рядом ограничений и запретов. Таким образом исследователям было проще создавать решения, которые можно было сформулировать в виде «задачи классификации», как это называют ученые, работающие с системами искусственного интеллекта. При этом от компьютера не требовалось понимания того, что собственно означает текст вопроса.

По его словам, MS MARCO создавался для того, чтобы исследователи могли экспериментировать с более продвинутыми моделями глубокого обучения, тем самым двигая вперед исследования в сфере искусственного интеллекта.

«Наш массив данных создан не только с использованием информации из реального мира, но и без указанных выше ограничений, чтобы модели глубокого обучения нового поколения могли сначала понимать исходные данные, и лишь затем отвечать на вопросы», – сказал он.

По словам г-на Маджумдера, способность систем отвечать на сложные вопросы может предоставить новые возможности, позволив людям эффективнее получать нужную информацию.

Представим, что студентке надо узнать, может ли она претендовать на получение определенного кредита. Поисковик может направить её на ряд сайтов, где она прочитает массу информации и сама найдет ответ. Но с помощью улучшенных инструментов, виртуальный помощник сможет отсортировать информацию вместо неё и быстро дать подробный ответ, который подходит именно этой студентке.

«С учетом того, что значительная часть всей информации в мире представлена в текстовом формате, если мы научим машины читать и понимать документы так же хорошо, как люди, мы сможем обеспечить реализацию подобного примера на практике», – говорит г-н Маджумдер.

Долгосрочная цель – общий искусственный интеллект

Во всяком случае, сейчас исследователи далеки от создания систем, действительно способных понимать или воспринимать то, что люди говорят, видят или пишут. Именно это понимается под «общим искусственным интеллектом».

Однако в последние несколько лет специалисты в сфере машинного обучения и искусственного интеллекта в Microsoft и не только добились потрясающего прогресса в создании систем, умеющих распознавать слова в разговорной речи и верно определять элементы изображений.

«Microsoft был первопроходцем в распознавании речи и изображений, и теперь мы стремимся стать лидерами в обучении машин понимать тексты», – заявил г-н Маджумдер.

«Однако эту проблему ни одна компания в мире не сможет решить в одиночку», – отмечает он. По словам г-н Маджумдера, одна из причин, по которой его команда предоставила широкий доступ к указанному набору данных, состоит в стремлении сотрудничать с коллегами в данной сфере исследований.

Массив MS MARCO сформирован по образцу схожих наборов данных для обучения, которые создавались для содействия передовым разработкам в различных областях машинного обучения и искусственного интеллекта. В частности, это относится к базе данных ImageNet, которая считается лучшим набором данных, использовавшимся в самых продвинутых технологиях распознавания изображений. Команда специалистов Microsoft использовала ImageNet при тестировании первых глубинных остаточных сетей (deep residual network), которые смогли значительно повысить точность распознавания изображений.

Команда, работающая над MS MARCO, планирует последовать примеру ImageNet и следить за успехами отдельных команд исследователей. Со временем это может трансформироваться в соревнование в рамках ежегодных конкурсов ImageNet.

Массив данных MS MARCO бесплатно доступен для скачивания всем, кто планирует использовать его в некоммерческих целях.

Связанные посты