Почему Microsoft создает публично доступные наборы данных и метрики

Самира Эбрахими Каху (Samira Ebrahimi Kahou) и ее коллеги из Maluuba, дочерней исследовательской компании Microsoft, недавно занялись поиском решения интересной научной проблемы: как использовать искусственный интеллект для получения корректных выводов на основе информации, представленной в виде графиков и круговых диаграмм?

Адам Аткинсон, Microsoft Research Montreal, Джошуа Беньо, Университет Монреаля, Самира Эбрахими Каху, Microsoft Research Montreal.

Одним из больших препятствий на этом пути стала новизна области исследования — не существовало никаких наборов данных для проверки выдвигаемых гипотез.

Поэтому исследователи создали свой собственный.

Набор данных FigureQA, который группа опубликовала этой осенью, — это только один из наборов данных, метрик и других инструментов для тестирования систем ИИ, созданных исследователями и инженерами Microsoft за последние годы. Исследователи по всему миру используют эти инструменты, чтобы проверять, насколько хорошо их ИИ-системы справляются с различными задачами, от перевода разговорной речи до прогнозирования последующих слов при наборе текста.

Эти инструменты предоставляют кодифицированный способ, с помощью которого любой исследователь, будь то ученый или промышленный эксперт, может сравнить свою работу с работами других исследователей и перенять их опыт.

«Это помогает нам точнее ставить цели, а другим исследователям — понимать, куда мы движемся», — говорит Ранган Маджумдер (Rangan Majumder), руководитель партнерской группы из подразделения Microsoft Bing, также возглавляющий разработку набора данных для машинного чтения и понимания текста MSMARCO. В конце года выйдет обновление этого набора, выпущенного год назад.

Людям, привыкшим к традиционной для технологической индустрии модели поведения, свободное распространение информации может показаться странным. Но в области ИИ, где академические и промышленные исследования тесно переплетены, такая открытость становится все более распространенной.

«Традиционно компании проводили закрытые исследования. Сейчас мы видим серьезные сдвиги, и почти каждая компания публикует свои результаты, стремясь внести вклад в общее развитие, а не прячет их под замком», — говорит Рахул Мехротра (Rahul Mehrotra), руководитель программ монреальской лаборатории Maluuba, опубликовавшей в прошлом году два набора данных: NewsQA и Frames.

Эксперты по ИИ говорят, что такая культура сотрудничества жизненно необходима для развития ИИ. Многие из первых прорывов в этой области стали возможны благодаря тому, что исследователи из конкурирующих организаций делились знаниями и опирались на работы друг друга.

«Мы не можем работать над всем сразу, но если у кого-то есть отличная идея, мы можем дать ему набор данных, чтобы он мог проверить ее», — говорит Кристиан Федерманн (Christian Federmann), старший менеджер из команды Microsoft Translator.

Группа Федерманна разработала корпус перевода разговорной речи Microsoft, позволяющий проверять системы двуязычного перевода, такие как компонент Microsoft Translator для перевода в реальном времени и Skype Translator. Этот корпус недавно обновился, добавлены новые пары языков.

Как отмечает Федерманн, Microsoft — один из немногочисленных больших игроков, имеющих бюджет и ресурсы для создания высококачественных наборов данных и других инструментов, помогающих представителям отрасли сравнивать свою работу.

Это ключ к созданию целого класса тестов, которые люди могут использовать для достоверного подтверждения своих достижений. Например, последние разработки в области распознавания разговорной речи опираются на результаты корпуса Switchboard.

Ранган Маджумдер, руководитель партнерской группы из подразделения Microsoft Bing

Платить вперед

Многие группы, разрабатывающие наборы данных и другие метрики, говорят, что им в некотором смысле «платят вперед», потому что они сами опираются на наборы данных, созданные другими исследователями.

Как говорит Рахул Мехротра, когда Maluuba была небольшим стартапом, компания активно использовала набор данных Microsoft MCTest. Теперь, став частью Microsoft, они рады видеть, что создаваемые ими наборы данных используются другими специалистами в этой области.

Деви Парикх (Devi Parikh), старший преподаватель Технологического института Джорджии и ученый из отдела исследования ИИ Facebook, говорит, что набор данных FigureQA, недавно опубликованный Maluuba, весьма полезен, поскольку позволяет исследователям, таким, как она сама, работать над проблемами, требующими использования многих типов ИИ. Чтобы точно считать изображение и ответить на вопрос о нем, требуется и компьютерное зрение, и обработка естественного языка.

«Как исследователь, я вижу все больше и больше интереса к работе над проблемами, находящимися на пересечении разных направлений ИИ», — говорит Парикх.

Однако, хотя исследователи и инженеры, работающие в области ИИ, говорят, что распространение информации очень полезно, иногда конкурирующим разработчикам требуется возможность сравнивать свои системы, не раскрывая всей информации об используемых данных.

Дуг Орр (Doug Orr), главный инженер по разработке ПО из компании SwiftKey, которую Microsoft приобрела в прошлом году, говорит, что его группа хотела создать стандартный способ оценки качества систем, прогнозирующих продолжение вводимых человеком слов. Это основной компонент продуктов SwiftKey, предлагающих персонализированные прогнозы на основе личного стиля общения человека.

Вместо того, чтобы публиковать набор данных, группа создала набор метрик, который можно использовать с любым набором данных. Эти метрики, доступные на GitHub, предоставляют исследователям стандартизированные тесты и контрольные точки, позволяющие оценивать собственные системы и сравнивать их с другими, не раскрывая конфиденциальные данные.

Дуг Орр говорит, что эти метрики принесли пользу его сотрудникам, точнее показывая им, как их системы совершенствуются со временем, и позволяя любому исследователю в этой сфере получить более четкое представление о том, каково его положение относительно конкурентов.

Ранган Маджумдер из Bing говорит, что его группа видит пользу в проверке своих систем с помощью всех доступных тестов, включая внутренние закрытые данные, наборы данных, созданные группой для публичного использования, и сторонние инструменты, такие как набор данных SQuAD.

Он говорит, что людям, приходящим в его группу из других областей, часто приходится привыкать к тому, что они вступают в гибридную область, где группа, разрабатывающая продукты, также совершает прорывы в исследованиях ИИ.

По его словам, область ИИ находится где-то между инженерным искусством и наукой.

Платить вперед

Связанные посты