Microsoft совершила крупнейший прорыв в распознавании речи благодаря созданию технологии, которая позволяет распознавать слова речи столь же хорошо, как это делает человек.
В отчете, опубликованном в понедельник, группа исследователей и инженеров из подразделения Microsoft Artificial Intelligence and Research сообщила о системе распознавания речи, которая совершает равное или меньшее количество ошибок по сравнению с профессиональными специалистами по распознаванию речи. По данным исследователей, частота ошибочных слов (word error rate, WER) составила 5,9 % по сравнению с 6,3 %, указанными в отчете группы всего месяц назад.
Показатель в 5,9 % ошибок примерно равен количеству ошибок, совершаемых людьми при транскрибировании того же фрагмента речи. Это минимальный, за все время исследований, уровень ошибок по результатам отраслевого стандартного теста Switchboard по распознаванию речи.
«Мы достигли равных возможностей с человеком, — сказал Сюэдунь Хуань (Xuedong Huang), главный научный сотрудник Microsoft по речевым технологиям. — Это историческое событие».
Столь важное событие означает, что впервые компьютер стал способен распознавать слова в речи так же эффективно, как это делает человек. Таким образом, команда исследователей достигла цели, поставленной менее года назад, и существенно превзошла всеобщие ожидания.
«Пять лет назад я не мог и представить, что мы сможем добиться таких результатов. Мне и в голову не приходило, что это станет возможным», — сказал Гарри Шум (Harry Shum), исполнительный вице-президент, руководитель группы Microsoft Artificial Intelligence and Research.
Это важное событие стало результатом десятилетий исследований в области распознавания речи, начиная еще с 1970-х годов, когда велась совместная работа с Агентством передовых оборонных исследовательских проектов США (DARPA), в задачи которого входит совершение важных технических открытий ради интересов национальной безопасности. На протяжении десятилетий к этим работам присоединилось большинство ведущих технических компаний и многие исследовательские организации.
«Это достижение стало кульминацией свыше двадцати лет исследований», — говорит Джеффри Цвейг (Geoffrey Zweig), руководитель исследовательской группы Speech & Dialog.
Это важное событие серьезно повлияет на продукты потребительского и бизнес-класса, возможности которых могут быть существенно расширены благодаря распознаванию речи. К их числу относится Xbox (развлекательное устройство потребительского класса); специальные возможности других приложений, такие как мгновенное преобразование речи в текст; личные цифровые помощники, например Кортана (Cortana).
«Это позволит расширить возможности Кортаны, что сделает ее по-настоящему «умной» помощницей, насколько это возможно», — сказал Гарри Шум.
Равенство, а не совершенство
Однако это достижение исследователей не означает, что компьютер идеально распознал каждое слово. На самом деле, на это не способен даже человек. Это лишь значит, что процент ошибок или количество случаев, когда компьютер вместо «have» услышал «is» или вместо «a» — «the», у компьютера и человека, слышащего тот же фрагмент речи, будет одинаковым.
Цвейг объясняет достигнутые успехи планомерным использованием новейших технологий нейронных сетей во всех аспектах системы.
Толчком к столь высоким результатам исследований послужило применение нейронных моделей языка, в которых слова представлены как векторы в пространстве; при этом такие слова, как «быстрый» (fast) и «скорый» (quick), расположены ближе друг к другу.
«Благодаря этому модели очень эффективно выполняют генерализацию от слова к слову», — сказал Цвейг.
«Мечта сбывается»
Для того чтобы обучить компьютерные системы распознаванию моделей в такой входной информации, как изображения и звуки, глубокие нейронные сети используют большие объемы данных, называемые «тренировочными наборами» (training sets).
Для достижения равных возможностей с человеком команда исследователей использовала набор инструментов Microsoft Computational Network Toolkit (CNTK) — собственную систему для глубокого обучения, проект с открытым исходным кодом, распространяемый через GitHub.
Как сказал Суэдунь Хуань, инструментарий CNTK позволяет быстро выполнять алгоритмы глубокого обучения на нескольких компьютерах, оснащенных специальным графическим процессором (GPU). Это существенно повысило скорость проведения исследований и помогло достичь главной цели — равенства с человеческими возможностями.
Показатели быстро улучшались, и как только команда осознала, что она нашла верный путь, она уже не могла остановиться. Суэдунь Хуань сказал, что контрольная точка была достигнута примерно в 3:30 утра. Об этой победе он узнал из сообщения в закрытой социальной сети несколько часов спустя, когда проснулся.
«Я понял, что мечта сбылась», — сказал Суэдунь Хуань, работающий в области распознавания речи свыше тридцати лет.
Эта новость пришла на той же неделе, когда стало известно о достижении другой команды исследователей Microsoft, занимающейся компьютерным зрением. Они заняли первое место в состязании COCO image segmentation challenge, выявлявшем, насколько точно система способна определить расположение объектов на изображении.
Байнинг Гуо (Baining Guo), младший управляющий директор подразделения Microsoft Research Asia, отметил, что задача сегментирования является особенно сложной, поскольку система должна провести четкие границы объекта на изображении.
«И это самое сложное при обработке изображения», — сказал он.
Результаты команды Microsoft, которая использовала признанную систему очень глубокой нейронной сети, разработанную в прошлом году специалистами Microsoft по компьютерному зрению, на 11 % превзошли показатели команды, занявшей второе место, и намного улучшили собственные результаты по сравнению с прошлым годом, когда команда Microsoft также была первой.
«Мы остаемся лидерами в области распознавания изображений», — сказал Гуо.
От распознавания к пониманию
Несмотря на достигнутые за последние годы крупные успехи в области распознавания речи и зрительных образов, исследователи предупреждают о том, что предстоит еще много работы.
Цвейг также отметил, что исследователи сейчас работают над повышением эффективности распознавания в условиях, приближенных к реальным, например, в местах с сильным фоновым шумом — на вечеринке или на трассе. Они также будут работать над усовершенствованием технологии для именования (идентификации) отдельных участников разговора, если беседуют несколько человек, с учетом широкого многообразия голосов, независимо от возраста, акцента и других характеристик.
В долгосрочной перспективе исследователи сосредоточатся на том, чтобы обучить компьютер не просто распознавать акустические сигналы, исходящие из уст человека, но и понимать произносимые им слова. Таким образом, компьютеры смогут отвечать на вопросы или совершать какие-либо действия, реагируя на то, что им говорят.
«Следующая цель — перейти от распознавания к пониманию», — сказал Цвейг.
По словам Гарри Шума, проходят те времена, когда человек должен был понимать компьютер. Теперь компьютеры должны понимать нас. Однако он считает, что настоящий искусственный интеллект может появиться лишь в далеком будущем.
«Пройдет еще много времени, прежде чем компьютеры смогут понимать истинное значение речи и изображений», — сказал Гарри Шум.