Когда слепой человек входит в помещение, он хочет получить ту же информацию, что и любой другой.
Но найти свободное место, чтобы сесть, узнать в толпе знакомого, прочитать эмоции на его лице или хотя бы надпись на информационной табличке такой человек не может.
Обо всех этих проблемах Энн Тэйлор знает не понаслышке. Очень часто ей приходится надеяться на то, что какая-нибудь добрая душа протянет ей руку помощи и проводит к свободному месту, расскажет о том, что ее окружает, или представит собеседников.
По словам Энн, существует немало приложений и инструментов для слабовидящих, но в большинстве случаев они могут выполнять лишь одну функцию, а пользоваться ими не так-то просто. Можно обращаться за помощью к другим людям, но многим слепым не нравится чувствовать себя ущербными, поэтому они предпочитают делать все сами.
Когда Энн начала работать в Microsoft около года назад, она сразу же присоединилась к группе исследователей и инженеров, трудившихся над проектом многофункционального помощника для слабовидящих. Сама Энн называет их детище швейцарским ножом, подразумевая его универсальность.
Я предложила сделать что-то по-настоящему полезное для слепых людей во всем мире. И мы задались целью создать решение, которое действительно изменило бы жизнь этих людей к лучшему.
Проект получил название Seeing AI: в нем используется компьютерное зрение и обработка естественных языков, чтобы рассказывать человеку о том, что его окружает, читать текст, отвечать на вопросы и даже определять выражение лица собеседников. Открытая презентация приложения Seeing AI, предназначенного для смартфонов и умных очков Pivothead, прошла на этой неделе в рамках конференции Microsoft Build. Дата начала продаж станет известна позднее.
По словам Энн Тэйлор, благодаря Seeing AI людям, которые перемещаются с помощью специальной трости или собаки-поводыря, откроется новый, недоступный раньше пласт информации.
«Это приложение чрезвычайно расширяет возможности таких людей», — добавляет она.
На конференции был также представлен демонстрационный сайт CaptionBot, на котором можно получить подробное описание загруженного изображения.
Нейронные сети глубинного обучения, обработка естественных языков и многое другое
Seeing AI и CaptionBot воплощают самые передовые технологии специальных возможностей, в основу которых легли многолетние исследования в области компьютерного зрения, распознавания изображений, обработки естественных языков и машинного обучения.
Буквально за несколько последних лет в исследованиях компьютерного зрения произошла настоящая революция, и то, что совсем недавно казалось невероятным, теперь стало возможным.
«Это можно назвать настоящим чудом, — считает Сяодон Хе (Xiaodong He), ведущий научный сотрудник Microsoft, отвечающий за технологии распознавания изображений в рабочей группе Microsoft Cognitive Services. — Технологии, которыми мы располагаем сегодня, куда более совершенны, чем всего шесть лет назад».
По словам ученого, за минувшие шесть лет им удалось существенно продвинуться в своих исследованиях. Например, недавно Кеннету Трану (Kenneth Tran), старшему инженеру-исследователю, удалось найти способ ускорить работу системы распознавания изображений в 20 раз, что позволит с помощью Seeing AI получать столь нужную информацию гораздо быстрее.
Настоящий прорыв случился пару лет назад, когда исследователям пришло в голову использовать для машинного обучения глубокие нейронные сети, имитирующие биологические процессы, которые происходят в человеческом мозге.
Под машинным обучением понимается улучшение работы систем по мере поступления новых данных, связанных с задачей. Например, если разработчик хочет создать приложение, которое будет предупреждать велосипедиста о появлении сзади него автомобилей, он загрузит в компьютер множество изображений машин, чтобы приложение могло отличить автомобиль от дорожного знака, дерева или другого объекта.
Нейронные сети так или иначе использовались в вычислительных технологиях и раньше, но этот новый способ стал поистине революционным. Благодаря ему компьютерное зрение станет еще более точным.
Еще об одном громком открытии исследователей Microsoft Цзян Сунь (Jian Sun) и Каймин Хе (Kaiming He) стало известно несколько месяцев назад. Они создали систему распознавания фотографий на основе сверхглубоких нейронных сетей, которые также называют нейросетями остаточного класса. Эта новая концепция сделает распознавание изображений куда более точным, чем раньше. Открытие буквально потрясло научное сообщество и принесло авторам победу в конкурсах ImageNet и Microsoft Common Objects in Context.
Инструменты для распознавания и точного описания образов
Взяв эту концепцию за основу, исследователи Microsoft задались амбициозной целью не только научить компьютер распознавать изображения, но и сопровождать их комментариями. В перспективе такое сочетание двух технологий — распознавания изображений и обработки естественных языков — позволит слабовидящим людям получать точные описания изображений. Пригодится это и тем, кто хочет получить информацию, но не имеет возможности рассмотреть изображение, например водителям.
Точность, с которой работает система описания изображений, также снискала признание своим создателям, превзойдя проекты конкурентов. На этой системе построен ряд возможностей Seeing AI и Caption Bot. Теперь ученые хотят увеличить объем данных для обучения, чтобы подарить слабовидящим людям самые лучшие возможности для восприятия мира.
Маргарет Митчелл (Margaret Mitchell) занимается исследованиями в области обработки естественных языков в Microsoft и по праву считается одним из ведущих специалистов по сопровождению изображений текстом. По ее словам, сейчас она и ее коллеги стремятся сделать описания изображений более близкими к человеческой речи.
Например, в том, что компьютер назовет группой людей, сидящих рядом друг с другом, обычный человек увидит просто веселую компанию. Иными словами, задача ученых состоит в том, чтобы научить технологию видеть в изображении то, что увидел бы человек, и описывать только то, что действительно важно.
«Фактическое содержание изображения отличается от того, как мы его воспринимаем», — отмечает Маргарет, которая также является одним из руководителей проекта Seeing AI.
Другие специалисты Microsoft ищут способы повысить информативность описаний изображений при распознавании. Например, чтобы инструмент распознавания смог не только сообщить, что на изображении мужчина сидит рядом с женщиной, но и уточнить, что это Барак Обама и Хиллари Клинтон позируют для снимка.
И в этом контексте нельзя не упомянуть о работе Лэй Чжан (Lei Zhang).
Современные поисковые системы выполняют поиск изображений по связанному с ними тексту.
Лэй Чжан, старший научный сотрудник Microsoft в составе рабочей группы, в которую входит также Яньдун Го (Yandong Guo), занимается разработкой системы, которая сможет распознавать политиков, артистов и других известных личностей на основе элементов изображения, а не текста.
Результаты работы Лэй будут использованы в инструментах для слабовидящих в составе Microsoft Cognitive Services. Это набор инструментов, в основу которого легли последние достижения Microsoft в области машинного обучения. Он предназначен для разработки приложений и сервисов по распознаванию лиц, их выражений и голосов. Возможности этих инструментов можно оценить на демонстрационных сайтах технологий Microsoft. В числе таких сайтов портал how-old.net, который определяет возраст человека по фотографии, и Fetch, умеющий определять породу собаки.
Microsoft Cognitive Services — это новый этап в развитии технологий, на котором новейшие разработки почти мгновенно находят применение в продуктах, предназначенных для широкого круга потребителей. Разработчики инструментов Microsoft Cognitive Services сравнивают свою работу со складыванием мозаики, элементами которой служат передовые технологии.
«После того как все элементы встали на место, мы должны понять, каким образом преподнести их конечному пользователю», — рассказывает Крис Бюлер (Chris Buehler), менеджер по разработке ПО для проекта Microsoft Cognitive Services.
От теории к практике
Исследовательский проект Seeing AI, призванный облегчить жизнь слабовидящих людей, являет собой пример того, как результаты исследований почти мгновенно находят практическое применение в реальных продуктах. Первоначальная концепция проекта родилась на мероприятии //oneweek Hackathon, в ходе которого сотрудники различных подразделений Microsoft стараются вместе найти способ воплотить в жизнь самые смелые идеи.
Над Seeing AI трудились исследователи и разработчики со всего мира, которых привлекла техническая сложность проекта. Кроме того, многие из них в силу внутренних побуждений стремятся помочь слабовидящим людям.
«Одним словом, успехом проект обязан группе весьма непохожих, но при этом крайне талантливых личностей», — отмечает Анирудх Коул (Anirudh Koul), возглавлявший проект Seeing AI с самого начала. У него личный интерес к этому проекту: зрение его дедушки стремительно ухудшается.
Энн Тэйлор, которая представляет в этом проекте интересы слепых, получила не только неоценимый опыт, но и возможность внести вклад в создание продукта, который в будущем может изменить жизнь многих людей к лучшему.
«Нам удалось создать действительно универсальный инструмент, который человечество обязательно оценит по достоинству», — считает она.