Перейти к основному содержанию
Перейти к основному контенту
Новости
Тео, 12-летний незрячий подросток, общается со старшими инжененерами по разработке программного обеспечения Тимом Реганом (в центре) и Мартином Грейсоном (справа) в момент тестирования системы проекта Токио. Фото Jonathan Banks.

Искусственный интеллект помогает незрячим найти знакомые лица

Представьте британский Кембридж серым промозглым декабрьским утром. Тео, 12-летний незрячий подросток, сидит за столом в кухне, полной людей. На его голове обод гарнитуры с закрепленными камерами, датчиком расстояния и динамиками. Раздается сигнал. Тео поворачивает голову направо, затем налево, пока камера впереди на ободке не зафиксирует положение носа собеседника напротив.

Через динамики над ушами Тео слышит глухой звуковой сигнал и имя «Мартин».

«Я смог найти тебя всего за пять секунд, Мартин, – говорит Тео, повернувшись к Мартину Грейсону, старшему инженеру по разработке программного обеспечения в исследовательской лаборатории Microsoft в Кембридже. Грейсон стоит рядом с черным ящиком c оборудованием, на котором будут работать модели машинного обучения и обеспечивать функционирование прототипа систем распознавания для Тео.

Мама Тео Элин говорит: «Мне так понравилось, как ты повернулся к нему! Это так здорово!»

Тео поворачивает голову в сторону, где находится мама, динамики издают очередной звуковой сигнал и имя «Тим».

«Тим, вот ты где!» – восклицает Тео, направив взор в сторону Тима Регана, еще одного старшего инженера лаборатории по разработке программного обеспечения, взявшего Тео под свое крыло и обучающего его навыкам написания программных кодов на продвинутом уровне.  Вместе со своей мамой Тео раз в два месяца приходили домой к Регану на уроки программирования. Они познакомились на исследовательском проекте, который привел к созданию Code Jumper, физического языка программирования, предназначенного для детей с любой степенью нарушения зрения.

Тео – один из нескольких участников сообщества людей с нарушениями зрения, кто работает с Реганом, Грейсоном, а также исследователем Сесили Моррисон и ее командой над проектом Project Tokyo – комплексным исследованием для создания интеллектуального персонального агента на основе искусственного интеллекта, который сможет расширить человеческие возможности. Для Тео это означает создание инструментов, позволяющих узнавать окружающих.

«Это так здорово видеть, кто где находится вокруг меня! – говорит Тео. – Видеть не только тех, кто говорит, но и тех, кто молчит, чего я, конечно, раньше не мог».

Но главное, как замечает Моррисон, Project Tokyo – это исследование, которое ставит перед собой долгосрочную цель показать, как строить интеллектуальных персональных агентов, которые расширяют возможности всех пользователей без исключения. Вместо построения конечных систем для выполнения конкретных задач, она видит будущее ИИ в создании ресурсов, которые могут быть подстроены под любые нужды.

«Теперь мы не скажем: «Привет, ты незрячий, а я сделал что-то доступным для тебя». Сейчас мы говорим: «Привет, ты такой, какой ты есть, и я построил систему, которая будет работать именно для тебя», – говорит она. – Мне не нужны  ярлыки. Я просто могу создать то, что подойдет тебе, потому что у меня есть система, которую ты возьмешь и адаптируешь под себя».

Мартин Грейсон, старший инженер по разработке программного обеспечения лаборатории Microsoft в Кембридже, Великобритания, регистрирует Сесили Моррисон в систему Project Tokyo для пользовательского тестирования. Фото Jonathan Banks.
Мартин Грейсон, старший инженер по разработке программного обеспечения лаборатории Microsoft в Кембридже (Великобритания), регистрирует Сесили Моррисон в системе Project Tokyo для тестирования. Фото Jonathan Banks.

Бразильские паралимпийцы

Project Tokyo родился в начале 2016 года, когда топ-менеджеры Microsoft бросили сами себе вызов создать ИИ-систему, которая вышла бы за рамки выполнения таких задач, как подведение счета в спортивных состязаниях, прогноз погоды или идентифицирование объектов. Моррисон считает, что создание инструментов для незрячих или людей с плохим зрением было естественным развитием проекта, потому что как раз люди с физическими особенностями самыми первыми принимают технологические новшества. Как говорит Моррисон: «Это не про то, что «давай создадим что-нибудь для незрячих». Мы работаем вместе с этими людьми, которые помогают нам представить будущее. И это будущее – про новые возможности, которые дает нам искусственный интеллект.

Моррисон и ее коллеге Эду Кутреллу, старшему научному сотруднику исследовательской лаборатории Microsoft в Редмонде (Вашингтон), было предложено возглавить проект. Оба были экспертами в разработке технологий в сотрудничестве с незрячими или плохо видящими людьми, поэтому они решили начать с поиска, как технология агента может усилить или расширить возможности таких пользователей.

Для начала они стали следить за группой атлетов и болельщиков с разным уровнем зрения из Великобритании, которые приехали в 2016 году на паралимпийские игры в Рио-де-Жанейро. Исследователи наблюдали, как они контактировали с окружающими, когда было нужно сориентироваться в аэропорту, как посещали спортивные мероприятия и осматривали достопримечательности.

«Будучи людьми мы обладаем очень тонким и высокоразвитым чувством социального контакта с другими. Например, я знаю, кто находится в комнате, что эти люди делают, имеет ли это отношение ко мне и какое, – говорит он. – Для незрячих людей многих коммуникативных сигналов, которые мы воспринимаем как должное, просто нет».

Понимание этой ситуации послужило отправной точкой для целой серии воркшопов для слабовидящих людей по технологиям, которые могут предоставить такой опыт. Работавший в команде проекта незрячий 50-летний звукоинженер Петер Бошер убежден, что концепция технологии предоставления информации об окружающих людях для слабовидящего человека срезонировала немедленно.

«Когда я попадаю в ситуацию, когда между собой общаются более двух-трех человек, и особенно, если я не знаю кого-то из них, мне становится несоизмеримо сложнее понимать беседу. Потому что в таких случаях люди с помощью языка телодвижений и визуального контакта посылают сигнал, что хотят поговорить с таким-то и таким-то, а это, конечно, недоступно невидящему человеку».

Эд Кутрелл, старший научный сотрудник исследовательской организации Microsoft в Редмонде, Вашингтон, соруководитель Project Tokyo. На его столе лежат несколько пар модифицированных HoloLens, которые исследователи используют, чтобы помогать незрячим или плоховидящим людям учиться определять, кто где находится в их ближайшем окружении. Фото Dan DeLong
Эд Кутрелл, старший научный сотрудник исследовательской организации Microsoft в Редмонде (Вашингтон), соруководитель Project Tokyo. На его столе лежат несколько пар модифицированных HoloLens, которые исследователи используют, чтобы помогать незрячим или плоховидящим людям учиться определять, кто где находится в их ближайшем окружении. Фото Dan DeLong.

Модификация HoloLens

Как только исследователи, работающие над проектом, разобрались, какие возможности на основе искусственного интеллекта они хотят создать, они незамедлительно приступили к работе над соответствующей технологией.

Они начали с оригинальных Microsoft HoloLens, гарнитуры смешанной реальности, позволяющей создавать в реальном пространстве голограммы, которыми пользователи могут манипулировать.

«HoloLens дает нам превосходную возможность строить ИИ-агента, который может коммуницировать с социальным окружением», – поясняет Грейсон во время демонстрации этой технологии в исследовательской лаборатории Microsoft в Кембридже.

Например, прибор имеет множество черно-белых камер, которые предоставляют обзор на 180 градусов, и цветные камеры с высоким разрешением для высокоточного распознавания лиц. Кроме того, динамики над ушами пользователя позволяют сформировать звук в пространстве и создавать звуковые сигналы, которые, как кажется, исходят из той точки, где находится объект.

Эксперты по машинному обучению команды Project Tokyo разработали алгоритмы компьютерного зрения, дающие изменяющийся уровень информации о том, кто где находится в окружении пользователя. Эти модели работают на графических процессорах, известных как GPU, которые расположены  в черном ящике, который Грейсон доставил в дом Тима Регана для теста с участием Тео.

Например, одна модель определяет расположение окружающих людей и дает ощущение, где и как далеко эти люди находятся от пользователя. Другая анализирует поток фотографий с помощью камеры высокого разрешения, распознавая людей и определяя, есть ли их имена в системе. Вся эта информация передается пользователю через аудиосигналы.

Если прибор обнаруживает, что человек находится в метре слева от пользователя, система создаст такой звук, который кажется приходящим слева с расстояния метра. Если система распознает лицо человека, она также издает характерный ударный звук, а если система уже знает этого человека, она произносит его имя.

Когда пользователь слышит только клик, но хочет узнать, что за человек стоит рядом, второй слой звукового сопровождения, напоминающий растягивание эластичной ленты, будет направлять взгляд пользователя в сторону лица человека. Когда ось центральной камеры на ободке совпадет с носом человека, пользователь услышит другой, высокий звук, и, если система знает человека, то она произносит его имя.

Питер Бошер (в центре), незрячий звукоинженер, который работал в команде Project Tokyo на начальных этапах разработки, проверяет последнюю итерацию системы в лаборатории Microsoft в Кембридже вместе с исследователем Мартином Грейсоном и Сесили Моррисон. Фото Jonathan Banks
Питер Бошер (в центре), незрячий звукоинженер, который работал в команде Project Tokyo на начальных этапах разработки, проверяет последнюю итерацию системы в лаборатории Microsoft в Кембридже вместе с исследователем Мартином Грейсоном и Сесили Моррисон. Фото Jonathan Banks

Создание прототипов

Когда команда проекта разработала и усовершенствовала технологию, исследователи начали регулярно приглашать для тестирования и получения обратной связи взрослых людей с полной или частичной потерей зрения. Для создания более непосредственного контакта исследователи убрали линзы с передней части шлема HoloLens.

Некоторые пользователи высказали желание получать информацию, собранную системой незаметно, без постоянного поворота головы, так как из-за этого они чувствовали себя некомфортно. Эта обратная связь побудила команду исследователей проекта сосредоточить усилия на разработке функциональности, которая позволила бы пользователям быстро понимать, кто находится вокруг при помощи озвучивания системой имен окружающих людей (давших свое согласие на распознавание системой).

Другая экспериментальная функция оповещает пользователя при помощи пространственного звукового сигнала в виде звонка в случае, если кто-то на него смотрит. Для людей с обычным зрением перед началом разговора будет естественным установить визуальный контакт. В отличие от глухого ударного звукового сигнала звонок не сопровождается произнесением имени.

«Когда ты смотришь на кого-то, звучит имя этого человека, – Грейсон объясняет 20-летней Эмили, у которой проблемы со зрением, и она приехала в Кембридж узнать о последних разработках в данной области. – Когда имя не произносится, это значит, что кто-то пытается привлечь твое внимание и ты поворачиваешься в его сторону. А затем ты слышишь его имя».

«Я полностью согласна с таким подходом. Так реагируют зрячие. Они ловят уголком глаза кого-то, устанавливают контакт и зовут этого человека, произнося его имя, например, Сесили», – рассуждает Эмили.

Кроме того, модифицированные HoloLens, которые исследователи показали Эмили, имеют встроенную над камерами нить светодиодов. Сначала система испускает белый свет, вылавливая самого близкостоящего человека, а когда он идентифицирован для пользователя, загорается зеленый. Эта функция позволяет человеку понять, что он идентифицирован, и, таким образом, создает более естественные условия для начала раговора.

Светодиоды также дают возможность выйти при желании из поля зрения прибора. «Вы сами выбираете, хотите ли быть в поле зрения или нет, – поясняет Моррисон. – Вы знаете, когда вы видимы прибором, а когда нет».

Питер Бошер (на заднем плане слева), незрячий звукоинженер, проверяет последнюю итерацию системы Project Tokyo в исследовательской лаборатории Microsoft в Кембридже, Великобритания. На Бошере надеты модифицированные Microsoft HoloLens, которые передают поток изображений с камеры на компьютер для обработки. Дэшборд на ноутбуке показывает область обзора. HoloLens позволяют видеть исследователей Сесили Моррисон и Мартина Грейсона. Фото Jonathan Banks.

Инструмент обучения навыкам социального взаимодействия

По мере того, как техническая сторона исследования набирает обороты, Project Tokyo открывает все новые области применения. Так, например, технологии могут прийти на помощь в обучении слепых детей навыкам контактирования и социального взаимодействия.

По данным академического исследования две трети детей, которые полностью незрячи или обладают низким зрением, обычно демонстрируют социальное поведение, схожее с поведением детей-аутистов. Например, многие такие дети избегают общения и часто кладут голову на стол на одно ухо.

Моррисон и Кутрелл развивают Project Tokyo дальше, чтобы понять, насколько облегченная версия системы может применяться для обучения слепых детей использованию языка тела для инициирования и поддержания контакта с другими людьми.

Так как исследователи Microsoft уже много общались с Тео, было логично пригласить его помочь с адаптацией системы для работы с такими детьми, учитывая их специфические особенности, например, привычку сидеть близко друг к другу и в то же время редко сидеть спокойно.

«Когда система произносила имена, она пыталась называть сразу два имени, поэтому было очень трудно разобрать. Я попросил изменить это», – вспоминает Тео о своей работе в проекте.

Исследователи детально изучили, как сам Тео использует систему. Например, в какой-то момент во время семейного ужина он начал слегка, но настойчиво поворачивать голову из стороны в сторону, чтобы заставить систему опять назвать имена своих собеседников.

«Мы думаем, что он делал это для поддержки своей пространственной памяти, то есть чтобы помнить, кто где находится, – говорит Моррисон. – Мы не могли предвидеть такого сценария, но для него это оказалось мощной стратегией, помогающей сохранять внимание, а если он сохраняет внимание, то он остается сфокусированным на теме разговора».

Опыт других пользователей этой технологии больше отвечал изначальным предположениям ученых, в частности, что такая система сможет научить навыкам коммуникации людей с нарушением зрения, живущим в мире, в котором доминируют зрячие.

Например, как и другие незрячие или плоховидящие дети, во время общения Тео имел привычку класть голову на стол одним ухом вверх. Исследователи играли с Тео в серию игр, в которых акцентировалась сила социального взаимодействия при общении со зрячими людьми в тот момент, когда он начинал задействовать тело и голову.

В одной игре, в которую играли в лаборатории, у исследователей была коллективная задача и ее нужно было разрешить общими усилиями. Тео знал ответ задачи. Ученые знали лишь тему и могли разговаривать только тогда, когда Тео смотрел на них. Когда он отворачивался, они замолкали.

«Внезапно он осознал, что может управлять разговором, – рассказывает Моррисон. – Он понял силу взгляда, его мощное влияние на коммуникацию, и тогда к нему пришел целый ряд социальных навыков и возможностей, которых не было раньше».

Сейчас Тео редко кладет голову на стол во время разговора. Теперь независимо от того, надеты на него HoloLens или нет, он поворачивается лицом к человеку, с которым хочет пообщаться. К сожалению, неизвестно, надолго ли задержатся у него эти новые привычки, и будут ли другие дети с проблемами зрения реагировать подобным образом.

«Судя по результатам, которые мы видим у Тео, у нас хорошие перспективы, но это может быть единичный случай. И неизвестно, может оно так произошло бы в любом случае, – рассуждает Кутрелл. – Вот поэтому мы выводим проект на новую фазу с участием существенно большего количества детей и в более широких возрастных рамках».

Себастьян Чачек, исследователь машинного обучения в лаборатории Microsoft в Кембридже, Великобритания, работает над функциональностью, которая позволяет персонализировать систему проекта Токио. Фото Jonathan Banks
Себастьян Чачек, исследователь машинного обучения в лаборатории Microsoft в Кембридже, Великобритания, работает над функциональностью, которая позволяет персонализировать систему проекта. Фото Jonathan Banks

Будущее Project Tokyo

Исследования в рамках проекта продолжаются в расширенном масштабе, включая новые направления в машинном обучении, позволяющие адаптировать систему под персональные требования пользователей. Исследователь машинного обучения в лаборатории в Кембридже Себастьян Чачек работает над функциональностью, позволяющей пользователям показать системе, что они хотели бы услышать.

Персонализация требует от Чачека применения нетрадиционного подхода к машинному обучению.

«Мы любим выражать проблему в виде математической формулы, – говорит он. – Но в данном случае это не так легко сделать. Большая часть разработки приходит из практического опыта, контактов с людьми, наблюдения за ними – что они любят, а что нет – и затем усовершенствования алгоритмов».

По его словам, желание персонализировать существует потому, что незрячие или плоховидящие люди обладают разной степенью нарушения зрения, поэтому потребности в информации у них будут разные. Кроме того, пользователи сильно расстраиваются, когда система предлагает им уже известную информацию.

«Реализация Project Tokyo требует объединения большого количества разных вещей, которые сами по себе еще не решены», – сказал Чачек.

Прежде всего проект демонстрирует, как можно построить интеллектуального персонального агента, который расширит возможности любых пользователей. Для этого Моррисон и Кутрелл вместе с коллегами продолжат работу с людьми с проблемами зрения, включая больше детей.

«То, что мы увидели на примере Тео, очень впечатляет, – сказала Моррисон на следующий день после тестирования системы в доме Тима Регана. – Это было мощно, потому что он впервые наконец смог обрести контроль над своим миром».

Среди все растущей группы детей, кто хочет принять участие в проекте, есть и семилетний сын Моррисон Ронан, который слеп от рождения.

«Я думаю, мы скоро сможем достичь этого и с Ронаном, – добавляет она. – Я очень хочу попробовать».

Ссылки по теме:

  • Узнать больше о Code Jumper.
  • Узнать больше о Project Tokyo (на английском языке).

 

Заглавное фото: Тео, 12-летний незрячий подросток, общается со старшими инженерами по разработке программного обеспечения Тимом Реганом (в центре) и Мартином Грейсоном (справа) в момент тестирования системы. Фото Jonathan Banks.