ИННОВАЦИИ

Верить — значит видеть

Новые возможности в сфере обработки естественных и синтетических изображений

Два революционных исследования в области компьютерного зрения открывают новые перспективы для получения очень точных естественных изображений и создания синтетических изображений лица, сохраняющих все характерные черты оригинала. В докладе CVAE-GAN: Fine-Grained Image Generation through Asymmetric Training («Точное генерирование изображений с помощью асимметричного обучения»), представленном в октябре прошлого года на ICCV 2017 в Венеции, группа исследователей из Microsoft и Научно-технического университета Китая описала модель создания изображений, основанную на использовании генеративно-состязательной сети с вариационным автокодировщиком, которая способна синтезировать естественные изображения в точно определенных категориях. К таким категориям могут относиться лица конкретных людей, например знаменитостей, или изображения объектов реального мира, таких как определенные виды цветов или птиц.

Исследователи — Дон Чен (Dong Chen), Фан Вэн (Fang Wen) и Ган Хуа (Gang Hua) из Microsoft, стажер Microsoft Research Цзянмин Бао (Jianmin Bao) и Хоуцян Ли (Houqiang Li) из Научно-технического университета Китая — в поиске наиболее эффективных способов построения генеративных моделей естественных изображений столкнулись с ключевой проблемой компьютерного зрения: как генерировать разнообразные и при этом реалистичные изображения, оперируя конечным числом скрытых параметров в соответствии с нормальным распределением в любом изображении в мире. Задача заключалась в создании генеративной модели для сбора этих данных. Для разработки учебной среды исследователи решили использовать генеративно-состязательные сети в сочетании с вариационным автоматическим кодировщиком. При таком подходе любое изображение моделируется как набор меток и скрытых атрибутов в вероятностной модели.

Изменяя точную метку категории (например, «иволга» или «скворец» для конкретных видов птиц или имена знаменитостей), которая загружается в генеративную модель, команда смогла синтезировать изображения в определенных категориях, используя произвольно выбранные значения, связанные со скрытыми атрибутами. Как объяснил Ган Хуа, старший исследователь из редмондской лаборатории Microsoft Research, возможность использовать такие методы глубокого обучения появилась лишь недавно. Это позволяет моделировать распределение изображений конкретных, реально существующих объектов, фактически синтезируя новые изображения.

«Наш подход отличается двумя новаторскими аспектами, — говорит Хуа. — Во-первых, мы приняли кросс-энтропийную потерю для сети дискриминаторов и классификаторов, но для генеративной сети выбрали среднее несоответствие». Получившаяся асимметричная функция потерь и ее влияние на машинное обучение были обнадеживающими. «Асимметричная функция делает обучение генеративно-состязательных сетей (GAN) более стабильным, — говорит Хуа. — Для решения проблемы нестабильности при обучении ванильных GAN (vanilla GAN) мы спроектировали асимметричную функцию потерь, которая решает частные численные задачи, возникающие при сопоставлении двух неперекрывающихся распределений».

Другим новшеством было применение сети кодировщика, способной изучать взаимосвязи в скрытом пространстве и использовать парные соответствия характеристик для сохранения структуры синтезированных изображений.

Экспериментируя с естественными изображениями — фотографиями реально существующих объектов, таких как цветы, птицы и человеческие лица, — исследователи смогли показать, что их модели машинного обучения могут с впечатляющим разнообразием синтезировать узнаваемые изображения в узко определенных категориях. Использовать эти разработки можно в самых разных областях — от рисования и дополнения изображений до улучшения моделей распознавания лиц.

«Наша технология позволяет решить фундаментальную проблему создания изображений — обеспечить узнаваемость. Это позволяет генерировать такие изображения, какие мы хотим получить», — говорит Хуа.

Синтезирование лиц

Научившись синтезировать реалистичные изображения цветов и птиц, исследователи выбрали следующую цель — человеческие лица. Если рассматривать человеческие лица в контексте узнаваемости и идентификации, то оказывается, что это одни из самых сложных объектов, какие только встречаются в природе. В докладе Toward Open-Set Identity Preserving Face Synthesis («Разработка открытого метода синтеза лиц с сохранением узнаваемости»), представленном на конференции CVPR 2018 в Солт-Лейк-Сити, исследователи описали систему на основе GAN, способную «раскладывать» изображения лиц на характерные атрибуты, такие как форма носа и рта, и даже определять возраст и влияние окружающей среды, включая освещение и наличие макияжа на лице.

Разработка открытого метода синтеза лиц с сохранением узнаваемости

Предыдущие методы синтеза лиц с сохранением узнаваемости в основном позволяли синтезировать лица с известными характерными чертами, уже имеющимися в обучающем наборе данных. Но теперь исследователи разработали открытый метод синтеза с сохранением узнаваемости, позволяющий синтезировать лица, не встречающиеся в обучающих наборах данных.

Для этого разработчики применили уникальный метод, заключающийся в том, что одно входное изображение объекта, создающее вектор идентичности, объединяется с изображением лица любого другого человека для получения вектора атрибута, например позы, эмоции или освещения. Объединив после этого вектор идентичности и вектор атрибута, можно синтезировать для субъекта новое лицо с извлеченным атрибутом.

Примечательно, что системе не требуется какая-либо разметка и классификация атрибутов лиц. При тренировке используется асимметричная функция потерь, лучше сохраняющая узнаваемость и стабилизирующая аспекты машинного обучения. Впечатляет также то, что для обучения и повышения точности синтеза можно использовать огромное количество неразмеченных (то есть случайных) изображений лиц.

«Мы получили технологию, которая может синтезировать лица, сохраняя их узнаваемость, контролируемым образом», — говорит Ганг Хуа.

Скажите «сыр»!

Один из очевидных способов применения этой технологии — решение классической задачи фотографа при съемке группового фото с десятками людей: получить идеальный кадр, на котором все улыбаются и никто не закрыл глаза.

«Наша технология позволяет обработать снимок и добавить улыбку на каждое лицо», — говорит Хуа. В отличие от простой обработки, при этом сохраняются все характерные черты лица. Другими словами, несмотря на то, что изображение улыбающегося человека синтезировано, и запечатленного на фото момента в реальности не было, на полученном кадре можно безошибочно узнать человека, ведь измененное изображение передает все его уникальные черты лица.

Хуа видит много способов применения этой технологии, которые принесут пользу обществу и позволят лучше распознавать изображения, обрабатывать видео и даже создавать произведения искусства.