Быть или не быть: ИИ читает Шекспира свежим взглядом

Спойлер: в конце Ромео и Джульетта умирают.

Ладно, не такой уж это и спойлер. Большинство людей читали пьесу, смотрели хотя бы один из фильмов на эту тему или помнят школьные уроки, посвященные творчеству Уильяма Шекспира. Люди знают, что история самой знаменитой пары в Вероне закончилась не очень хорошо.

Сложно найти в этой всемирно известной пьесе, которой уже 300 лет, что-то новое, чего никто не знает. Но в этом может помочь искусственный интеллект.

Фил Харви, архитектор облачных решений Microsoft из Великобритании, обработал 19 пьес Шекспира с помощью разработанных компанией инструментов для анализа текста Text Analytics API. Этот API, доступный в составе служб Microsoft Azure Cognitive Services, позволяет определять настроения и темы в тексте, а также выделять ключевые фразы и сущности. Это один из нескольких инструментов для обработки естественного языка (Natural Language Processing, NLP), доступных в Azure.

Раскрытая книга с трагедией Макбет

Создав серию диаграмм Power BI (см. ниже), где красным были отмечены используемые персонажами Шекспира фразы с отрицательной окраской, а зеленым — с положительной, исследователь решил показать литературные шедевры в новом свете, а заодно сделать их более понятными людям, считающим, что эти пьесы слишком сложны для восприятия.

Харви сказал: «Люди могут увидеть целые сюжетные линии, просто взглянув на мои графики языковых настроений. Поскольку визуальную информацию гораздо легче усваивать, это делает Шекспира и его пьесы более доступными. Читать язык 16–17 веков не всегда легко, а я предлагаю быстрый способ показать людям, что пытался сделать Шекспир.

Это прекрасный пример того, как оцифровка данных дает нам новые знания и способы их восприятия. Это фундаментальное изменение в том, как мы обрабатываем информацию о мире вокруг нас. Теперь мы можем взять наследие Шекспира, превратить его в набор данных и обработать эти данные по-новому, с помощью алгоритмов, чтобы узнать то, чего раньше не знали».

Диаграммы Харви показывают, что Ромео борется с более сильными эмоциями, чем Джульетта. Любовь оказывает гораздо большее влияние на него, и это бросает вызов стереотипам того времени, когда женщины — представительницы прекрасного пола — были более склонны к взлетам и падениям в отношениях.

«Интересно то, что главный герой-мужчина испытывает более сильные эмоции, — добавил Харви. — Самые длинные фразы, как положительно окрашенные, так и отрицательно, принадлежат ему. Автор показывает, что Джульетта более устойчива; она испытывает положительные и отрицательные эмоции, но не впадает в крайности. Ромео — человек с более ярко выраженными эмоциями, которые заставляют его совершать импульсивные поступки.

«Макбет» тоже интересен, потому что и там есть эти две крайности эмоций, и Шекспир показывает женщин в этих крайностях, чтобы повернуть ход истории. Я изучал также Елену и Гермию в «Сне в летнюю ночь», потому что у них пересекающиеся истории любви. Обе девушки позитивны в начале, но потом они узнают то, от чего вся история приобретает к концу отрицательную окраску».

В проекте потребовалась совместная работа искусственного интеллекта и человека, чтобы в полной мере понять и оценить пьесы Шекспира.

Шекспировские диаграммы стали последним этапом долгого процесса. После загрузки из Интернета текстового файла с пьесами Великого барда исследователю пришлось обработать данные, чтобы подготовить их для алгоритмов искусственного интеллекта Microsoft. Харви удалил все авторские ремарки, сохранив номера актов и сцен, имена персонажей и их реплики. Затем он загрузил текст в API Microsoft Cognitive Services — набор инструментов, позволяющих приложениям, веб-сайтам и ботам видеть, слышать, говорить, понимать и интерпретировать речь и действия пользователей с помощью естественных методов общения.

API Text Analytics предварительно обучен на основе большого текстового набора с ассоциациями чувств. Во время анализа текста модель использует комбинацию методов, включающую обработку текста, анализ частей речи, анализ позиций слов и ассоциаций со словами.

После сканирования пьес Шекспира средства NLP, разработанные Microsoft, дали диалоговым линиям оценку от нуля до единицы. Оценки, близкие к единице, указывали на положительную окраску настроения, а оценки, близкие к нулю, — на отрицательную.

Однако прежде чем вы начнете воображать мир, в котором только роботы читают книги и пересказывают людям суть написанного, отметим, что Харви столкнулся с некоторыми неожиданными проблемами во время тестирования.

Хотя система с искусственным интеллектом хорошо работала для тех пьес Шекспира, которые имели прямой сюжет и носили диалоговый характер, она плохо определяла положительную или отрицательную окраску речи, имеющей больше смысловых оттенков. Алгоритм не мог понять, был ли безумный бред Гамлета реальным или воображаемым, лгали персонажи или говорили правду. В таких случаях ИИ мог считать отрицательные события положительными и наоборот. ИИ счел «Комедию ошибок» трагедией из-за грубых, вульгарных моментов, встречающихся в этой пьесе.

Харви выяснил, что вещи, свойственные только людям — шутки, восторг, ложь, двойные значения, уловки, сарказм, — могут замечать и интерпретировать только люди. Чтобы по-настоящему понять и в полной мере оценить Шекспира, искусственному интеллекту в этом проекте понадобилась помощь людей.

Харви утверждает, что его эксперименты с пьесами Шекспира — лишь отправная точка для дальнейшей работы, и такую же комбинацию возможностей ИИ и человека через какое-то время смогут использовать компании и их сотрудники.

«Возьмем, например, потребителей, которые звонят в энергетическую компанию, — сказал Харви. — С помощью инструментов NLP от Microsoft можно выяснить, имеют ли разговоры, которые происходят после 17:00, более негативную окраску, чем разговоры в 9:00, и соответствующим образом готовить персонал. Можно также увидеть, заканчивает ли работник колл-центра разговоры на отрицательной ноте, даже если начало было положительным, и поработать с этим человеком, чтобы такого не происходило в будущем.

Это может помочь компаниям по-новому взаимодействовать с данными и облегчить выполнение повседневных задач».

Харви также сказал, что журналисты могут использовать этот инструмент, чтобы увидеть, как читатели реагируют на их статьи, а эксперты по социальным сетям смогут узнать, как потребители воспринимают их бренды.

Сейчас Харви концентрируется на работе с классикой и хочет изучить работы Чарльза Диккенса, если убедит лондонский Музей Виктории и Альберта позволить ему изучить некоторые из хранящихся там рукописей.

«В рукописях, хранящихся в Музее Виктории и Альберта, можно увидеть, где Диккенс зачеркивал слова. Я бы использовал модель с компьютерным зрением, чтобы изучить каждую страницу черновиков. Затем я мог бы просмотреть опубликованную копию текста и увидеть, над какими частями книги писатель работал больше всего. Можно было бы понять, какие фрагменты были удачными сразу, а над какими пришлось потрудиться. Работы Диккенса публиковались в газетах, и мы могли бы узнать, получал ли он рецензии от редакторов, о которых мы не знали. Я думаю, что это удивительно».

Больше историй

Поиски Немо с воздуха 🐠

Искусство дипломатии технологически преображается

Imagine Cup Junior 2022

День безопасного Интернета 2022