Przejdź do głównej zawartości

#MicrosoftMówi: Sztuczna inteligencja pomaga w nauce niesłyszącym studentom

Podczas, gdy studenci zajmują jeszcze swoje miejsca w ławkach, zapis rozmowy i przekomarzania się pani profesor z młodzieżą na temat podstawowych zmysłów wyświetlają się w czasie rzeczywistym na monitorach. Jednocześnie wykładowi towarzyszy prezentacja Power Point wyświetlana na ścianie za wykładowczynią.  Tłumacz znajduje się kilka stóp dalej i interpretuje wypowiadane słowa profesora na amerykański język migowy, podstawowy język używany przez osoby niesłyszące w USA.

Typowa klasa w Rochester Institute of Technology w północnej części stanu Nowy Jork różni się od tych na innych uczelniach tylko tym, że są w niej ekrany które wyświetlają napisy w czasie rzeczywistym. Grupa około 1500 niesłyszących i niedosłyszących studentów stanowi integralną część życia uniwersyteckiego na rozległym uniwersytecie, który łącznie kształci 15 000 studentów. Jednocześnie prawie 700 studentów, którzy są głusi lub niedosłyszący, bierze udział w kursach dla osób słyszących, w tym kilkudziesięciu z nich uczy się na zajęciach z biologii ogólnej Sandry Connelly w grupie dla 250 studentów.

Napisy na ekranach za Connelly, która nosi zestaw słuchawkowy, są generowane przez aplikację Microsoft Translator, technologię komunikacji opartą na sztucznej inteligencji. System wykorzystuje zaawansowaną formę automatycznego rozpoznawania mowy, aby przekształcić nieprzetworzone języki mówione, zacinające się i wszystkie inne – w płynny uzupełniony interpunkcją tekst. Usunięcie niepłynności i dodanie interpunkcji prowadzi do wyższej jakości tłumaczeń dla ponad 60 języków obecnie obsługiwanych przez technologię tłumacza. Społeczność ludzi głuchych i niedosłyszących rozpoznała ten oczyszczony i przerywany tekst jako idealne narzędzie do uzyskiwania dostępu do języka mówionego oprócz amerykańskiego języka migowego (ASL).

Projekt ten jest realizowany w ramach współpracy Microsoft z należącym do RIT Narodowym Instytutem Technicznym dla osób niesłyszących, jednym z dziewięciu kolegiów w ramach uniwersytetu, aby pilotować wykorzystanie technologii mowy i języka wspieranej przez sztuczną inteligencję Microsoft w celu wspierania niesłyszących i niedosłyszących studentów w ich edukacji.

“Kiedy po raz pierwszy zobaczyłem, jak działa ta technologia byłem bardzo podekscytowany. Pomyślałem – wow, mogę uzyskać informacje w tym samym czasie, co inni studenci” – powiedział Joseph Adjei, student pierwszego roku z Ghany, który stracił słuch siedem lat temu. Kiedy przybył do RIT, zmagał się z ograniczeniami amerykańskiego języka migowego. „Podpisy wyświetlane na ekranach za prof.  Connelly na zajęciach z biologii w czasie rzeczywistym pozwoliły mi dotrzymać kroku klasie i nauczyć się poprawnie pisać terminy naukowe” – dodał Joseph.

Teraz, podczas drugiego semestru biologii ogólnej, Adjei, który jednocześnie kontynuuje naukę ASL, zajmuje miejsce z przodu sali i regularnie przesuwa swój wzrok między tłumaczem, napisami na ekranie i zapisami na jego telefonie komórkowym, które leży obok na ławce. Połączenie powoduje, że może on być zaangażowany w wykład w sposób ciągły. Kiedy nie rozumie ASL, odwołuje się do napisów, które dostarczają innego źródła informacji i treści pominiętych przez tłumacza.

„Podpisom czasami brakuje punktów krytycznych dla przedmiotu wykładu, takich jak różnica między “ja” i “oko”. “Ale to jest o wiele lepsze niż brak napisów w ogóle” – zauważył Adjei.

Co więcej, Adjei używa także aplikacji tłumacza na telefonie komórkowym w codziennej komunikacji z innymi studentami, także poza zajęciami. “Czasami, gdy rozmawiamy, mówią zbyt szybko i nie mogę odczytać z ruchu warg sensu słów. Tak więc, po prostu łapię telefon i wiem co się dzieje”.

Sztuczna inteligencja na rzecz komunikacji

Jenny Lay-Flurrie, szefowa ds. dostępności w firmie Microsoft, która także jest osobą niesłyszącą powiedziała, że projekt pilotażowy z RIT pokazuje potencjał sztucznej inteligencji do wzmacniania pozycji osób niepełnosprawnych, szczególnie tych z problemami ze słuchem. Podkreśliła, że napisy dostarczone przez Microsoft Translator zapewniają kolejną warstwę komunikacji, która oprócz języka migowego może pomóc ludziom takim jak ona osiągnąć więcej.

Obecnie projekt jest na wczesnym etapie wdrażania do sal wykładowych. Klasa biologii ogólnej prof. Connelly jest jedną z 10 dostępnych dla usługi podpisów w czasie rzeczywistym, która jest dodatkiem do programu Microsoft PowerPoint o nazwie Presentation Translator. Studenci mogą korzystać z aplikacji Microsoft Translator na laptopie, telefonie lub tablecie, aby otrzymywać napisy w czasie rzeczywistym w wybranym przez siebie języku.

“Język jest siłą napędowej ewolucji człowieka. Wzmacnia współpracę, usprawnia komunikację, poprawia naukę. Mając napisy w klasie RIT, pomagamy wszystkim nie tylko uczyć się lepiej, ale także komunikować “- powiedział Xuedong Huang, pracownik techniczny i szef grupy ds. rozpoznawania mowy i języka w dziale Microsoft AI and Research.

Huang zaczął pracować nad automatycznym rozpoznawaniem mowy jeszcze w latach 80. XX wieku, aby pomóc 1,3 miliarda ludzi w jego ojczystych Chinach uniknąć pisania w ojczystym języku na klawiaturze przystosowanej do języków „zachodnich”. Wprowadzenie do nauki deep learning na rzecz rozpoznawania mowy kilka lat temu, jak sam zauważył, nadało technologii rozpoznawania mowy ludzką dokładność, prowadząc do rozwoju systemu tłumaczenia maszynowego, który tłumaczy zdania artykułów z chińskiego na angielski oraz pozwalając osiągnąć “pewność co do możliwości wprowadzenia technologii dla codziennego użytku przez wszystkich”.

Rosnący popyt na usługi ułatwiające dostęp

Gary Behm, który zapisując się na uczelnię w 1974 roku, był jednym z około 30 niesłyszących i niedosłyszących uczniów zarejestrowanych na zajęcia w RIT, już jako doświadczony inżynier komputerowy zaczął pracować nad technologiami dostępu, aby wesprzeć rosnącą grupę uczących się z tą niepełnosprawnością, która obecnie obejmuje ponad 1500 studentów, a prawie połowa z nich zarejestrowała się na zajęcia w ośmiu innych kolegiach RIT.

 

Gary Behm - wicedyrektor ds. Naukowych w Narodowym Instytucie Technicznym dla Niesłyszących i dyrektorem Centrum ds. Technologii Włączających. (fot. John Brecher)

Na zdjęciu powyżej: Gary Behm – wicedyrektor ds. Naukowych w Narodowym Instytucie Technicznym dla Niesłyszących i dyrektorem Centrum ds. Technologii Dostępu. (fot. John Brecher)

Połączenie usług dostępu, takich jak tłumacze i napisy w czasie rzeczywistym pomaga studentom z problemami ze słuchem pokonać przeszkody w zajęciach w klasach i nadążyć za wykładami. Studenci, którzy słyszą, rutynowo dzielą swoją uwagę w klasie. Jeśli profesor pisze równanie na tablicy podczas rozmowy, słuchający mogą  jednocześnie słuchać i kopiować równanie w swoich notatnikach.

Uczelnia zatrudnia na pełny etat około 140 tłumaczy, którzy są kluczowi dla płynnej komunikacji w kampusie oraz 50 osób odpowiedzialnych za napisy. Używają oni opracowanej przez uniwersytet technologii o nazwie C-Print, która zapewnia transkrypcje wykładów w czasie rzeczywistym, które są wyświetlane na laptopach i tabletach uczniów głuchych i niedosłyszących. Ponadto studenci dzielą się i udostępniają notatki,po to aby uczniowie, którzy są głusi i niedosłyszący, mogli skupić się na tłumaczach i podpisach podczas zajęć.


Na zdjęciu tytułowym: Joseph Adjei, niesłyszący student pierwszego roku Rochester Institute of Technology podczas wykładu z biologii przenoszący wzrok pomiędzy tłumaczem języka migowego a napisami dostarczanymi w czasie rzeczywitym przez Microsoft Presentation Translator. (fot. John Brecher)