Teknologi AI Membantu Mahasiswa Tuna Rungu Belajar

Oleh John Roach

ROCHESTER, NY – Ketika para mahasiswa mulai duduk di kelas biologi umum, deretan kata-kata pembicaraan dari sang profesor mengenai indera umum dan khusus bertuliskan – “Penginderaan mana yang dapat merasakan sakit? Semuanya.” – terpapar pada bagian bawah tampilan presentasi Power Point yang ditampilkan pada tembok di belakangnya. Seorang penerjemah berdiri beberapa kaki dari profesor tersebut sambil menerjemahkan pembicaraannya ke Bahasa Isyarat Amerika (ASL), bahasa utama yang digunakan oleh tuna rungu di Amerika Serikat.

Selain dari caption real-time pada layar di depan ruangan tersebut, beginilah kelas biasanya berlangsung di Rochester Institute of Technology di upstate New york. Sekitar 1.500 pelajar tuna rungu dan kesulitan mendengar menjadi bagian penting dari kehidupan di kampus yang memiliki 15.000 mahasiswa strata satu ini. Hampir 700 dari seluruh mahasiswa di kampus yang merupakan tuna rungu dan sulit mendengar, mengambil mata kuliah di kelas yang sama dengan mahasiswa yang memiliki pendengaran normal, termasuk beberapa kelas biologi umum yang dibawakan oleh Sandra Connelly untuk 250 mahasiswa di kelasnya.

Di dalam kelasnya, Connely menggunakan headset yang menggunakan teknologi Microsoft Translator, sebuah teknologi komunikasi berbasis AI, untuk menampilkan naskah (caption) pada layar di belakang Connely. Sistem AI tersebut menggunakan teknologi pengenal cara berbicara yang mumpuni untuk mengubah bahasa lisan sehari-hari, seperti penggunaan ‘um’, pengucapan yang terbata-bata, dan lainnya menjadi sebuah teks yang dapat dimengerti dengan sempurna dengan tanda baca. Teknologi penerjemah tersebut, menghilangkan kata-kata tidak formal dan menambahkan tanda baca untuk menghasilkan terjemahan tertulis yang lebih berkualitas ke dalam lebih dari 60 bahasa. Komunitas penyandang tuna rungu dan sulit mendengar mengakui bahwa teks terjemahan yang telah disempurnakan dan diberi tanda baca tersebut menjadi alat yang ideal untuk mengerti bahasa, selain ASL yang selama ini mereka gunakan.

Microsoft bermitra dengan National Technical Institute for the Deaf di RIT, satu dari 9 fakultas di universitas tersebut, untuk menguji coba penggunaan teknologi percakapan dan bahasa berbasis AI milik Microsoft untuk mendukung kegiatan mahasiswa tuna rungu atau sulit mendengar di kelas.

“Saat pertama kali melihat teknologi tersebut bekerja, saya sangat bersemangat; saya berpikir, ‘Wah, saya bisa mendapatkan informasi pada saat yang sama dengan rekan-rekan saya yang bisa mendengar,’” kata Joseph Adjei, seorang mahasiswa tingkat pertama dari Ghana, yang kehilangan pendengarannya tujuh tahun yang lalu. Ketika ia tiba di RIT, ia kesulitan dengan ASL. Caption yang ditampilkan real-time pada layar di belakang Connelly saat kelas biologi memudahkannya untuk mengikuti kegiatan belajar serta membantunya memahami istilah-istilah ilmiah secara benar.

Sekarang, di semester kedua perkuliahan biologi umum, Adjei yang melanjutkan untuk belajar ASL, duduk di bagian depan dan mengarahkan pandangannya secara bergantian ke arah penerjemah, caption pada layar, dan transkrip pada ponselnya, yang ia sandarkan di atas mejanya. Kombinasi tersebut membuatnya tetap dapat terhubung dengan pengajar. Ketika ia tidak mengerti ASL, ia membaca caption yang memberikan sumber informasi dan konten yang tidak ia dapatkan dari penerjemah ASL.

Caption tersbut, kadang-kadang melewatkan poin-poin penting pada kelas biologi, seperti perbedaan antara “I” (saya) dan “eye” (mata). “Namun hal ini lebih baik dibandingkan tidak mendapat apapun sama sekali.” Faktanya, Adjei menggunakan aplikasi Microsoft Translator pada ponselnya untuk membantu berkomunikasi dengan rekannya yang bisa mendengar di luar kelas.

“Terkadang ketika sedang mengobrol, mereka berbicara terlalu cepat dan saya tidak dapat membaca gerak bibir mereka. Jadi, saya menggunakan ponsel dan melakukan percakapan dengan cara tersebut sehingga saya mengerti apa yang sedang terjadi,” katanya.

**AI untuk Menciptakan C*aptio***n

Jenny Lay-Flurrie, Chief Accessibility Officer Microsoft, yang juga seorang tuna rungu, mengatakan bahwa proyek uji coba dengan RIT menunjukkan adanya potensi AI untuk memberdayakan orang dengan disabilitas, khususnya tuna rungu. Naskah (caption) yang dihasilkan oleh Microsoft Translator membentuk lapisan komunikasi baru, selain bahasa isyarat, untuk membantu orang termasuk dirinya dalam mencapai lebih banyak hal, ujarnya.

Saat ini, proyek sudah memasuki tahap awal dan mulai disediakan di kelas-kelas. Kelas biologi umum Connelly adalah satu dari 10 kelas yang sudah menggunakan layanan captioning real-time berbasis AI, yang merupakan aplikasi tambahan pada Microsoft PowerPoint yang dinamakan Presentation Translator. Mahasiswa dapat menjalankan aplikasi Microsoft Translator pada laptop, ponsel, atau tablet mereka untuk mendapatkan naskah (caption) secara langsung (real-time) dalam bahasa yang mereka pilih.

“Bahasa adalah kekuatan penggerak evolusi manusia. Bahasa akan meningkatkan kolaborasi, komunikasi, dan pembelajaran. Dengan menggunakan subjudul (subtitle) dalam kelas RIT, kami membantu semua orang untuk belajar serta berkomunikasi dengan lebih baik,” ujar Xuedong Huang, technical fellow and head of the speech and language group Microsoft AI and Research.

Huang mulai bekerja pada bidang pengenal percakapan otomatis pada tahun 1980 untuk membantu 1,3 miliar penduduk di negara asalnya, Tiongkok, untuk menghindari pengetikan Bahasa Mandarin pada papan ketik (keyboard) yang dirancang untuk bahasa-bahasa Barat. Pengembangan lanjutan pada teknologi pengenalan percakapan beberapa tahun lalu, menurutnya, telah menghasilkan teknologi percakapan yang akurat seperti manusia, yang mengarah kepada sistem mesin penerjemah yang dapat menerjemahkan kalimat-kalimat pada artikel berita dari Bahasa Mandarin ke Bahasa Inggris dan “keyakinan untuk memperkenalkan teknologi tersebut untuk penggunaan sehari-hari bagi setiap orang.”

Pertumbuhan Permintaan untuk Layanan Akses

Ketika Gary Behm mendaftar pada tahun 1974, ia merupakan salah satu dari 30 mahasiswa tuna rungu dan sulit mendengar yang terdaftar untuk perkuliahan RIT. Penerjemah ASL menerjemahkan kata-kata para profesor menjadi bahasa isyarat, sebagaimana yang dilakukan penerjemah lakukan di berbagai kampus saat ini. Ia lulus dengan gelar dari bidang teknik mesin dan mengejar karir di IBM. Ia bekerja berkeliling negara, meraih gelar paskasarjana dalam bidang teknik mekanik dan kini memiliki tiga anak, dua diantaranya tuna rungu, dengan istrinya, yang juga tuna rungu.

Ketika anak-anaknya dewasa dan mulai berkarir, ia dan istrinya, yang ia dijumpai pertama kali di NTID, memutuskan kembali ke kampus. Behm, seorang teknisi mekanik yang juga memiliki kemampuan komputer yang baik, mulai mengerjakan akses teknologi untuk mendukung pertumbuhan badan mahasiswa NTID, yang kini beranggotakan lebih dari 1.500 mahasiswa, hampir setengah dari mereka terdaftar untuk mengikuti perkuliahan di delapan fakultas lainnya di RIT.

“Kami sangat gembira melihat pertumbuhan ini, namun kami memiliki kendala layanan akses yang kami dapat sediakan untuk para mahasiswa tersebut,” kata Begm, yang kini merupakan direktur sementara bidang hubungan akademis di NTID dan direktur Center on Access Technology, bagian yang bertugas untuk melakukan riset dan pengembangan akses teknologi.

Perpaduan layanan akses penerjemah dan teknologi captioning real-time membantu mahasiswa tuna rungu dan sulit mendengar mengatasi permasalahan untuk mengikuti perkuliahan di dalam kelas. Mahasiswa yang memiliki pendengaran baik, menurut Behm, secara rutin membagi perhatian mereka di dalam kelas. Jika professor menuliskan sebuah rumus pada papan tulis sambil berbicara, contohnya, mahasiswa dengan pendengaran baik dapat mendengarkan dan mencatat rumus tersebut dalam buku catatan mereka secara bersamaan.

“Namun, bagi tuna rungu, hal tersebut mustahil. Proses belajar saya bergantung pada penerjemah,” ujar Behm. “Namun ketika profesor berkata, ‘coba lihat rumus yang ada di papan tulis,’ saya harus mengalihkan perhatian dari penerjemah dan mencoba melihat rumus yang mana yang sedang dibicarakan, membacanya, kemudian memahaminya.”

“Ketika saya kembali memperhatikan penerjemah untuk mendapatkan informasinya, informasi tersebut sudah terlambat.”

Untuk membantu menanggulangi permasalahan tersebut, universitas memperkerjakan staff penuh waktu yang terdiri dari 140 penerjemah, yang sangat penting untuk proses komunikasi, dan lebih dari 50 captionist. Para captionist tersebut menggunakan teknologi yang dikembangkan oleh kampus bernama C-print untuk menyediakan transkrip secara real-time dalam proses perkuliahan yang akan ditampilkan pada laptop atau tablet setiap mahasiswa tuna rungu dan sulit mendengar. Selain itu, sejumlah mahasiswa mencatat informasi yang bisa dibagikan sehingga mahasiswa tuna rungu dan sulit mendengar dapat fokus pada penerjemah dan membaca caption saat berada di dalam kelas.

“Pertanyaannya sekarang menjadi, dapatkah kita meningkatkan layanan akses kita?” kata Behm.

Dengan semakin banyaknya mahasiswa tuna rungu dan sulit mendengar mendaftarkan diri untuk mengikuti perkuliahan di berbagai fakultas di RIT, RIT dan NTID tetap berkomitmen untuk membantu setia mahasiswanya untuk dapat mengikuti perkuliahan di kampus dengan baik. RIT telah memperkerjakan staff penerjemah dan pembuat caption terbanyak dibandingkan dengan badan pendidikan lainnya di dunia dan kebutuhan akan layanan akses masih bertambah. Karena itulah Behm mulai mencari solusi lain yang lebih baik, termasuk dengan teknologi pengenal percakapan otomatis, atau biasa disebut ASR (Automatic Speech Recognition).

Pengenal Percakapan Otomatis

Menurut Brian Trager, seorang alumni NTID dan kini menjabat sebagai associate director di CAT, percobaan awal penggunaan ASR pada musim semi tahun 2016 kurang membuahkan hasil yang baik. Sistem awal yang diuji oleh para peneliti tersebut kurang akurat hingga sampai pada titik tidak dapat dipahami, khususnya ketika berbicara tentang istilah-istilah ilmiah dan teknis.

“Saya menjadi seseorang yang hanya dapat menganggukan kepala lagi,” ujar Trager, yang merupakan seorang tuna rungu dan menghabiskan masa kecilnya dengan kesulitan untuk membaca gerakan bibir. Ia sering kali menganggukkan kepalanya seakan menyetujui sesuatu meskipun ia tidak mengerti percakapan yang sedang berlangsung.

“Tidak hanya itu, teks yang ditampilkan sulit untuk dibaca,” lanjutnya. “Contohnya, seorang guru berbicara tentang 9/11 dan sistem tersebut mengeja dengan ‘n-i-n-e e-l-e-v-e-n’ dan begitu juga dengan penulisan tahun dan juga uang. Datanya sangat mentah. Mata saya sangat lelah. Bahkan tidak ada titik dan koma. Tidak ada ruang untuk mengerti.”

Musim panas itu, seorang mahasiswa yang bekerja di laboratorium CAT melakukan percobaan dengan berbagai teknologi ASR dari berbagai perusahaan teknologi Milik Microsoft yang tampak menjanjikan. “Angka seperti 9/11 benar-benar ditampilkan 9 garis miring 11, seperti yang Anda bayangkan, dan 2001 ditampilkan dengan 2001. Memiliki tanda baca. Dan hal tersebut saja sudah sangat bagus karena faktor keterbacaan sangat meningkat. Hal tersebut sangat berbeda. Sangat nyaman dan mudah untuk digunakan,” ujar Trager.

Peneliti CAT dari NTID kemudIan mempelajari tentang versi beta dari Microsoft Cognitive Service yang disebut Custom Speech Service yang memperbesar kemampuan pengenalan percakapan otomatis dengan memungkinkan pengembang untuk membangun model bahasa yang disesuaikan untuk kosa-kata khusus sesuai wilayah. Para peneliti mengajukan diri untuk ikut dalam program beta. Kurang dari 24 jam kemudian, mereka menerima email dari Will Lewis, seorang manajer program teknis untuk mesin penerjemah di organisasi riset milik Microsoft.

Model Bahasa untuk Kelas

Lewis dan timnya di Microsoft memperkenalkan Microsoft Translator pada peneliti dari CAT, dan pada musim gugur 2017, tim tersebut bekerja sama untuk membangun model bahasa yang disesuaikan secara spesifik untuk materi perkuliahan dan mengendalikan teknologi tersebut di kelas dengan fitur add on Presentation Translator pada PowerPoint.

Untuk membangun model tersebut, para peneliti menggali database transkrip di universitas tersebut, berisi caption C-print dari perkuliahan-perkuliahan para profesor secara spesifik selama satu dekade lebih, dan juga catatan yang setiap profesor ketik pada presentasi PowerPowint mereka. Teknologi AI pada Custom Speech Service menggunakan data-data ini untuk membangun model bagaimana kata-kata spesifik diucapkan. Ketika pembicara menggunakan kata-kata tersebut, sistem akan mengenal nya dan menampilkan teksnya pada transkrip secara real-time.

Chris Cambell adalah seorang alumni NTID yang kini merupakan profesor peneliti di CAT, dimana ia memimpin upaya pengembangan ASR. Pada musim gugur tahun 2017, ia mengajar perkuliahan dasar-dasar pemrograman pada mahasiswa di NTID. Ia mengajar menggunakan bahasa isyarat Amerika (ASL – American Sign Language).

“Terkadang, di NTID kami memiliki mahasiswa yang tidak begitu lancar berbahasa isyarat; mereka bergantung pada Bahasa Inggris. Jadi, untuk kelas saya, saya mengajukan permohonan untuk mencoba ASR dan melihat bagaimana kinerjanya menggunakan penerjemah,” ujarnya.

Penerjemah menggunakan sebuah headset dan berbicara melalui mikrofon tentang apa yang diisyaratkan Campbell. Microsoft Presentatioin Translator menampilkan caption di bawah slide PowerPoint miliknya dan pada peralatan personal para mahasiswanya yang menjalankan aplikasi Micosoft Translator. Ketika Campbell menggunakan bahasa isyarat, ia berkata, ia melihat mata para mahasiswanya berpindah-pindah darinya, ke caption, dan ke penerjemah. Jumlah waktu yang mereka gunakan untuk setiap sumber informasi bergantung kepada kenyamanan mereka dengan ASL dan tingkat pendengaran mereka.

“Saya mampu mendengarkan penerjemahnya dan membaca caption pada laptop saya,” kata Amanda Bui, seorang pelajar yang memiliki kesulitan mendengar di kelas yang kurang fasih dengan ASL serta memiliki layanan akses terbatas saat ia hidup di Fremont, California. “Ini memudahkan saya untuk belajar bahasa sandi.”

Aksesibilitas Bagi Semua

Connelly, profesor biologi umum, melihat teknologi caption otomatis tersebut akan memperbesar kinerja penerjemah ASL, bukan menggantikannya. Hal tersebut dikarenakan ASL, yang dapat mengartikan beberapa kata dalam sebuah gestur, lebih ringan daripada membaca. Namun ketika digunakan dalam perpaduan dengan penerjemah, teknologi tersebut memperbesar akses bagi mahasiswa dalam jangkauan yang lebih luas, khususnya bagi mereka yang kurang fasih menggunakan ASL seperti Joseph Adjei, mahasiswanya dari Ghana.

Lebih lagi, ujarnya, Microsoft Translator memungkinkan mahasiswa untuk menyimpan transkrip perkuliahan, yang telah mengubah bagaimana seluruh mahasiswanya dapat mempelajari materi perkuliahannya.

“Mereka tahu setiap kata-kata lucu yang saya katakan hari ini,” ujarnya. “Perkuliahan tidak lagi menjadi sebuah rutinitas dengan saya berdiri dan menjelaskan, namun sekarang memiliki saya dalam catatan mereka dan dalam bentuk teks. Hal ini telah mengubah apa yang mereka ucapkan saat datang ke kantor saya. Mereka tidak datang untuk mengatakan ‘saya melewatkan kata ini’ atau ‘saya telah melewatkan definisi ini.’ Mereka kini datang membahas ‘saya tidak mengerti mengapa hal ini berguna untuk ini.’ Teknologi ini telah mengubah fokus kami.”

Mahasiswa yang dapat mendengar dengan baik secara berkala memeriksa setiap caption di kelas untuk menemukan materi mana yang mereka lewatkan dan menyimpan transkrip tersebut sebagai bantuan untuk belajar, tambah Connelly. Ketika satu-satunya mahasiswa tuna rungu pada kelas biologi evolusinya, yang merupakan percontohan sistem ASR saat semester musim gugur, mundur dari perkuliahan, Connelly mematikan captionnya. Mahasiswa dengan pendengaran baik kemudian memprotes hal tersebut dan membuat Penerjemah Presentasi (Presentation Translator) akhirnya dinyalakan hingga akhir semester.

Jenny Lay-Flurrie menyatakan ia suka dengan cerita-cerita seperti itu karena mereka menguatkan nilai untuk berinvestasi dalam teknologi aksesibilitas.

“Dari sebuah perspektif rancangan teknis produk,” katanya, “ketika Anda merancang untuk orang dengan aksesibilitas, Anda telah merancang untuk semua orang, termasuk 1 milliar lebih orang dengan keterbatasan fisik.”

Pelajari lebih lanjut tentang:

John Roach menulis tentang riset dan inovasi Microsoft. Ikuti dia di Twitter.

AI untuk Menciptakan Caption

Pertumbuhan Permintaan untuk Layanan Akses

Pengenal Percakapan Otomatis

Model Bahasa untuk Kelas

Aksesibilitas Bagi Semua

**AI untuk Menciptakan C*aptio***n