29 травня 2024, середа, 10:09 2679

Навушники зі ШІ дозволяють чути конкретну людину в натовпі, просто подивившись на неї

Редактор: Гороховський Денис

Читать на русском

Навушники з ШІ. Фото: кадр з відео Вашингтонського університету

Команда Вашингтонського університету розробила систему штучного інтелекту, яка дозволяє користувачеві в навушниках дивитися на людину, яка говорить, протягом трьох-п'яти секунд, щоб "зареєструвати" її. Потім система, яка називається "Target Speech Hearing", блокує всі інші звуки в навколишньому середовищі та відтворює лише голос зареєстрованого мовця в режимі реального часу, навіть коли слухач рухається в шумних місцях та більше не перетинається з мовцем. Про це повідомляє сайт Вашингтонського Університету.

Команда представила свої висновки на конференції ACM CHI з людських факторів в обчислювальних системах. Важливо зазначити, що код для пристрою підтвердження концепції доступний для інших, а система не є комерційно доступною.

"Зараз ми схильні думати про штучний інтелект як про веб-чат-ботів, які відповідають на запитання. Але в цьому проєкті ми розробляємо штучний інтелект, щоб змінити слухове сприйняття будь-кого, хто носить навушники, враховуючи їхні вподобання. Завдяки нашим пристроям тепер ви можете чітко чути один динамік, навіть якщо ви перебуваєте в галасливому середовищі з великою кількістю інших людей», — розповів старший автор, професор Університету Вісконсіна в Школі комп'ютерних наук та інженерії Пола Г. Аллена Шьям Голлакота.

Щоб скористатися системою, людина в готових навушниках з мікрофонами натискає кнопку, спрямовуючи голову на того, хто говорить. Потім звукові хвилі від голосу цього динаміка повинні досягати мікрофонів з обох боків гарнітури одночасно; Похибка становить 16 градусів. Навушники надсилають цей сигнал на вбудований комп'ютер, де програмне забезпечення машинного навчання команди вивчає вокальні патерни об'єкта. Система фіксується за голос та продовжує відтворювати його слухачеві, навіть коли пара рухається. Здатність системи зосереджуватися на зареєстрованому голосі покращується, коли диктор продовжує говорити, надаючи системі більше тренувальних даних.

Команда протестувала свою систему на 21 суб'єкті, які оцінили чіткість голосу зареєстрованих спікерів майже вдвічі вище, ніж нефільтрованого звуку в середньому.

Як повідомлялося раніше, Microsoft стане інтегрувати власний штучний інтелект Copilot в ігри, починаючи з Minecraft. Гравці зможуть під час проходження ставити асистенту запитання у вільній формі, щоб отримувати необхідну допомогу.

Хто ми такі: Про нас та Контакти. Як ми пишемо новини та наші принципи: Редакційний кодекс. Ми старались, якщо вам сподобалось – задонатьте.

Якщо Ви помітили орфографічну помилку, напишіть нам.