29 мая 2024, среда, 10:09

Наушники с ИИ позволяют слышать конкретного человека в толпе, просто посмотрев на него

Наушники с ИИ. Фото: кадр из видео Вашингтонского университета

Команда Вашингтонского университета разработала систему искусственного интеллекта, которая позволяет пользователю в наушниках смотреть на говорящего человека в течение трех-пяти секунд, чтобы "зарегистрировать" его. Затем система, которая называется "Target Speech Hearing", блокирует все другие звуки в окружающей среде и воспроизводит только голос зарегистрированного говорящего в режиме реального времени, даже когда слушатель движется в шумных местах и больше не пересекается с говорящим. Об этом сообщает сайт Вашингтонского Университета.

Команда представила свои выводы на конференции ACM CHI по человеческим факторам в вычислительных системах. Важно отметить, что код для устройства подтверждения концепции доступен для других, а система не является коммерчески доступной.

"Сейчас мы склонны думать об искусственном интеллекте как о веб-чат-ботах, которые отвечают на вопросы. Но в этом проекте мы разрабатываем искусственный интеллект, чтобы изменить слуховое восприятие любого, кто носит наушники, учитывая их предпочтения. Благодаря нашим устройствам теперь вы можете четко слышать один динамик, даже если вы находитесь в шумной среде с большим количеством других людей", — рассказал старший автор, профессор Университета Висконсина в Школе компьютерных наук и инженерии Пола Г. Аллена Шьям Голлакота.

Чтобы воспользоваться системой, человек в готовых наушниках с микрофонами нажимает кнопку, направляя голову на говорящего. Затем звуковые волны от голоса этого динамика должны достигать микрофонов с обеих сторон гарнитуры одновременно; Погрешность составляет 16 градусов. Наушники отправляют этот сигнал на встроенный компьютер, где программное обеспечение машинного обучения изучает вокальные паттерны объекта. Система фиксируется за голос и продолжает воспроизводить его слушателю, даже когда пара движется. Способность системы сосредотачиваться на зарегистрированном голосе улучшается, когда диктор продолжает говорить, предоставляя системе больше тренировочных данных.

Команда протестировала свою систему на 21 субъекте, которые оценили четкость голоса зарегистрированных спикеров почти вдвое выше, чем нефильтрованного звука в среднем.

Как сообщалось ранее, Microsoft станет интегрировать собственный искусственный интеллект Copilot в игры, начиная с Minecraft. Игроки смогут во время прохождения задавать ассистенту вопросы в свободной форме, чтобы получать необходимую помощь.

Рассылка новостей. Чтобы быть в курсе. Мы ценим ваше время

Выходит в конце дня, чтение занимает 3-5 минут