Нейросеть научили слышать и озвучивать то, что люди говорят «про себя»

Американские учёные разработали систему, которая распознаёт беззвучную речь и превращает её в слышимую при помощи нейросети – в будущем это может поспособствовать созданию гарнитуры, позволяющей разговаривать по телефону, не издавая звуков.

Хотя при чтении «про себя» мы не произносим слова вслух и не произносим никаких звуков, мозг всё равно заставляет мышцы голосового тракта двигаться, пусть и намного меньше, чем при «обычной» речи – этот процесс называется субвокализацией. Инженеры умеют считывать эти мышечные сокращения различными методами — в основном при помощи электромиографии, которая регистрирует электрическую активность мышц при помощи электродов на шее и лице.

Однако существующие интерфейсы для распознавания субвокализации пока способны превращать беззвучную речь лишь в текст, поэтому американские учёные из Калифорнийского университета в Беркли решили разработать алгоритм, который мог бы «озвучивать» мышечные сокращения. Его обучили на трёх типах данных: записи слышимой речи и активности мышц как во время слышимой, так и неслышимой речи. В основе их метода лежит преобразование исходных сигналов.

Алгоритм учитывает все три сигнала – две электромиограммы и слышимую речь. На первом этапе он находит оптимальное соответствие между двумя сигналами – слышимой и неслышимой речи, а на втором, используя полученное соответствие, создаёт из аудиозаписи слышимой речи аудиозапись речи из электромиограммы, то есть неслышимой речи. Такой алгоритм необходим для обучения нейросети, которая делает то же самое, получая на вход не три вида сигнала, а всего один – электромиограмму неслышимой речи.

Исследователи использовали рекуррентную нейросеть с долгой краткосрочной памятью, а данные, полученные на выходе из неё, передаются в нейросеть WaveNet, декодирующую их в аудиозапись человеческого голоса. Для обучения был собран датасет из 20 часов записи слышимой и беззвучной речи, представленной в виде трёх типов данных. После обучения разработчики проверили понятность генерируемых записей.

В качестве метрики учёные использовали стандартную пословную вероятность ошибки — сумму изменённых, отсутствующих и лишних слов, поделённую на общую длину текста. Для простых фраз, наподобие дат и других чисел, вероятность ошибки полноценной нейросети составила 3,6, а для той, которую обучали только на слышимой речи, она составила 88,8. Для сложных фраз, вроде отрывков из книг, разница была не такой большой: 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.

Источник – popmech.

Популярное на сайте

Нейросеть научили слышать и озвучивать то, что люди говорят «про себя»

Лента

Как и почему партия Пашиняна победила на выборах в Армении: анализ издания «Важные истории»

«Информационная война за Армению». Что происходит в Армении накануне парламентских выборов 7 июня

В Ереване спустя 5 месяцев была похоронена убитая в Армении молодая чеченка

Айшат Баймурадову похоронят в Ереване 27 марта

В Ереване пройдут «Дилетантские чтения» с Алексеем Венедиктовым

Хронометраж третьей части «Аватара» Джеймса Кэмерона составит 3 часа 15 минут

ЧМ-2026 станет последним в карьере Криштиану Роналду

Pixar представил первый тизер-трейлер «Истории игрушек-5»

Пи Дидди стал помощником тюремного священника

Рекомендуем посмотреть