Google представила аудиокодек Lyra, который позволяет достигать максимального качества передачи речи, даже при использовании очень медленных каналов связи. Исходный код кодека и примеры его работы компания опубликовала на GitHub.
Lyra значительно превосходит традиционные кодеки по качеству передаваемых голосовых данных на низких скоростях. Для этого применяется речевая модель на базе системы машинного обучения, которая позволяет воссоздать недостающую информацию.
Она обучена с использованием нескольких тысячах часов с записями голосов на более чем 70 языках. Кодек включает в себя кодировщик и декодировщик. Алгоритм первого заключается в извлечении данных каждые 40 мс, их сжатии и передаче по сети. Для передачи достаточно канала связи со скоростью 3 килобита в секунду.
В декодировщике используется генеративная модель, которая на основе переданных звуковых параметров воссоздаёт сигнал с речью. Для ускорения вычислений применяются специализированные процессорные инструкции, доступные в 64-разрядных процессорах ARM.
Несмотря на применение машинного обучения, кодек Lyra может использоваться для кодирования и декодирования речи в режиме реального времени на смартфонах среднего сегмента. При этом задержка передачи сигнала будет на уровне 90 мс.
Kommentare