Saltar al contenido

Google presenta un códec de audio inteligente que puede ofrecer voz de alta calidad a solo 3 kbps

Google presenta un códec de audio inteligente que puede ofrecer voz de alta calidad a solo 3 kbps

Ya estamos acostumbrados a escuchar muchos mensajes de audio todos los días. Y aunque la velocidad del acceso a Internet en todo el mundo crece constantemente, todavía se necesitan códecs capaces de transmitir voz de alta calidad con una cantidad mínima de datos. Por lo tanto, los desarrolladores de Google crearon y entrenaron el códec de audio Lyra, que supera significativamente a todos los competidores.

Por el momento, el códec abierto más popular para la transmisión de voz en telefonía VoIP es Opus, que, con una tasa de bits de alrededor de 32 kbps, proporciona una calidad de voz lo más cercana posible a la original. Sin embargo, por supuesto, puede funcionar a velocidades de bits más bajas, hasta 6 kbps, y su competidor, Speex, también a 3 kbps.

Sin embargo, una tasa de bits tan baja afecta negativamente a la percepción del habla: las palabras se vuelven ilegibles, aparecen varios artefactos de sonido, como «la voz del robot». Para deshacerse de tales problemas, Google utilizó modelos generativos formados en miles de horas de diálogo.

Además, para ahorrar bitrate, Lyra genera varias señales en paralelo en diferentes rangos de frecuencia, que luego se combinan en una señal de salida con la frecuencia de muestreo deseada. Todo esto permite, en última instancia, que el códec se utilice incluso en teléfonos inteligentes débiles, proporcionando un retraso de codificación real de no más de 90 ms.

Si comparamos Lyra con los códecs actuales, entonces, en términos de relación calidad-tasa de bits, simplemente no tiene competencia: si Opus a 6 kbps emite artefactos claramente audibles y Speex a 3 kbps habla con la «voz de un robot», entonces Lyra a 3 kbps c transmite una voz con una distorsión mínima del original.


Comparación subjetiva de la calidad de la voz para diferentes códecs.

Además, Lyra ha aprendido a transmitir bien la voz no solo en inglés: el códec es compatible con más de 70 idiomas del mundo. Curiosamente, la combinación de Lyra con códecs de video avanzados como AV1 permite videoconferencias para usuarios cuya velocidad de Internet es de solo 56 kbps.

Por supuesto, Google no se detendrá allí: la compañía continúa mejorando y capacitando a Lyra. Quizás, en el futuro, el códec se utilice para la compresión y transmisión de música de alta calidad a través de Bluetooth, donde existen restricciones estrictas sobre la tasa de bits.