VibeVoice, desarrollado por Microsoft y publicado en código abierto, se ha convertido en uno de los proyectos más destacados en el ámbito del audio y la IA. Este sistema ha ganado una rápida popularidad en GitHub, donde ya supera las 29.000 estrellas. La iniciativa reúne en un mismo ecosistema modelos de síntesis de voz (TTS) y reconocimiento automático del habla (ASR), con el objetivo de facilitar la creación de aplicaciones basadas en voz. Su creciente adopción refleja el interés de la industria por herramientas más accesibles y potentes en este campo.
Uno de los aspectos más llamativos de VibeVoice es su capacidad para generar audio conversacional de alta calidad durante largos periodos de tiempo. Su modelo principal permite producir hasta 90 minutos de audio continuo con hasta cuatro hablantes distintos, manteniendo coherencia entre voces, turnos naturales y expresividad emocional. Esto abre nuevas posibilidades para la creación de podcasts, audiolibros y contenidos narrativos complejos.
Cómo funciona
A nivel técnico, VibeVoice combina un modelo de lenguaje que interpreta el contexto y la evolución del diálogo, mientras que otros modelos convierten esa información en audio realista, refinándolo progresivamente hasta lograr una calidad cercana a la voz humana.
Las seis prioridades de Trump para regular la IA en Estados Unidos
La familia incluye distintas versiones adaptadas a diferentes usos. El modelo principal está enfocado en la generación de audio largo y multihablante, mientras que VibeVoice-Realtime está optimizado para aplicaciones en tiempo real con baja latencia. Por su parte, VibeVoice-ASR permite transcribir hasta 60 minutos de audio en una sola pasada, identificar a los hablantes y añadir marcas temporales.
En las últimas semanas, la comunidad open-source ha acelerado su adopción, destacando «Vibing«, un sistema de entrada por voz para macOS y Windows basado en esta tecnología. El proyecto se distribuye bajo licencia MIT, lo que permite su uso, modificación e integración libre. Además, Microsoft ha facilitado su adopción al integrarlo en la biblioteca Transformers de Hugging Face, uno de los estándares más utilizados en inteligencia artificial.
Al apostar por el código abierto, Microsoft pretende atraer desarrolladores y acelerar la creación de nuevas aplicaciones, al tiempo que impulsa el uso de su infraestructura en la nube.

