Zéro hallucination sur plus de 1 000 échantillons de test, un facteur de temps réel de 0,09 et une fenêtre de contexte dix fois plus efficace que les systèmes comparables : Hume AI vient de publier TADA (Text-Acoustic Dual Alignment) en open source sous licence MIT. Le code est sur GitHub, les modèles sont sur Hugging Face, et une démo est accessible directement en ligne.
Le problème que résout TADA est structural dans les architectures TTS basées sur les LLM : le décalage entre tokens de texte et tokens audio. Les systèmes conventionnels doivent gérer entre 12,5 et 75 trames audio pour chaque seconde de parole, ce qui génère hallucinations vocales, latence élevée et fenêtres de contexte surdimensionnées. TADA coupe court à ce problème en associant un vecteur acoustique continu à chaque token de texte, synchronisant texte et parole en un seul flux. Chaque étape autorégressive correspond exactement à un token de texte et une trame audio : le modèle ne peut structurellement ni sauter ni insérer des mots.
700 secondes d’audio dans une fenêtre de 2 048 tokens
L’efficacité contextuelle est remarquable : avec une fenêtre de contexte de 2 048 tokens, TADA peut contenir environ 700 secondes d’audio contre 70 secondes dans les architectures conventionnelles. La génération est également cinq fois plus rapide que les systèmes TTS comparables, avec un facteur de temps réel de 0,09.
Hume AI publie deux modèles basés sur Llama : un modèle anglais de 1 milliard de paramètres (tada-1b sur Hugging Face) et un modèle multilingue de 3 milliards de paramètres (tada-3b-ml) couvrant l’anglais, le français, l’allemand, l’espagnol, l’italien, le portugais, le japonais, le chinois, l’arabe et le polonais. L’encodeur et le décodeur TADA-Codec sont également publiés. Une démo est disponible sur Hugging Face Spaces.
Le déploiement sur appareil est un cas d’usage explicitement visé : TADA est suffisamment léger pour tourner sur mobile sans inférence cloud, avec à la clé une latence réduite et une meilleure confidentialité. La recherche associée est disponible sur arXiv.
Hume AI signale deux limites connues : une dérive occasionnelle du locuteur lors de générations dépassant 10 minutes, et une qualité linguistique légèrement inférieure en mode texte+parole simultané par rapport au mode texte seul. Des modèles plus grands avec une couverture linguistique étendue sont en préparation.

