Graphique de performances de Chroma 1.0 montrant la similarité vocale, la latence de 146.9ms et le facteur de temps réel de 0.43x

Voici Chroma 1.0, l’IA vocale open source qui veut mettre OpenAI et Gemini au tapis

Pendant qu’OpenAI fait payer son API Realtime au prix fort, FlashLabs vient de larguer Chroma 1.0 en open source. Premier modèle vocal end-to-end fonctionnant en temps réel avec clonage de voix personnalisé, ce petit bijou de 4 milliards de paramètres promet de révolutionner l’IA conversationnelle. Et le meilleur ? Tout est accessible : code, poids du modèle, documentation. De quoi faire grincer des dents chez les géants qui monétisent leurs solutions vocales.

Exit les pipelines bancals qui enchaînent reconnaissance vocale (ASR), traitement par LLM, puis synthèse vocale (TTS). Chroma 1.0 traite directement la parole en entrée et génère de la parole en sortie, nativement. Résultat : un temps de réponse jusqu’au premier token (TTFT) qui descend sous la barre des 150 millisecondes. Avec SGLang activé dès le jour 1, on tombe même à 135ms environ.

« La voix est l’interface la plus universelle au monde, et pourtant elle est restée fermée, fragmentée et retardée », balance Yi Shi, fondateur et directeur R&D chez FlashLabs. « Avec Chroma, nous rendons open source l’intelligence vocale en temps réel afin que les développeurs, chercheurs et entreprises puissent créer des systèmes d’IA qui fonctionnent vraiment à la vitesse humaine. »

L’architecture ? Un combo de Reasoner basé sur Qwen et un backbone de style LLaMA (1B de paramètres) pour le dialogue. Compact, mais costaud : facteur de temps réel de 0,43x, ce qui signifie que Chroma génère de la parole plus de deux fois plus vite que la vitesse de lecture normale, selon MarktechPost.

Clonage vocal en quelques secondes : deepfake ou révolution ?

Le truc qui tue avec Chroma 1.0, c’est son système de clonage vocal. En quelques secondes d’audio de référence, le modèle peut reproduire une voix avec un score de similarité de 0,817, soit 10,96% au-dessus de la baseline humaine (0,73). Vous trouverez les détails sur HuggingFace.

Concrètement, ça ouvre la porte à :

  • Des agents vocaux autonomes pour l’accueil client
  • La traduction vocale en temps réel (conservant la voix d’origine)
  • Des personnages interactifs pour jeux vidéo et métavers
  • Des centres d’appels IA bien plus naturellement réactifs

FlashLabs prévoit d’ailleurs d’intégrer Chroma à sa plateforme FlashAI, déjà déployée pour des agents vocaux. Mais attention : si cette techno est puissante entre de bonnes mains, elle pose évidemment des questions éthiques massives sur l’usurpation d’identité vocale et les deepfakes audio.

Le modèle a cartonné sur HuggingFace dès sa sortie, atteignant la première place de la catégorie multimodale le 22 janvier, selon TV Tokyo. Le message est clair : l’IA vocale propriétaire et chère n’est plus une fatalité.

Pour tester Chroma 1.0 : le modèle complet (4B paramètres) et le code d’inférence sont disponibles en open source.

Retour en haut