Con la crescente diffusione dei sistemi di intelligenza artificiale, la voce sta diventando rapidamente il canale principale di comunicazione tra esseri umani e macchine. In questo contesto, la startup francese Mistral ha deciso di entrare nella competizione con Voxtral, il suo primo modello audio open source destinato al mondo aziendale.

Voxtral è progettato per offrire un’intelligenza vocale realmente utilizzabile in produzione, senza costringere le aziende a scegliere tra sistemi economici ma poco affidabili e soluzioni chiuse più performanti ma costose e meno controllabili. Secondo Mistral, Voxtral rappresenta la prima vera alternativa open ai sistemi vocali proprietari, con prezzi inferiori alla metà rispetto ai principali concorrenti. Questo approccio mira a dare più libertà e controllo agli sviluppatori, offrendo al contempo un livello qualitativo alto, adatto a contesti reali.

Grazie alla sua architettura basata sul modello linguistico Mistral Small 3.1, Voxtral è in grado di trascrivere fino a 30 minuti di audio e comprendere fino a 40 minuti di contenuto, permettendo di fare domande sul parlato, generare riassunti, o eseguire comandi vocali che attivano API o funzioni software in tempo reale.

Un altro punto di forza è la sua natura multilingua: Voxtral supporta infatti inglese, spagnolo, francese, portoghese, hindi, tedesco, olandese e italiano, posizionandosi come uno strumento versatile per le aziende con operatività globale.

Il sistema viene distribuito in due versioni principali:

  • Voxtral Small con 24 miliardi di parametri, progettato per l’uso in produzione e paragonabile a strumenti come ElevenLabs Scribe, GPT-4o-mini e Gemini 2.5 Flash
  • Voxtral Mini con 3 miliardi di parametri, pensato per l’utilizzo su dispositivi locali o in edge computing

A questo si aggiunge Voxtral Mini Transcribe, una versione ultraleggera ed economica ottimizzata solo per la trascrizione, che secondo Mistral è capace di superare OpenAI Whisper a meno della metà del costo. Gli utenti possono testare gratuitamente Voxtral tramite API disponibili su Hugging Face o attraverso il chatbot Le Chat. L’integrazione nei propri software parte da 0,001 dollari al minuto, una cifra estremamente competitiva sul mercato.

La seconda novità di Mistral è il lancio della modalità Deep Research, che trasforma Le Chat in un assistente alla ricerca coordinato, capace di pianificare, cercare informazioni e sintetizzarle. “Fai una domanda complessa e lui la scomporrà, raccoglierà fonti affidabili e costruirà un report strutturato, con riferimenti, facile da seguire”, si legge nell’annuncio dell’azienda francese. Questa modalità, secondo Mistral, è progettata per risultare semplice, trasparente e davvero utile, “come se collaborassi con un partner di ricerca ben organizzato”.