Kimi K2.7-Code è l'LLM per lo sviluppo da 1.000 miliardi di parametri e "pensa" in modo più economico

L’ultima novità in ambito LLM arriva da Moonshot AI, società cinese che ha annunciato Kimi K2.7-Code, una versione fortemente orientata allo sviluppo software e progettata per affrontare compiti complessi che richiedono pianificazione, utilizzo di strumenti esterni e ragionamento distribuito su numerosi passaggi operativi.

Più che un chatbot generico, K2.7-Code nasce come un vero agente di sviluppo. L’obiettivo è infatti quello di assistere programmatori e team tecnici durante attività di lunga durata come refactoring estesi, analisi di repository complessi, debugging multi-fase e automazione di workflow basati su strumenti esterni. Un aspetto particolarmente interessante riguarda la disponibilità dei pesi del modello. Moonshot ha infatti scelto di distribuirlo pubblicamente attraverso Hugging Face con una licenza Modified MIT, una decisione che lo distingue da molte delle piattaforme concorrenti più avanzate, ancora strettamente controllate dai rispettivi proprietari.

Un’architettura progettata per la scalabilità

Dal punto di vista tecnico, Kimi K2.7-Code utilizza una struttura Mixture-of-Experts (MoE) e dispone di un totale di mille miliardi di parametri, una cifra impressionante che però non viene attivata integralmente durante l’elaborazione. Per ogni token vengono infatti utilizzati circa 32 miliardi di parametri effettivi, grazie a un sistema che seleziona dinamicamente otto esperti tra i 384 disponibili, affiancati da un esperto condiviso. Questa soluzione permette di mantenere elevata la capacità del modello riducendo al tempo stesso il costo computazionale delle inferenze.

L’architettura comprende 61 livelli di elaborazione, con una singola componente densa e l’impiego di tecnologie ormai consolidate nel settore, come MLA per la gestione dell’attenzione e SwiGLU per i moduli feed-forward. Moonshot ha inoltre integrato un encoder visivo denominato MoonViT, dotato di circa 400 milioni di parametri aggiuntivi. Grazie a questa componente, il modello è in grado di elaborare immagini e video oltre ai tradizionali input testuali, ampliando notevolmente il numero di scenari applicativi.

Uno dei dati più rilevanti è la dimensione del contesto supportato. Kimi K2.7-Code può infatti gestire fino a 256.000 token in un’unica sessione, equivalenti a centinaia di pagine di documentazione tecnica, grandi repository software o enormi quantità di log e output diagnostici. Si tratta di una caratteristica particolarmente importante per gli sviluppatori professionisti. I limiti di contesto rappresentano infatti uno dei principali ostacoli nell’utilizzo dell’intelligenza artificiale per attività di programmazione su larga scala. Quando un modello perde la visione complessiva del progetto, la qualità dei suggerimenti tende inevitabilmente a deteriorarsi.

Con una finestra di questa ampiezza diventa possibile analizzare contemporaneamente documentazione, codice sorgente, screenshot, ticket di sviluppo e report di errore mantenendo una maggiore coerenza operativa. Secondo i benchmark pubblicati da Moonshot, K2.7-Code mostra miglioramenti significativi rispetto al precedente K2.6 praticamente in ogni scenario testato.

L’incremento più evidente emerge nel Kimi Code Bench v2, dove il punteggio passa da 50,9 a 62 punti, con una crescita superiore al 20%. Progressi rilevanti si registrano anche nei benchmark dedicati al ragionamento applicato alla programmazione e all’utilizzo di strumenti esterni. Particolarmente interessante è il risultato ottenuto nel test MCP Mark Verified, una suite che misura la capacità del modello di interagire correttamente con strumenti compatibili con il Model Context Protocol. In questo caso, K2.7-Code supera persino Claude Opus 4.8, evidenziando una notevole maturità nella gestione dei workflow agentici.

Meno token di ragionamento, maggiore efficienza

Uno degli aspetti su cui Moonshot insiste maggiormente riguarda l’efficienza del processo di ragionamento. L’azienda sostiene infatti che K2.7-Code utilizzi circa il 30% in meno di reasoning token rispetto al predecessore, una metrica che può avere un impatto concreto sia sulle prestazioni sia sui costi operativi.

Nei moderni agenti software, ogni ciclo di pianificazione, verifica, correzione e riesecuzione genera infatti nuovi token di ragionamento. In attività articolate che richiedono centinaia di passaggi, una riduzione di questa entità può tradursi in tempi di risposta inferiori, minore consumo di risorse e costi più contenuti per chi utilizza il servizio tramite API. L’effetto diventa ancora più evidente nei flussi di sviluppo automatizzati, dove un agente può restare operativo per lunghi periodi monitorando test, correggendo codice e verificando risultati senza intervento umano.

Sebbene Moonshot promuova la possibilità di eseguire K2.7-Code in locale attraverso piattaforme come vLLM, SGLang o KTransformers, è evidente che non si tratta di una soluzione destinata all’utente comune. Il repository distribuito tramite Hugging Face occupa infatti circa 595 GB su disco, una dimensione che richiede infrastrutture server dedicate e risorse hardware di livello enterprise.

Dal punto di vista economico, però, la proposta appare particolarmente aggressiva. Moonshot dichiara costi API sensibilmente inferiori rispetto a molte soluzioni proprietarie concorrenti, con tariffe che potrebbero renderlo interessante per startup, team di sviluppo e aziende alla ricerca di alternative ai modelli chiusi più costosi.

(Immagine in apertura: Shutterstock)

Kimi K2.7-Code è l’LLM per lo sviluppo da 1.000 miliardi di parametri e “pensa” in modo più economico

Francesco Destri

Un’architettura progettata per la scalabilità

Meno token di ragionamento, maggiore efficienza