// TRAGUARDI.LOG / 22 MAGGIO 2026
◈ TECNICO

Salto di Affidabilità dell'Inferenza

Stack di inferenza on-prem ricostruito su Ollama nativo — affidabilità delle richieste salita dal 65,8% al 90,0% e throughput seriale stabilizzato a ~44 tok/s su tutti i prompt.

Dopo il deployment del framework di load testing, abbiamo eseguito un benchmark completo a 12 celle prima e dopo la migrazione dello stack di inferenza on-prem dallo shim MLX personalizzato a Ollama nativo. I risultati hanno misurato un miglioramento netto su affidabilità, throughput e consistenza.

Affidabilità: 65,8% → 90,0%

Le richieste riuscite sono passate da 79/120 a 108/120. Quattro celle di test che in precedenza fallivano completamente — medium_parallel_history, heavy_serial_history, heavy_parallel_no_history e heavy_parallel_history — ora passano. Nessuna cella registra 0/10 dopo la migrazione.

Throughput seriale: stabile a ~44 tok/s

Il throughput seriale del Run A era irregolare — un andamento a dente di sega da 0,34 a 33,6 tok/s causato dallo shim che ricaricava il modello a freddo su alcune richieste. Dopo la migrazione, il throughput seriale si è stabilizzato a ~40–45 tok/s indipendentemente dalla dimensione del prompt. Le celle medium-history sono passate da 2,3 → 26,6 tok/s (+1055%) e da 3,2 → 45,2 tok/s (+1315%). Ollama nativo mantiene il modello residente con una KV cache calda.

Confronto in sintesi

MetricaPrima (shim)Dopo (Ollama)
Affidabilità richieste65,8% (79/120)90,0% (108/120)
Celle con 0/10 fallimenti4 celle0 celle
Range throughput seriale0,34–33,6 tok/s26,6–45,2 tok/s
Durata esecuzione~43 min~22 min

Lavori rimanenti tracciati