[01] // CASE STUDY / ELLECI

Elleci.

Elleci nasce da un vincolo semplice: costruire un LLM serio senza hardware da laboratorio. Invece di rincorrere più VRAM, ho lavorato sull'architettura: BitNet, Mamba-2, EG-MLA e MoE nello stesso modello, con training su una singola A100 e inferenza su GPU consumer.

Cliente Ricerca indipendente Settore ML Research Anno 2025

PyTorch
Mamba-2
BitNet 1.58b
DeepSpeed ZeRO-2
Liger-Kernel
WandB
EG-MLA
MoE
CUDA

Vedi su GitHub → ← Tutti i lavori

[02] // Il problema

Il problema non era addestrare un altro LLM. Era farlo fuori da un laboratorio.

Per un ricercatore indipendente, il limite non è l'idea. È l'hardware. I modelli più capaci chiedono GPU con decine di gigabyte di VRAM già in inferenza, e ancora di più in training. Di fatto, questo taglia fuori chi non lavora in un laboratorio o in una grande tech company.

Elleci parte da qui: invece di adattare a posteriori un modello nato per cluster costosi, l'obiettivo era progettarlo da subito per stare dentro vincoli reali. Training su una singola A100 40GB noleggiata su Vast.ai. Inferenza su GPU consumer con 9-16GB VRAM.

Questo cambia la domanda: non "quanto hardware serve?", ma "quali scelte architetturali permettono di tenere capacità e costo sotto controllo insieme?". Tutto il progetto nasce da quel vincolo.

[03] // La soluzione

Quattro scelte guidate dallo stesso vincolo.

[A] BitNet 1.58b: Pesi ternari {-1, 0, +1} invece di FP16.; Riduce il consumo di memoria di circa il 70% e sposta il costo dove conta meno. Non è un trucco finale di compressione: è una scelta di base per far stare il modello dentro un hardware accessibile.
[B] Differential Mamba2Block: Layer SSM (State Space Model) al posto dell'attention standard. Presente in 3 layer su 4.; Porta complessità lineare O(n) invece di O(n²). In pratica: sequenze lunghe senza far esplodere memoria e costi come succede con attention ovunque.
[C] EG-MLA (Multi-head Latent Attention): KV-cache compressa tramite proiezione latente 2560→128 dim. Appare ogni 4 layer.; Riduce la KV-cache di circa l'85% rispetto all'MHA standard, ma mantiene richiamo globale dove Mamba lavora meglio sui pattern locali. Serve a non pagare memoria inutile su ogni layer.
[D] MoE (Mixture of Experts): Routing condizionale: solo K degli N expert FFN sono attivati per ogni token.; Tiene alta la capacità totale senza attivare tutto ogni volta. Il modello arriva a 5.84B parametri, ma il compute attivo per token resta vicino a un modello molto più piccolo.

[04] // Demo

Throughput stabile. Su una sola GPU.

Mockup brutalist Elleci: architettura ibrida Mamba-2/EG-MLA, training 3B parametri, 2.700 token/sec a VRAM consumer. — Una sola A100. 2-3k token/sec. GPU consumer in inferenza.

→ Le quattro scelte lavorano insieme per ridurre memoria e compute, non come ottimizzazioni aggiunte dopo.

[05] // Risultato

Architettura validata su vincoli reali.

Elleci dimostra che si può lavorare su architetture LLM nuove senza partire da un cluster proprietario. Il training gira su una singola A100 40GB noleggiata; l'inferenza punta a GPU consumer da 9-16GB VRAM.

Sul piano tecnico, il risultato chiave non è solo il numero di parametri o il throughput di circa 2.000-3.000 token/sec su A100. È aver fatto convivere BitNet, Mamba-2, EG-MLA e MoE nello stesso modello senza rompere il training loop.

In pratica, il progetto sposta il lavoro dove conta: meno budget speso per inseguire hardware sempre più costoso, più margine per testare idee architetturali reali in una codebase open-source che può continuare a evolvere.

1× A100 training

2-3k Token/sec inferenza

3090+ GPU consumer deploy

[06] // Parliamone

Vuoi usare o studiare l'architettura?

Il progetto è open-source. Se vuoi vedere il codice o parlarne, partiamo dal repository.

Codice su GitHub → Parliamoci →