Elleci.
Elleci nasce da un vincolo semplice: costruire un LLM serio senza hardware da laboratorio. Invece di rincorrere più VRAM, ho lavorato sull'architettura: BitNet, Mamba-2, EG-MLA e MoE nello stesso modello, con training su una singola A100 e inferenza su GPU consumer.
Il problema non era addestrare un altro LLM. Era farlo fuori da un laboratorio.
Per un ricercatore indipendente, il limite non è l'idea. È l'hardware. I modelli più capaci chiedono GPU con decine di gigabyte di VRAM già in inferenza, e ancora di più in training. Di fatto, questo taglia fuori chi non lavora in un laboratorio o in una grande tech company.
Elleci parte da qui: invece di adattare a posteriori un modello nato per cluster costosi, l'obiettivo era progettarlo da subito per stare dentro vincoli reali. Training su una singola A100 40GB noleggiata su Vast.ai. Inferenza su GPU consumer con 9-16GB VRAM.
Questo cambia la domanda: non "quanto hardware serve?", ma "quali scelte architetturali permettono di tenere capacità e costo sotto controllo insieme?". Tutto il progetto nasce da quel vincolo.
Quattro scelte guidate dallo stesso vincolo.
- [A] BitNet 1.58b
- Pesi ternari {-1, 0, +1} invece di FP16.
- Riduce il consumo di memoria di circa il 70% e sposta il costo dove conta meno. Non è un trucco finale di compressione: è una scelta di base per far stare il modello dentro un hardware accessibile.
- [B] Differential Mamba2Block
- Layer SSM (State Space Model) al posto dell'attention standard. Presente in 3 layer su 4.
- Porta complessità lineare O(n) invece di O(n²). In pratica: sequenze lunghe senza far esplodere memoria e costi come succede con attention ovunque.
- [C] EG-MLA (Multi-head Latent Attention)
- KV-cache compressa tramite proiezione latente 2560→128 dim. Appare ogni 4 layer.
- Riduce la KV-cache di circa l'85% rispetto all'MHA standard, ma mantiene richiamo globale dove Mamba lavora meglio sui pattern locali. Serve a non pagare memoria inutile su ogni layer.
- [D] MoE (Mixture of Experts)
- Routing condizionale: solo K degli N expert FFN sono attivati per ogni token.
- Tiene alta la capacità totale senza attivare tutto ogni volta. Il modello arriva a 5.84B parametri, ma il compute attivo per token resta vicino a un modello molto più piccolo.
Throughput stabile. Su una sola GPU.
→ Le quattro scelte lavorano insieme per ridurre memoria e compute, non come ottimizzazioni aggiunte dopo.
Architettura validata su vincoli reali.
Elleci dimostra che si può lavorare su architetture LLM nuove senza partire da un cluster proprietario. Il training gira su una singola A100 40GB noleggiata; l'inferenza punta a GPU consumer da 9-16GB VRAM.
Sul piano tecnico, il risultato chiave non è solo il numero di parametri o il throughput di circa 2.000-3.000 token/sec su A100. È aver fatto convivere BitNet, Mamba-2, EG-MLA e MoE nello stesso modello senza rompere il training loop.
In pratica, il progetto sposta il lavoro dove conta: meno budget speso per inseguire hardware sempre più costoso, più margine per testare idee architetturali reali in una codebase open-source che può continuare a evolvere.
Vuoi usare o studiare l'architettura?
Il progetto è open-source. Se vuoi vedere il codice o parlarne, partiamo dal repository.