Speculative decoding: quando il problema non è solo leggere il prompt, ma anche generare la risposta
Lo speculative decoding accelera la generazione token per token usando un modello piccolo o pattern ricorrenti. Vediamo come funziona e se può aiutare con un...