| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by somewhatrandom9 54 days ago
	Could these quantized models make MTP (Multi-Token Prediction) significantly faster when used as drafters for larger regular Gemma 4 models?

1 comments

Google already released specialized drafters for Gemma 4.

The E2B ones? Or what do you mean by specialized drafters?

Thanks

The “-assistant” models released by Google are specialised tiny MTP draft models :)

31b-it-assistant is what enables MTP