| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by search_facility 56 days ago
	MOE basically work that way already, QWEN/etc with low active params (A-number in name) allows to inference big models locally (only active params have to fit into memory)