| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by tripplyons 821 days ago
	From what I remember, larger LLMs like PaLM don't use biases for training stability, but smaller ones tend to still use them.