Avatarl: Training language models from scratch with pure reinforcement learning

Y	Hacker News new \| ask \| show \| jobs

	Avatarl: Training language models from scratch with pure reinforcement learning (tokenbender.com)
	9 points by Gusarich 311 days ago