| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by fzzzy 203 days ago
	- Reinforcement learning with verifiable rewards (RLVR): instead of using a grader model you use a domain that can be deterministically graded, such as math problems.