| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by squiggleblaz 479 days ago
	Reinforcement learning, maximise rewards? They work because rabbits like carrots. What does an LLM want? Haven't we already committed the fundamental error when we're saying we're using reinforcement learning and they want rewards?