| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by computerphage 2003 days ago
	That's one of RL's traditional formulations, yes. Bandits problems are another one. They've been generalized together into POMDPs partially observable Markov decision processes.