| HN Mirror

Y	Hacker News new \| ask \| show \| jobs

by programjames 728 days ago

Great paper! There are some similar ideas to this in game theory and reinforcement learning (RL):

[3]: Soft-Actor Critic - Entropy-regularized RL: https://arxiv.org/abs/1801.01290

[4]: "Soft" (Boltzmann) Q-learning = Entropy-regularized policy gradients: https://arxiv.org/abs/1704.06440