| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by oezi 37 days ago
	Would it be feasible to do a soft RLHF using steering when an agents gives an undesired response?