Gradient Descent on Token Input Embeddings

Y	Hacker News new \| ask \| show \| jobs

	Gradient Descent on Token Input Embeddings (lesswrong.com)
	3 points by kp1197 333 days ago

1 comments

Does performing gradient descent on token input embeddings lead to interpretable results? And if not, why?