| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by k8si 1172 days ago
	I don't know what you mean by compiler terms but basically, worse tokenizer = worse LM performance. This is because worse tokenizer means more tokens per sentence so it takes more FLOPs to train on each sentence, on average. So given a fixed training budget, English essentially gets more "learning per token" than other languages.