| HN Mirror

Y	Hacker News new \| ask \| show \| jobs


	by riku_iki 2682 days ago
	TPU is also slow, they used pod with 64 TPUs for training BERT. You probably can achieve similar result using distributed training on multiple GPU machines.