CAD: Disaggregating Core Attention for Efficient Long-Context LLM Training

Y	Hacker News new \| ask \| show \| jobs

	CAD: Disaggregating Core Attention for Efficient Long-Context LLM Training (hao-ai-lab.github.io)
	6 points by ginda307 184 days ago