跳转至

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

约 10 个字 预计阅读时间不到 1 分钟

Megatron