他提出了一项名为 “noise_step” 的新技术,允许模型直接在 1.58-bit 低精度下训练,且无需反向传播或 动量(Momentum) 加速,从而降低算力和存储消耗。 一开始,作者提到前人研究已经表明,大语言模型 (LLM) 的 推理 ...