对于自注意层的输出投影,使用sparsify-then-quantize函数: 两个Q分别表示权重W和激活X的量化函数,M是掩码,根据激活X的绝对值取topK,⊙是元素乘法。