为加速长文推理,腾讯混元提出Stem稀疏注意力算法,从「因果信息流」重新审视块级稀疏,用Token位置衰减(TPD)和输出感知度量(OAM)两大创新,仅用25%算力就逼近稠密注意力的精度。配套的HPC算子库则将这份理论加速比真正转化为端到端的实测性能。
算子层面,HPC开源的Stem+BSA算子将稀疏收益转化为真实硬件加速,128K上下文下首字延迟降低3.7倍。算法决定「省哪些计算」,算子决定「省下的计算能快多少」——两者协同,构成从理论到部署的完整闭环。(jl/u)
相关内容《大行》花旗列出中资科网股投资评级及目标价(表)
AASTOCKS新闻