BitCPM-CANN:在昇腾NPU上原生训练1.58位大语言模型
研究团队提出了BitCPM-CANN,这是首个在华为昇腾Ascend NPU平台上系统性实现1.58位(三值)量化感知训练(QAT)的家族级研究。他们将在GPU上开发的管线移植到CANN、MindSpeed和Megatron-LM,并训练了四个模型(0.5B、1B、3B、8B),这些模型在架构和预训练数据上与全精度的MiniCPM4严格对齐。在涵盖常识推理、领域知识、数学与推理的11项基准测试中,1B、3B和8B变体保留了全精度性能的95.7%至97.2%,其中3B变体表现尤为突出。这项研究填补了极端低位LLMs的两个实际空白:一是验证了三值权重在端侧规模上能否保持复杂推理能力,二是展示了如何在CUDA生态系统之外原生提供端到端1.58位训练。论文还探讨了在国产硬件上进行高效低比特模型训练的未来方向。
hipEngine:为RDNA3提供快速原生Qwen 3.6推理引擎
开发者发布了hipEngine,这是一个新的开源(AGPLv3)ROCm原生本地LLM推理引擎,专门针对RDNA3架构(如Radeon RX 7900 XTX和Pro W7900)进行了优化。该引擎基于Python实现,但去除了PyTorch的繁重依赖,所有热点路径均使用HIP/C++编写,并充分利用AMD原生库如hipBLASLt、hipGraph和AOTriton。初始实现对Qwen 3.6(包括MoE和稠密版本)的推理性能与llama.cpp相当,特别是在使用ParoQuant(已适配ROCm)4.68bpw量化时,从512到128K的所有测试上下文长度下,预填充(提示处理)速度均优于llama.cpp的GGUF Q4_K_S和HIP版本。这得益于针对AMD GPU的深度优化,使得Strix Halo和7900 XTX等显卡能够高效运行大规模MoE模型。
ML从业者如何为自监督表征学习选择超参数?
在机器学习领域,非对比性自监督学习方法如BYOL、JEPA和data2vec展现出巨大潜力,但其损失函数的非单调性使得超参数、架构和训练策略的选择变得极为困难。研究者提出,虽然可以使用线性探测或KNN结果在训练过程中评估表征质量,但这容易导致过度利用研究者自由度。RankMe指标通过计算嵌入矩阵的奇异值分解来评估有效秩,但像JEPA这类方法已经内置了熵坍缩项(如Barlow Twins/SIGREG),使得RankMe标准被直接吸收进训练损失中,不再独立有效。修改惩罚权重可以人为提高秩,但损失函数本身已经复杂且非单调。该讨论引发了社区对更可靠评估指标的思考,例如如何设计既与下游任务相关又不受训练过程影响的自监督学习评价方法。
来源:Reddit Machine Learning·原文