字号——磅——mm 对应表
2025-09-29 06:18:32
笔记本外接显示器无法调至最佳分辨率的问题
2501_93160350:
笔记本4752g外接显示器插hdmi无法直连,显示的分倍率还是电脑的?
AI推理计算框架中的内存优化
Chy.ing:
你好可以分享一下Estimating GPU Memory Consumption of Deep Learning Models的代码链接吗
强化学习的并行加速
白熊快跑:
写了个dan
DeepSeek V2/V3中的MLA和Matrix Absorption
求求大佬救救我:
请问这个MLA可以用在图像增强里面代替原本的多头注意力吗?
DeepSeek V2/V3中的MLA和Matrix Absorption
Air浩瀚:
传统的MHA是直接在Q和K上做RoPE,相当于在矩阵乘法间插入了RoPE算子,所以没法用矩阵乘法的结合律进行吸收;但MLA的RoPE是作为单独的feature存在的,因此有多个矩阵连乘的现象
Posted in 渡劫指南