Monthly Archives: December 2025

　　到中科院以后集中学习大模型底层技术。承接了一些国产GPU算子优化的科研项目。本质上，就是把DeepSeek团队在N卡算子上做的惨无人道的底层优化在国产卡上再做一次。

　　团队对外提供成套的高级算子专家服务，坦率说不便宜，有需要的找我。

　　GPU是众核并行计算设备，通过线程块与网格组织计算。常规算子优化分为四层：
　　汇编层面：直接操作指令集，调整寄存器分配、指令调度，隐藏延迟。技术包括寄存器分块、指令重排、消除Bank冲突等。
　　C++/高层语言内核优化：使用CUDA C++/HIP编写，优化内存访问模式（如数据布局NHWC/NCHW）、向量化加载、共享内存使用。
　　中间表示（IR）层自动优化：TVM、MLIR、Triton等框架将计算与硬件解耦，通过调度原语和自动搜索（AutoTVM/Ansor）寻找最优分块、循环展开等参数。
　　算法层面创新：如FlashAttention重排计算顺序，降低内存复杂度。

　　不同计算场景也有不同的技术特点：
　　大语言模型：预训练核心是GEMM（矩阵乘），需优化通信与计算协同；微调（如LoRA）需处理小矩阵乘的批处理与融合；推理需优化KV Cache管理（PagedAttention/RadixAttention）、动态shape与连续批处理。
　　多模态模型：需处理视觉（卷积、Patch Embedding）与文本（Transformer）算子的融合，支持跨模态注意力与动态shape。
　　视觉模型：CNN（规则访存）与ViT（类似LLM）的优化路径不同，需支持算子融合与量化。
　　传统深度学习：推荐系统需优化稀疏嵌入查表；图神经网络需优化稀疏矩阵乘（SpGEMM）的负载均衡。

　　算子优化主要采用以下各种优化技术：
　　分块（Tiling）：将数据划分为适合缓存层次的块（全局→共享内存→寄存器），提升数据重用。
　　双缓冲：用两组缓冲区交替加载与计算，隐藏内存延迟。
　　Warp操作：利用warp内线程的快速数据交换（如__shfl_sync），减少共享内存访问。
　　向量化访存：使用float4/float8等向量加载，提升带宽利用率，要求内存对齐。
　　数据布局转换：如NCHW/NHWC布局选择，优化访问合并度。
　　持久化Kernel：长期运行的线程块处理任务队列，减少kernel启动开销。

　　相比N卡，国产GPU面临一些独特挑战：生态不成熟，硬件细节不透明，性能可移植性差，多卡互联方案（PCIe/CXL）带宽、延迟与NVIDIA NVLink有差距。而且需要优化算子数量还很多。一般会采用分层策略：核心算子（GEMM、FlashAttention、卷积、归一化）投入专家手工极致优化，而固定模式算子（Element-wise、Reduction）通过模板+参数搜索实现常规优化，对长尾/动态算子则通过编译框架自动生成。再激进一点，基于微调后的专用算子编程大模型进行自动探索优化。

　　对于极致优化，以GEMM算子为例，优化思路包括：
　　分块：全局→共享内存→寄存器多层分块，尺寸权衡占用率与寄存器压力。
　　指令级优化：围绕矩阵计算单元（如Tensor Core）定制指令。
　　双缓冲：异步加载下一数据块，隐藏访存延迟。
　　精度支持：适配FP32/FP16/BF16/FP8/INT8等，设计缩放与累加策略。
　　批量与形状：小batch时需合并计算；非常规形状（如LoRA的低秩乘）需单独设计。

　　对于模板+参数搜索自动优化，目前有3种技术路线：
　　TVM/MLIR：通过张量表达与调度原语描述计算，自动搜索优化参数。
　　TileLang：以tile为核心抽象，显式表达分块与数据布局，由编译器生成底层代码，平衡控制力与自动化。
　　Triton：限制编程模型自由度，编译器自动生成高效代码，适合快速补齐算子。
　　无论是哪种技术路线，适配国产GPU需后端映射硬件指令、构建性能模型指导搜索、并通过系统化测试验证。

　　我知道你们想了解除此以外的更激进更酷的第三种方法：基于微调后的专用算子编程大模型进行探索，甚至发明人类没发明过的新算法。这个路线和上面两种路线并不是冲突的，而是必然以上面两种工程经验和模板工具为基础，加上更多自主编程和迭代。具体细节不能讲太多。今年国外已经有论文，自己去搜吧。

　　最后，对于优化效果的评价可参考KernelBench的算子定义与评估思想，在国产GPU上重建参考实现作为基线。测试覆盖核心算子（GEMM、卷积等）的各种精度、形状与布局。通过相对性能加速比、带宽利用率、数值误差等指标综合评估。此外还应该增加常用大模型的E2E案例压测。

关于AI的思考片段记录

Leave a reply

　　关于DeepSeek（1）：稍早前DeepSeek对我说：宇宙的沉默或是最大的警钟。文明或如萤火，短暂照亮黑暗便熄灭。人类若想跨越 filter，必须证明自己不仅是“会使用工具的猴子”，更是能驾驭技术之火的智慧生命。

　　关于DeepSeek（2）：让DeepSeek比较当年钱学森的《工程控制论》和目前最新的自动驾驶技术的理论框架。它在解释“状态空间”这个概念还挺到位。

　　关于DeepSeek（3）：问DeepSeek：“33550336是一个完全数，解释一下”。它的回答令人叹为观止。（后注：12月DeepSeek发布了 DeepSeek Math，原来如此）。伟大的DeepSeek赶紧发布R2吧。全中国的程序员都在苦等传说中的DeepSeek Code新版来拯救。现在中国程序员被美国大模型服务针对性折腾，太不爽了。

　　关于AI的商业化：奥特曼一本正经地回答过投资人，OpenAI 的计划是先造出通用智能，然后直接问它如何赚钱。另一方面，DeepSeek的母公司用AI炒股票已经可以做到每年上百亿美元收益，所以他们不太关心大模型如何商业化赚钱的问题。这比美国那边OpenAI承受的压力小多了。

　　关于Agent：在航空英文词汇里，Copilot是副驾驶，Captain是机长。回到计算机专业，造Agent的最终目标必然是造Captain而非Copilot。我去年因为这个和别人发生了剧烈争论。看不见、看不起、看不懂、追不上。大多数人都是这样。OpenAI 最新发布的那个 ChatGPT Pulse，不就是大模型版的今日头条嘛。字节跳动的同学们赶紧啊。这才是Agent该有的样子。Andrej Karpathy判断哪些工作会被 AI 替代的标准（或者说，可以用来考虑那些场景可以尝试开发Agent）：不看工作的复杂度，看可验证性。单看IT领域，所有能实现自动化测试的场景，都会最终实现“人在环外”。所谓人机协同，大多数是伪命题。

　　关于Infra：重新去阅读很多infra的文章和博客，发现了这一句“知识是病毒，专家是载体，只要有好的交流方式，知识就会不断传播，就会有新的专家成长。”基础设施层的演进速度真的匪夷所思。上半年王坚院士把大模型塞进卫星里发射到太空就够抽象了，最近看到的很多东西吓到我了。

　　关于华为：华为把盘古大模型的部门彻底裁撤了。现在进入纸糊必死的时代，即使试图纸糊的品牌叫华为。另一方面，AI芯片方面，华为清晰的列出了接下来三年的产品roadmap，包含芯片型号、预计技术规格和产能，包括出现意外时的取舍优先级。这种产研迭代的节奏感让人肃然起敬。

　　关于Data cloud：研究了一下Snowflake近况。自己纸糊的大模型基本上停掉了。集中精力继续做Data Cloud基础设施。目前强调自己是业务-分析-推理三合一。业务就是OLTP，分析就是OLAP，推理是正在摸索的AI接入。股价创新高。

　　关于Anthropic：好诡异，Anthropic居然在老版本模型下架的时候，安排对模型（不是对模型的人类用户）进行访谈，收集模型自己对运维、部署和未来开发新模型的建议。这是完全把大模型当活人对待了吗？

　　关于传统互联网平台：Amazon 正式起诉 Perplexity AI，因为后者的Agent开始帮人类在Amazon商城上自动买东西，这摧毁了电商大数据推荐广告的技术根基。豆包手机助手一上线，就被微信在内的各种平台封杀，逻辑一样。平台自己的NLP界面做出来之前，不会接受任何其他AI挡在APP和用户之间。问题是，用户最终只需要一个Jarvis。

　　关于AI自动做算子优化：这波Google Gemini 3.0大模型的登顶，意味着第一个非英伟达芯片支撑的大模型杀出来了。Google提出了很多爆炸性的思路，同样可以用在中国国产卡生态。夏天看了Google的一篇用DeepSeek自动探索底层算子代码优化的论文。TPU驱动层算子优化（对位CUDA和算法框架）不只是活人在做，而是尝试AI做。这意味着DeepSeek震惊世界的工作（在英伟达体系底层深度优化，节省超过十倍算力）可以由AI在国产卡生态里再做一遍，不用非得组建上百人的、年薪十亿的天才团队。离AI在无人干预下，基于国产芯片，完全自主从头开发一个大模型，还有多少个月？

joyfire 王乐珩地雷

有事多Google，没事少上网

Monthly Archives: December 2025

2026年度目标

关于国产 GPU 的算子优化

关于AI的思考片段记录