Monthly Archives: December 2025

2026年度目标

  2025年初定的年度目标有3个。妥善收尾上一段创业、陪闺女参加全国大赛,都实现了。但算法产品的落地要比预想慢很多。

  2016年曾经给自己定目标:阅读50本书,并在Blog上列出来。最后连滚带爬勉强完成,带来的副作用是此后几年阅读量下降,甚至写Blog欲望也下降。3年后的一篇Blog里都还在拿读书PTSD这件事自嘲

  没想到一晃10年过去了。最近3年由于创业压力和社交媒体的影响,专注阅读能力下降,心流体验变少,Blog也写得少、写得浅。最近在计划恢复深度阅读。

  2026年定以下几个目标吧:
  首先,2026年完成50本书的阅读。我会定期把书单在这个Blog列出来。
  其次,用AI写一篇小说发表在小说网站上。(还想学用AI剪辑制作视频,但这个就不立Flag了)。
  最后,认真探索算法产品,让它落地。

  写完上面3条才意识到,过去5年的年度目标里,都有“调整好睡眠”这个目标。26年终于可以把这一项去掉了。今年回到北京,放缓节奏,狂看B站,玩原神,感觉变回一个情绪稳定的正常人了。

  又过一年,大家身体健康,心想事成。北京的同学,记得找我喝茶聊天。

关于国产 GPU 的算子优化

  到中科院以后集中学习大模型底层技术。承接了一些国产GPU算子优化的科研项目。本质上,就是把DeepSeek团队在N卡算子上做的惨无人道的底层优化在国产卡上再做一次。

  团队对外提供成套的高级算子专家服务,坦率说不便宜,有需要的找我。

  GPU是众核并行计算设备,通过线程块与网格组织计算。常规算子优化分为四层:
  汇编层面:直接操作指令集,调整寄存器分配、指令调度,隐藏延迟。技术包括寄存器分块、指令重排、消除Bank冲突等。
  C++/高层语言内核优化:使用CUDA C++/HIP编写,优化内存访问模式(如数据布局NHWC/NCHW)、向量化加载、共享内存使用。
  中间表示(IR)层自动优化:TVM、MLIR、Triton等框架将计算与硬件解耦,通过调度原语和自动搜索(AutoTVM/Ansor)寻找最优分块、循环展开等参数。
  算法层面创新:如FlashAttention重排计算顺序,降低内存复杂度。

  不同计算场景也有不同的技术特点:
  大语言模型:预训练核心是GEMM(矩阵乘),需优化通信与计算协同;微调(如LoRA)需处理小矩阵乘的批处理与融合;推理需优化KV Cache管理(PagedAttention/RadixAttention)、动态shape与连续批处理。
  多模态模型:需处理视觉(卷积、Patch Embedding)与文本(Transformer)算子的融合,支持跨模态注意力与动态shape。
  视觉模型:CNN(规则访存)与ViT(类似LLM)的优化路径不同,需支持算子融合与量化。
  传统深度学习:推荐系统需优化稀疏嵌入查表;图神经网络需优化稀疏矩阵乘(SpGEMM)的负载均衡。

  算子优化主要采用以下各种优化技术:
  分块(Tiling):将数据划分为适合缓存层次的块(全局→共享内存→寄存器),提升数据重用。
  双缓冲:用两组缓冲区交替加载与计算,隐藏内存延迟。
  Warp操作:利用warp内线程的快速数据交换(如__shfl_sync),减少共享内存访问。
  向量化访存:使用float4/float8等向量加载,提升带宽利用率,要求内存对齐。
  数据布局转换:如NCHW/NHWC布局选择,优化访问合并度。
  持久化Kernel:长期运行的线程块处理任务队列,减少kernel启动开销。

  相比N卡,国产GPU面临一些独特挑战:生态不成熟,硬件细节不透明,性能可移植性差,多卡互联方案(PCIe/CXL)带宽、延迟与NVIDIA NVLink有差距。而且需要优化算子数量还很多。一般会采用分层策略:核心算子(GEMM、FlashAttention、卷积、归一化)投入专家手工极致优化,而固定模式算子(Element-wise、Reduction)通过模板+参数搜索实现常规优化,对长尾/动态算子则通过编译框架自动生成。再激进一点,基于微调后的专用算子编程大模型进行自动探索优化。

  对于极致优化,以GEMM算子为例,优化思路包括:
  分块:全局→共享内存→寄存器多层分块,尺寸权衡占用率与寄存器压力。
  指令级优化:围绕矩阵计算单元(如Tensor Core)定制指令。
  双缓冲:异步加载下一数据块,隐藏访存延迟。
  精度支持:适配FP32/FP16/BF16/FP8/INT8等,设计缩放与累加策略。
  批量与形状:小batch时需合并计算;非常规形状(如LoRA的低秩乘)需单独设计。

  对于模板+参数搜索自动优化,目前有3种技术路线:
  TVM/MLIR:通过张量表达与调度原语描述计算,自动搜索优化参数。
  TileLang:以tile为核心抽象,显式表达分块与数据布局,由编译器生成底层代码,平衡控制力与自动化。
  Triton:限制编程模型自由度,编译器自动生成高效代码,适合快速补齐算子。
  无论是哪种技术路线,适配国产GPU需后端映射硬件指令、构建性能模型指导搜索、并通过系统化测试验证。

  我知道你们想了解除此以外的更激进更酷的第三种方法:基于微调后的专用算子编程大模型进行探索,甚至发明人类没发明过的新算法。这个路线和上面两种路线并不是冲突的,而是必然以上面两种工程经验和模板工具为基础,加上更多自主编程和迭代。具体细节不能讲太多。今年国外已经有论文,自己去搜吧。

  最后,对于优化效果的评价可参考KernelBench的算子定义与评估思想,在国产GPU上重建参考实现作为基线。测试覆盖核心算子(GEMM、卷积等)的各种精度、形状与布局。通过相对性能加速比、带宽利用率、数值误差等指标综合评估。此外还应该增加常用大模型的E2E案例压测。

关于AI的思考片段记录

  关于DeepSeek(1):稍早前DeepSeek对我说:宇宙的沉默或是最大的警钟。文明或如萤火,短暂照亮黑暗便熄灭。人类若想跨越 filter,必须证明自己不仅是“会使用工具的猴子”,更是能驾驭技术之火的智慧生命。

  关于DeepSeek(2):让DeepSeek比较当年钱学森的《工程控制论》和目前最新的自动驾驶技术的理论框架。它在解释“状态空间”这个概念还挺到位。

  关于DeepSeek(3):问DeepSeek:“33550336是一个完全数,解释一下”。它的回答令人叹为观止。(后注:12月DeepSeek发布了 DeepSeek Math,原来如此)。伟大的DeepSeek赶紧发布R2吧。全中国的程序员都在苦等传说中的DeepSeek Code新版来拯救。现在中国程序员被美国大模型服务针对性折腾,太不爽了。

  关于AI的商业化:奥特曼一本正经地回答过投资人,OpenAI 的计划是先造出通用智能,然后直接问它如何赚钱。另一方面,DeepSeek的母公司用AI炒股票已经可以做到每年上百亿美元收益,所以他们不太关心大模型如何商业化赚钱的问题。这比美国那边OpenAI承受的压力小多了。

  关于Agent:在航空英文词汇里,Copilot是副驾驶,Captain是机长。回到计算机专业,造Agent的最终目标必然是造Captain而非Copilot。我去年因为这个和别人发生了剧烈争论。看不见、看不起、看不懂、追不上。大多数人都是这样。OpenAI 最新发布的那个 ChatGPT Pulse,不就是大模型版的今日头条嘛。字节跳动的同学们赶紧啊。这才是Agent该有的样子。Andrej Karpathy判断哪些工作会被 AI 替代的标准(或者说,可以用来考虑那些场景可以尝试开发Agent):不看工作的复杂度,看可验证性。单看IT领域,所有能实现自动化测试的场景,都会最终实现“人在环外”。所谓人机协同,大多数是伪命题。

  关于Infra:重新去阅读很多infra的文章和博客,发现了这一句“知识是病毒,专家是载体,只要有好的交流方式,知识就会不断传播,就会有新的专家成长。”基础设施层的演进速度真的匪夷所思。上半年王坚院士把大模型塞进卫星里发射到太空就够抽象了,最近看到的很多东西吓到我了。

  关于华为:华为把盘古大模型的部门彻底裁撤了。现在进入纸糊必死的时代,即使试图纸糊的品牌叫华为。另一方面,AI芯片方面,华为清晰的列出了接下来三年的产品roadmap,包含芯片型号、预计技术规格和产能,包括出现意外时的取舍优先级。这种产研迭代的节奏感让人肃然起敬。

  关于Data cloud:研究了一下Snowflake近况。自己纸糊的大模型基本上停掉了。集中精力继续做Data Cloud基础设施。目前强调自己是业务-分析-推理三合一。业务就是OLTP,分析就是OLAP,推理是正在摸索的AI接入。股价创新高。

  关于Anthropic:好诡异,Anthropic居然在老版本模型下架的时候,安排对模型(不是对模型的人类用户)进行访谈,收集模型自己对运维、部署和未来开发新模型的建议。这是完全把大模型当活人对待了吗?

  关于传统互联网平台:Amazon 正式起诉 Perplexity AI,因为后者的Agent开始帮人类在Amazon商城上自动买东西,这摧毁了电商大数据推荐广告的技术根基。豆包手机助手一上线,就被微信在内的各种平台封杀,逻辑一样。平台自己的NLP界面做出来之前,不会接受任何其他AI挡在APP和用户之间。问题是,用户最终只需要一个Jarvis。

  关于AI自动做算子优化:这波Google Gemini 3.0大模型的登顶,意味着第一个非英伟达芯片支撑的大模型杀出来了。Google提出了很多爆炸性的思路,同样可以用在中国国产卡生态。夏天看了Google的一篇用DeepSeek自动探索底层算子代码优化的论文。TPU驱动层算子优化(对位CUDA和算法框架)不只是活人在做,而是尝试AI做。这意味着DeepSeek震惊世界的工作(在英伟达体系底层深度优化,节省超过十倍算力)可以由AI在国产卡生态里再做一遍,不用非得组建上百人的、年薪十亿的天才团队。离AI在无人干预下,基于国产芯片,完全自主从头开发一个大模型,还有多少个月?