Author Archives: wangleheng

2026年度目标

　　2025年初定的年度目标有3个。妥善收尾上一段创业、陪闺女参加全国大赛，都实现了。但算法产品的落地要比预想慢很多。

　　2016年曾经给自己定目标：阅读50本书，并在Blog上列出来。最后连滚带爬勉强完成，带来的副作用是此后几年阅读量下降，甚至写Blog欲望也下降。3年后的一篇Blog里都还在拿读书PTSD这件事自嘲，

　　没想到一晃10年过去了。最近3年由于创业压力和社交媒体的影响，专注阅读能力下降，心流体验变少，Blog也写得少、写得浅。最近在计划恢复深度阅读。

　　2026年定以下几个目标吧：
　　首先，2026年完成50本书的阅读。我会定期把书单在这个Blog列出来。
　　其次，用AI写一篇小说发表在小说网站上。（还想学用AI剪辑制作视频，但这个就不立Flag了）。
　　最后，认真探索算法产品，让它落地。

　　写完上面3条才意识到，过去5年的年度目标里，都有“调整好睡眠”这个目标。26年终于可以把这一项去掉了。今年回到北京，放缓节奏，狂看B站，玩原神，感觉变回一个情绪稳定的正常人了。

　　又过一年，大家身体健康，心想事成。北京的同学，记得找我喝茶聊天。

关于国产 GPU 的算子优化

Leave a reply

　　到中科院以后集中学习大模型底层技术。承接了一些国产GPU算子优化的科研项目。本质上，就是把DeepSeek团队在N卡算子上做的惨无人道的底层优化在国产卡上再做一次。

　　团队对外提供成套的高级算子专家服务，坦率说不便宜，有需要的找我。

　　GPU是众核并行计算设备，通过线程块与网格组织计算。常规算子优化分为四层：
　　汇编层面：直接操作指令集，调整寄存器分配、指令调度，隐藏延迟。技术包括寄存器分块、指令重排、消除Bank冲突等。
　　C++/高层语言内核优化：使用CUDA C++/HIP编写，优化内存访问模式（如数据布局NHWC/NCHW）、向量化加载、共享内存使用。
　　中间表示（IR）层自动优化：TVM、MLIR、Triton等框架将计算与硬件解耦，通过调度原语和自动搜索（AutoTVM/Ansor）寻找最优分块、循环展开等参数。
　　算法层面创新：如FlashAttention重排计算顺序，降低内存复杂度。

　　不同计算场景也有不同的技术特点：
　　大语言模型：预训练核心是GEMM（矩阵乘），需优化通信与计算协同；微调（如LoRA）需处理小矩阵乘的批处理与融合；推理需优化KV Cache管理（PagedAttention/RadixAttention）、动态shape与连续批处理。
　　多模态模型：需处理视觉（卷积、Patch Embedding）与文本（Transformer）算子的融合，支持跨模态注意力与动态shape。
　　视觉模型：CNN（规则访存）与ViT（类似LLM）的优化路径不同，需支持算子融合与量化。
　　传统深度学习：推荐系统需优化稀疏嵌入查表；图神经网络需优化稀疏矩阵乘（SpGEMM）的负载均衡。

　　算子优化主要采用以下各种优化技术：
　　分块（Tiling）：将数据划分为适合缓存层次的块（全局→共享内存→寄存器），提升数据重用。
　　双缓冲：用两组缓冲区交替加载与计算，隐藏内存延迟。
　　Warp操作：利用warp内线程的快速数据交换（如__shfl_sync），减少共享内存访问。
　　向量化访存：使用float4/float8等向量加载，提升带宽利用率，要求内存对齐。
　　数据布局转换：如NCHW/NHWC布局选择，优化访问合并度。
　　持久化Kernel：长期运行的线程块处理任务队列，减少kernel启动开销。

　　相比N卡，国产GPU面临一些独特挑战：生态不成熟，硬件细节不透明，性能可移植性差，多卡互联方案（PCIe/CXL）带宽、延迟与NVIDIA NVLink有差距。而且需要优化算子数量还很多。一般会采用分层策略：核心算子（GEMM、FlashAttention、卷积、归一化）投入专家手工极致优化，而固定模式算子（Element-wise、Reduction）通过模板+参数搜索实现常规优化，对长尾/动态算子则通过编译框架自动生成。再激进一点，基于微调后的专用算子编程大模型进行自动探索优化。

　　对于极致优化，以GEMM算子为例，优化思路包括：
　　分块：全局→共享内存→寄存器多层分块，尺寸权衡占用率与寄存器压力。
　　指令级优化：围绕矩阵计算单元（如Tensor Core）定制指令。
　　双缓冲：异步加载下一数据块，隐藏访存延迟。
　　精度支持：适配FP32/FP16/BF16/FP8/INT8等，设计缩放与累加策略。
　　批量与形状：小batch时需合并计算；非常规形状（如LoRA的低秩乘）需单独设计。

　　对于模板+参数搜索自动优化，目前有3种技术路线：
　　TVM/MLIR：通过张量表达与调度原语描述计算，自动搜索优化参数。
　　TileLang：以tile为核心抽象，显式表达分块与数据布局，由编译器生成底层代码，平衡控制力与自动化。
　　Triton：限制编程模型自由度，编译器自动生成高效代码，适合快速补齐算子。
　　无论是哪种技术路线，适配国产GPU需后端映射硬件指令、构建性能模型指导搜索、并通过系统化测试验证。

　　我知道你们想了解除此以外的更激进更酷的第三种方法：基于微调后的专用算子编程大模型进行探索，甚至发明人类没发明过的新算法。这个路线和上面两种路线并不是冲突的，而是必然以上面两种工程经验和模板工具为基础，加上更多自主编程和迭代。具体细节不能讲太多。今年国外已经有论文，自己去搜吧。

　　最后，对于优化效果的评价可参考KernelBench的算子定义与评估思想，在国产GPU上重建参考实现作为基线。测试覆盖核心算子（GEMM、卷积等）的各种精度、形状与布局。通过相对性能加速比、带宽利用率、数值误差等指标综合评估。此外还应该增加常用大模型的E2E案例压测。

关于AI的思考片段记录

Leave a reply

　　关于DeepSeek（1）：稍早前DeepSeek对我说：宇宙的沉默或是最大的警钟。文明或如萤火，短暂照亮黑暗便熄灭。人类若想跨越 filter，必须证明自己不仅是“会使用工具的猴子”，更是能驾驭技术之火的智慧生命。

　　关于DeepSeek（2）：让DeepSeek比较当年钱学森的《工程控制论》和目前最新的自动驾驶技术的理论框架。它在解释“状态空间”这个概念还挺到位。

　　关于DeepSeek（3）：问DeepSeek：“33550336是一个完全数，解释一下”。它的回答令人叹为观止。（后注：12月DeepSeek发布了 DeepSeek Math，原来如此）。伟大的DeepSeek赶紧发布R2吧。全中国的程序员都在苦等传说中的DeepSeek Code新版来拯救。现在中国程序员被美国大模型服务针对性折腾，太不爽了。

　　关于AI的商业化：奥特曼一本正经地回答过投资人，OpenAI 的计划是先造出通用智能，然后直接问它如何赚钱。另一方面，DeepSeek的母公司用AI炒股票已经可以做到每年上百亿美元收益，所以他们不太关心大模型如何商业化赚钱的问题。这比美国那边OpenAI承受的压力小多了。

　　关于Agent：在航空英文词汇里，Copilot是副驾驶，Captain是机长。回到计算机专业，造Agent的最终目标必然是造Captain而非Copilot。我去年因为这个和别人发生了剧烈争论。看不见、看不起、看不懂、追不上。大多数人都是这样。OpenAI 最新发布的那个 ChatGPT Pulse，不就是大模型版的今日头条嘛。字节跳动的同学们赶紧啊。这才是Agent该有的样子。Andrej Karpathy判断哪些工作会被 AI 替代的标准（或者说，可以用来考虑那些场景可以尝试开发Agent）：不看工作的复杂度，看可验证性。单看IT领域，所有能实现自动化测试的场景，都会最终实现“人在环外”。所谓人机协同，大多数是伪命题。

　　关于Infra：重新去阅读很多infra的文章和博客，发现了这一句“知识是病毒，专家是载体，只要有好的交流方式，知识就会不断传播，就会有新的专家成长。”基础设施层的演进速度真的匪夷所思。上半年王坚院士把大模型塞进卫星里发射到太空就够抽象了，最近看到的很多东西吓到我了。

　　关于华为：华为把盘古大模型的部门彻底裁撤了。现在进入纸糊必死的时代，即使试图纸糊的品牌叫华为。另一方面，AI芯片方面，华为清晰的列出了接下来三年的产品roadmap，包含芯片型号、预计技术规格和产能，包括出现意外时的取舍优先级。这种产研迭代的节奏感让人肃然起敬。

　　关于Data cloud：研究了一下Snowflake近况。自己纸糊的大模型基本上停掉了。集中精力继续做Data Cloud基础设施。目前强调自己是业务-分析-推理三合一。业务就是OLTP，分析就是OLAP，推理是正在摸索的AI接入。股价创新高。

　　关于Anthropic：好诡异，Anthropic居然在老版本模型下架的时候，安排对模型（不是对模型的人类用户）进行访谈，收集模型自己对运维、部署和未来开发新模型的建议。这是完全把大模型当活人对待了吗？

　　关于传统互联网平台：Amazon 正式起诉 Perplexity AI，因为后者的Agent开始帮人类在Amazon商城上自动买东西，这摧毁了电商大数据推荐广告的技术根基。豆包手机助手一上线，就被微信在内的各种平台封杀，逻辑一样。平台自己的NLP界面做出来之前，不会接受任何其他AI挡在APP和用户之间。问题是，用户最终只需要一个Jarvis。

　　关于AI自动做算子优化：这波Google Gemini 3.0大模型的登顶，意味着第一个非英伟达芯片支撑的大模型杀出来了。Google提出了很多爆炸性的思路，同样可以用在中国国产卡生态。夏天看了Google的一篇用DeepSeek自动探索底层算子代码优化的论文。TPU驱动层算子优化（对位CUDA和算法框架）不只是活人在做，而是尝试AI做。这意味着DeepSeek震惊世界的工作（在英伟达体系底层深度优化，节省超过十倍算力）可以由AI在国产卡生态里再做一遍，不用非得组建上百人的、年薪十亿的天才团队。离AI在无人干预下，基于国产芯片，完全自主从头开发一个大模型，还有多少个月？

关于接孩子

1 Reply

　　从4月份回到北京，连续几个月，每周5天开车送孩子去游泳训练。

　　闺女对游泳的坚韧和投入让我目瞪口呆。例如5.1假期，本来和她最要好的同班闺蜜约好，两家人一起去海南度假。结果她意识到自己5月的比赛前必须拼一下，说服我们退掉了她酒店和航班，独自留在北京高强度训练。（她的小闺蜜无聊的陪着四个大人在海南度假，也很无奈啊）。

　　陪她去全国各地参加游泳比赛；陪她拿到国家一级运动员；陪她个头猛长，进入瓶颈期；陪看她一边哭，一边不停的给自己加码，换到训练强度更大的教练和班型。

　　有一次，去学校接孩子送游泳班，孩子上车问：游泳器材包呢？这……和我的脑子一起落在家里了。出门不带必要装备这件事，就挺正常的，对吧。

　　还有一次，在晚高峰的激烈车流里挣扎了一个多小时，司机师傅崩溃了，在家庭群里激动的发了好几条消息：太痛苦了，我拒绝再开这条路线。结果第二天早上闺女就自己背着游泳器材去学校了，下午自己打车去训练。校车阿姨拍了一张她下车的背影照片，大家都觉得闺女的背影很坚毅。然后，老父亲尴尬的在微信里为昨天情绪化道歉，请求给个机会继续当司机。老婆嘲笑我低情商，“活鱼摔死卖”。

　　开车时，总试图和闺女聊各种话题，发现《第五人格》闺女会多说几句，其他都懒得搭理。有次训练完，闺女精疲力尽，就开几十公里到三里屯，去吃闺女想吃的福建姜母鸭。

　　这是一个在外地工作5年、缺席了很多关键时刻的、理工科内向低情商父亲，回到北京笨拙的陪伴自己帅气游泳健将女儿的日常故事。

虚拟现实？

Leave a reply

　　意大利天体物理学家Vazza, Franco发表了一篇论文，基于现有的物理定律和宇宙学认知，论证我们所处的这个宇宙几乎不可能是由某种高级文明模拟出来的程序。（ “Astrophysical constraints on the simulation hypothesis for this Universe: why it is (nearly) impossible that we live in a simulation.” Frontiers in Physics, 2025.）

　　这篇论文主要是从信息和能量的角度进行讨论。例如，在最高精度下仅模拟地球一秒钟的运作，需要消耗的能量相当于把十万颗恒星的的质量100%转化为能量。

　　我自己想这个问题的时候，感觉可以从数学逻辑的角度考虑，哥德尔不完备定理就是论述基础。查了一下，另一个物理学家团队（Mir Faizal等）已经按照这个思路发了论文。