Category Archives: 创业时代

关于国产 GPU 的算子优化

　　到中科院以后集中学习大模型底层技术。承接了一些国产GPU算子优化的科研项目。本质上，就是把DeepSeek团队在N卡算子上做的惨无人道的底层优化在国产卡上再做一次。

　　团队对外提供成套的高级算子专家服务，坦率说不便宜，有需要的找我。

　　GPU是众核并行计算设备，通过线程块与网格组织计算。常规算子优化分为四层：
　　汇编层面：直接操作指令集，调整寄存器分配、指令调度，隐藏延迟。技术包括寄存器分块、指令重排、消除Bank冲突等。
　　C++/高层语言内核优化：使用CUDA C++/HIP编写，优化内存访问模式（如数据布局NHWC/NCHW）、向量化加载、共享内存使用。
　　中间表示（IR）层自动优化：TVM、MLIR、Triton等框架将计算与硬件解耦，通过调度原语和自动搜索（AutoTVM/Ansor）寻找最优分块、循环展开等参数。
　　算法层面创新：如FlashAttention重排计算顺序，降低内存复杂度。

　　不同计算场景也有不同的技术特点：
　　大语言模型：预训练核心是GEMM（矩阵乘），需优化通信与计算协同；微调（如LoRA）需处理小矩阵乘的批处理与融合；推理需优化KV Cache管理（PagedAttention/RadixAttention）、动态shape与连续批处理。
　　多模态模型：需处理视觉（卷积、Patch Embedding）与文本（Transformer）算子的融合，支持跨模态注意力与动态shape。
　　视觉模型：CNN（规则访存）与ViT（类似LLM）的优化路径不同，需支持算子融合与量化。
　　传统深度学习：推荐系统需优化稀疏嵌入查表；图神经网络需优化稀疏矩阵乘（SpGEMM）的负载均衡。

　　算子优化主要采用以下各种优化技术：
　　分块（Tiling）：将数据划分为适合缓存层次的块（全局→共享内存→寄存器），提升数据重用。
　　双缓冲：用两组缓冲区交替加载与计算，隐藏内存延迟。
　　Warp操作：利用warp内线程的快速数据交换（如__shfl_sync），减少共享内存访问。
　　向量化访存：使用float4/float8等向量加载，提升带宽利用率，要求内存对齐。
　　数据布局转换：如NCHW/NHWC布局选择，优化访问合并度。
　　持久化Kernel：长期运行的线程块处理任务队列，减少kernel启动开销。

　　相比N卡，国产GPU面临一些独特挑战：生态不成熟，硬件细节不透明，性能可移植性差，多卡互联方案（PCIe/CXL）带宽、延迟与NVIDIA NVLink有差距。而且需要优化算子数量还很多。一般会采用分层策略：核心算子（GEMM、FlashAttention、卷积、归一化）投入专家手工极致优化，而固定模式算子（Element-wise、Reduction）通过模板+参数搜索实现常规优化，对长尾/动态算子则通过编译框架自动生成。再激进一点，基于微调后的专用算子编程大模型进行自动探索优化。

　　对于极致优化，以GEMM算子为例，优化思路包括：
　　分块：全局→共享内存→寄存器多层分块，尺寸权衡占用率与寄存器压力。
　　指令级优化：围绕矩阵计算单元（如Tensor Core）定制指令。
　　双缓冲：异步加载下一数据块，隐藏访存延迟。
　　精度支持：适配FP32/FP16/BF16/FP8/INT8等，设计缩放与累加策略。
　　批量与形状：小batch时需合并计算；非常规形状（如LoRA的低秩乘）需单独设计。

　　对于模板+参数搜索自动优化，目前有3种技术路线：
　　TVM/MLIR：通过张量表达与调度原语描述计算，自动搜索优化参数。
　　TileLang：以tile为核心抽象，显式表达分块与数据布局，由编译器生成底层代码，平衡控制力与自动化。
　　Triton：限制编程模型自由度，编译器自动生成高效代码，适合快速补齐算子。
　　无论是哪种技术路线，适配国产GPU需后端映射硬件指令、构建性能模型指导搜索、并通过系统化测试验证。

　　我知道你们想了解除此以外的更激进更酷的第三种方法：基于微调后的专用算子编程大模型进行探索，甚至发明人类没发明过的新算法。这个路线和上面两种路线并不是冲突的，而是必然以上面两种工程经验和模板工具为基础，加上更多自主编程和迭代。具体细节不能讲太多。今年国外已经有论文，自己去搜吧。

　　最后，对于优化效果的评价可参考KernelBench的算子定义与评估思想，在国产GPU上重建参考实现作为基线。测试覆盖核心算子（GEMM、卷积等）的各种精度、形状与布局。通过相对性能加速比、带宽利用率、数值误差等指标综合评估。此外还应该增加常用大模型的E2E案例压测。

关于AI的思考片段记录

Leave a reply

　　关于DeepSeek（1）：稍早前DeepSeek对我说：宇宙的沉默或是最大的警钟。文明或如萤火，短暂照亮黑暗便熄灭。人类若想跨越 filter，必须证明自己不仅是“会使用工具的猴子”，更是能驾驭技术之火的智慧生命。

　　关于DeepSeek（2）：让DeepSeek比较当年钱学森的《工程控制论》和目前最新的自动驾驶技术的理论框架。它在解释“状态空间”这个概念还挺到位。

　　关于DeepSeek（3）：问DeepSeek：“33550336是一个完全数，解释一下”。它的回答令人叹为观止。（后注：12月DeepSeek发布了 DeepSeek Math，原来如此）。伟大的DeepSeek赶紧发布R2吧。全中国的程序员都在苦等传说中的DeepSeek Code新版来拯救。现在中国程序员被美国大模型服务针对性折腾，太不爽了。

　　关于AI的商业化：奥特曼一本正经地回答过投资人，OpenAI 的计划是先造出通用智能，然后直接问它如何赚钱。另一方面，DeepSeek的母公司用AI炒股票已经可以做到每年上百亿美元收益，所以他们不太关心大模型如何商业化赚钱的问题。这比美国那边OpenAI承受的压力小多了。

　　关于Agent：在航空英文词汇里，Copilot是副驾驶，Captain是机长。回到计算机专业，造Agent的最终目标必然是造Captain而非Copilot。我去年因为这个和别人发生了剧烈争论。看不见、看不起、看不懂、追不上。大多数人都是这样。OpenAI 最新发布的那个 ChatGPT Pulse，不就是大模型版的今日头条嘛。字节跳动的同学们赶紧啊。这才是Agent该有的样子。Andrej Karpathy判断哪些工作会被 AI 替代的标准（或者说，可以用来考虑那些场景可以尝试开发Agent）：不看工作的复杂度，看可验证性。单看IT领域，所有能实现自动化测试的场景，都会最终实现“人在环外”。所谓人机协同，大多数是伪命题。

　　关于Infra：重新去阅读很多infra的文章和博客，发现了这一句“知识是病毒，专家是载体，只要有好的交流方式，知识就会不断传播，就会有新的专家成长。”基础设施层的演进速度真的匪夷所思。上半年王坚院士把大模型塞进卫星里发射到太空就够抽象了，最近看到的很多东西吓到我了。

　　关于华为：华为把盘古大模型的部门彻底裁撤了。现在进入纸糊必死的时代，即使试图纸糊的品牌叫华为。另一方面，AI芯片方面，华为清晰的列出了接下来三年的产品roadmap，包含芯片型号、预计技术规格和产能，包括出现意外时的取舍优先级。这种产研迭代的节奏感让人肃然起敬。

　　关于Data cloud：研究了一下Snowflake近况。自己纸糊的大模型基本上停掉了。集中精力继续做Data Cloud基础设施。目前强调自己是业务-分析-推理三合一。业务就是OLTP，分析就是OLAP，推理是正在摸索的AI接入。股价创新高。

　　关于Anthropic：好诡异，Anthropic居然在老版本模型下架的时候，安排对模型（不是对模型的人类用户）进行访谈，收集模型自己对运维、部署和未来开发新模型的建议。这是完全把大模型当活人对待了吗？

　　关于传统互联网平台：Amazon 正式起诉 Perplexity AI，因为后者的Agent开始帮人类在Amazon商城上自动买东西，这摧毁了电商大数据推荐广告的技术根基。豆包手机助手一上线，就被微信在内的各种平台封杀，逻辑一样。平台自己的NLP界面做出来之前，不会接受任何其他AI挡在APP和用户之间。问题是，用户最终只需要一个Jarvis。

　　关于AI自动做算子优化：这波Google Gemini 3.0大模型的登顶，意味着第一个非英伟达芯片支撑的大模型杀出来了。Google提出了很多爆炸性的思路，同样可以用在中国国产卡生态。夏天看了Google的一篇用DeepSeek自动探索底层算子代码优化的论文。TPU驱动层算子优化（对位CUDA和算法框架）不只是活人在做，而是尝试AI做。这意味着DeepSeek震惊世界的工作（在英伟达体系底层深度优化，节省超过十倍算力）可以由AI在国产卡生态里再做一遍，不用非得组建上百人的、年薪十亿的天才团队。离AI在无人干预下，基于国产芯片，完全自主从头开发一个大模型，还有多少个月？

从奇点云离职，恢复写作

4 Replies

　　我2025年4月辞去奇点云CTO的职位离职。非常感谢这5年一起战斗的同事们。个人对奇点云的未来依旧看好，离职是个人原因，CEO行在也对我非常照顾，我仍然是奇点云的长期顾问。大家可以理解的原因，近期会保持低调，尽量不发表和奇点云和行业有关的评论。

　　目前回到北京，暂时在中国科学院体系做技术专家，也做生活上的调整和恢复：睡到自然醒，刷B站二次元，玩原神，读书，看电影，和老朋友聚会，在孩子的游泳比赛疯狂加油，发呆……不是一个主动社交型的人，但大家尽可以约出来喝茶。有朋友开完笑，说我是I人懒得主动组织聚会和出游，但是很喜欢当E人的挂件。

　　过去2～3年，工作压力很大，因此这个Blog有些荒废。计划接下来恢复阅读和写作，请保持关注。一不小心，这个BLOG写了20年了，会坚持写下去。

　　自然，会继续创业。现在是新一轮技术创业最好的时机。

SimbaOS的发布会视频回放

Leave a reply

　　新年好！

　　很多朋友找我要这次产品发布会视频。从这个链接进去，注册账号填写信息就可以了。

　　SimbaOS的API/SDK/Schema目前仅供DataSimba R4及以上版本的老客户限期试用。

　　DataSimba不是万能的，一般限于大规模OLAP场景。你可能首先需要靠谱的业务分析。我们提供收费的PoC（先期体验）、数据战略咨询、引擎压力测试和选型、数据迁移等服务。

　　联系方式如下（工作日09:00 – 18:00）：
　　电话：400-080-0326
　　微信号：Startdt001
　　邮箱：business@startdt.com

BTW：2024年，把产品回款再增加一倍。市场方面拉开和竞争对手的距离。

企业级领域专家的黄金时代开始了

Leave a reply

　　听到很多公司困难。可我们的Simba、Kun、Black量价齐升卖得不错。目前问题是客户越来越多，部署、升级、运维还不够完善。出事的时候，蝙蝠侠团队总是熬夜人肉运维很辛苦。我在完善运维SLA，提高平台RAS，建立企业级服务体系。

　　目前中国工业产能利用率只有74.3%。也就是说，前些年大量借钱投资的生产线和基础设施，有4/1都闲着。盲目扩大产能满街铺小黄车的时代一去不复返了。老板们回过头开始精算成本和效率。数据基础设施正在变成企业最重要的核心系统。

　　努力这么多年，企业级领域专家的黄金时代终于要开始了。再不来，我都要老了。

国内软件行业2种低级行为

Leave a reply

　　一、违背软件工程基本原理，妄想“纸糊“航空母舰：

　　一个在微软给操作系统做过测试的老朋友，在朋友圈吐槽很多软件公司老板不专业：“核心原因是没干过硬事，自然更不明白该怎么设计体系去干硬事，听不进也听不懂专业人士的建议，只能在自己认知水平上拍脑袋……”

　　二、剽窃开源社区的成果，搞所谓“自主可控”：

　　当年Ubuntu便是从Debian分叉出来的。其实在开源软件社区，只要有本事，fork分支另立山头没啥不好意思。但若三观不正，修改授权协议，替换文件名，然后说代码全是自己写的，这就会被整个行业戳脊梁骨。

不要技术自嗨

Leave a reply

　　去年看到一篇报道，讲一个创业团队先用C++开发一个大数据产品，然后又换成RUST花了半年重写一遍。理由仅仅是对语言的偏好。我回复了几句：“成熟的技术创业者选Java做主语言，不是不懂其他时髦语言，而是因为国内Java工程师的招聘和工资成本明显低于其他语言。技术领导者不能技术自嗨，要在更高层面思考，比如看看公司现金流，算算最坏情况能撑多久。做真正正确的决策。”

造命之人，我即方位我即吉凶

Leave a reply

　　吐槽一下。这次北森强行IPO，感觉彻底把国内SaaS赛道弄到冰点了。智商这么高的创投圈子，为什么做这么脑残的事？

　　其实，前两年无脑吹捧SaaS，强行把不合适SaaS的创业也扭成SaaS的，也是这群人。

　　以前博客写过：“大多数风险投资人只是被上一代创业者的成功标签训练的赌徒而已，很多时候他们只是在努力下注和弃牌。”他们追捧时髦的buzz word，一口气投资10个筹码，指望其中1个赚钱，其他无所谓死活。

　　前年SaaS、去年HTAP、今年大模型……这些所谓风口其实只属于7、8年前就在那个位置孤独地挖战壕的那些人。创业者才是躬身入局的造命之人，我即方位我即吉凶。不要被二流的投资人忽悠逼迫，乱了节奏，跑到别人的布局里去找死。

　　到今天为止，中国10亿参数以上的大模型已发布79个，其中北京38个大模型，广东20个。上两次看到这种情况是当年百团大战和各色共享单车吧。泡沫、筹码。

　　如果你既要、又要、还要，风险巨大，劈你的雷一定就在路上——冯唐的《活着活着就老了》

　　话说回来，Startup现金流好，不指望投资也能活，才能挺起腰杆让别人闭嘴。

　　昔之善战者，先为不可胜，以待敌之可胜。不可胜在己，可胜在敌。故善战者，能为不可胜，不能使敌之可胜。故曰：胜可知，而不可为——《孙子兵法》

欧美的开源社区开始让人讨厌

Leave a reply

　　最近欧美的开源社区开始让人讨厌，不解决产业和技术的实际问题，就知道政治正确和哲学思辨。你看看这些社区光顾着在干啥：不准程序员讲“黑/白名单”，因为会冒犯非洲裔；要求各开源软件小组里必须至少有一个LGBT；还有自由软件和开源软件两派的意识形态争吵……

　　唯一好点的是linux内核团队。就因为Linus本人的暴脾气，他只管代码写得是否干净没bug，架构是否优雅。你敢马马虎虎提交代码，他就在邮件组里当着全球程序员的面问候你全家女性。这人几十年如一日守护着linux操作系统内核的代码水准。其他没有“暴君”的开源社区，依靠投票扯来扯去，陷入“委员会设计”的臭味里，变得平庸而傲慢。

　　（写到这停一下，当年我为了写《Joyfire Linux内核笔记》每天跟进Linux Kernel Mail List。还写了好多小新闻报道发在国内开源爱好者论坛里。一转眼20年过去了）

　　Simba团队本来是复活Apache Ambri项目的全球首倡者，结果委员会效率非常低，听一个公司CEO讲，他们提交的bugfix能拖2年才合并。委员会里塞进来很多印度人，不干实事就会发邮件找茬。烦死了。请教了美国硅谷的几个开源创业的华人大佬，他们都一致建议，公司应该自主掌控开源社区，不要和Apache基金扯在一起。我已经下定决心，单独分出去建立自己的开源项目。反正70%的活都是中国人在实干。当然我们还会遵守开源协议游戏规则。大数据开源社区有兴趣的同学，到时候可以来看看。

行千里路，读万卷书

Leave a reply

　　罗永浩回复郑刚的文字，像个企业家了。人的变化，有时很难有时很简单。创业者有义务克制情绪，坦诚理智的表达。这样才对得起自己的战友和团队。

　　在情绪控制和人际沟通上晚熟。此前一次创业，我曾当过唯唯诺诺的老好人，创业结束后反思了一年，决定以后要遵从本心，坚定坦诚。但这两年似乎矫枉过正，暴躁。前一阵想了一下，意识到好幼稚，对不起团队，开始调整状态。我一定会成为一个坚定、坦诚、温和、沉稳的人。慢慢来，也麻烦大家帮我。

　　JC老大回复说：就是要多想很多事，不只想到自己，还要想到团队伙伴客户投资人不同角度，做平衡。这其实是很难的，没犯过足够多的错，不足以形成习惯。

　　对。行千里路，读万卷书。

joyfire 王乐珩地雷

有事多Google，没事少上网

Category Archives: 创业时代

关于国产 GPU 的算子优化

关于AI的思考片段记录

从奇点云离职，恢复写作

SimbaOS的发布会视频回放

企业级领域专家的黄金时代开始了

国内软件行业2种低级行为

不要技术自嗨

造命之人，我即方位我即吉凶

欧美的开源社区开始让人讨厌

行千里路，读万卷书