Category Archives: 创业时代

关于国产 GPU 的算子优化

  到中科院以后集中学习大模型底层技术。承接了一些国产GPU算子优化的科研项目。本质上,就是把DeepSeek团队在N卡算子上做的惨无人道的底层优化在国产卡上再做一次。

  团队对外提供成套的高级算子专家服务,坦率说不便宜,有需要的找我。

  GPU是众核并行计算设备,通过线程块与网格组织计算。常规算子优化分为四层:
  汇编层面:直接操作指令集,调整寄存器分配、指令调度,隐藏延迟。技术包括寄存器分块、指令重排、消除Bank冲突等。
  C++/高层语言内核优化:使用CUDA C++/HIP编写,优化内存访问模式(如数据布局NHWC/NCHW)、向量化加载、共享内存使用。
  中间表示(IR)层自动优化:TVM、MLIR、Triton等框架将计算与硬件解耦,通过调度原语和自动搜索(AutoTVM/Ansor)寻找最优分块、循环展开等参数。
  算法层面创新:如FlashAttention重排计算顺序,降低内存复杂度。

  不同计算场景也有不同的技术特点:
  大语言模型:预训练核心是GEMM(矩阵乘),需优化通信与计算协同;微调(如LoRA)需处理小矩阵乘的批处理与融合;推理需优化KV Cache管理(PagedAttention/RadixAttention)、动态shape与连续批处理。
  多模态模型:需处理视觉(卷积、Patch Embedding)与文本(Transformer)算子的融合,支持跨模态注意力与动态shape。
  视觉模型:CNN(规则访存)与ViT(类似LLM)的优化路径不同,需支持算子融合与量化。
  传统深度学习:推荐系统需优化稀疏嵌入查表;图神经网络需优化稀疏矩阵乘(SpGEMM)的负载均衡。

  算子优化主要采用以下各种优化技术:
  分块(Tiling):将数据划分为适合缓存层次的块(全局→共享内存→寄存器),提升数据重用。
  双缓冲:用两组缓冲区交替加载与计算,隐藏内存延迟。
  Warp操作:利用warp内线程的快速数据交换(如__shfl_sync),减少共享内存访问。
  向量化访存:使用float4/float8等向量加载,提升带宽利用率,要求内存对齐。
  数据布局转换:如NCHW/NHWC布局选择,优化访问合并度。
  持久化Kernel:长期运行的线程块处理任务队列,减少kernel启动开销。

  相比N卡,国产GPU面临一些独特挑战:生态不成熟,硬件细节不透明,性能可移植性差,多卡互联方案(PCIe/CXL)带宽、延迟与NVIDIA NVLink有差距。而且需要优化算子数量还很多。一般会采用分层策略:核心算子(GEMM、FlashAttention、卷积、归一化)投入专家手工极致优化,而固定模式算子(Element-wise、Reduction)通过模板+参数搜索实现常规优化,对长尾/动态算子则通过编译框架自动生成。再激进一点,基于微调后的专用算子编程大模型进行自动探索优化。

  对于极致优化,以GEMM算子为例,优化思路包括:
  分块:全局→共享内存→寄存器多层分块,尺寸权衡占用率与寄存器压力。
  指令级优化:围绕矩阵计算单元(如Tensor Core)定制指令。
  双缓冲:异步加载下一数据块,隐藏访存延迟。
  精度支持:适配FP32/FP16/BF16/FP8/INT8等,设计缩放与累加策略。
  批量与形状:小batch时需合并计算;非常规形状(如LoRA的低秩乘)需单独设计。

  对于模板+参数搜索自动优化,目前有3种技术路线:
  TVM/MLIR:通过张量表达与调度原语描述计算,自动搜索优化参数。
  TileLang:以tile为核心抽象,显式表达分块与数据布局,由编译器生成底层代码,平衡控制力与自动化。
  Triton:限制编程模型自由度,编译器自动生成高效代码,适合快速补齐算子。
  无论是哪种技术路线,适配国产GPU需后端映射硬件指令、构建性能模型指导搜索、并通过系统化测试验证。

  我知道你们想了解除此以外的更激进更酷的第三种方法:基于微调后的专用算子编程大模型进行探索,甚至发明人类没发明过的新算法。这个路线和上面两种路线并不是冲突的,而是必然以上面两种工程经验和模板工具为基础,加上更多自主编程和迭代。具体细节不能讲太多。今年国外已经有论文,自己去搜吧。

  最后,对于优化效果的评价可参考KernelBench的算子定义与评估思想,在国产GPU上重建参考实现作为基线。测试覆盖核心算子(GEMM、卷积等)的各种精度、形状与布局。通过相对性能加速比、带宽利用率、数值误差等指标综合评估。此外还应该增加常用大模型的E2E案例压测。

关于AI的思考片段记录

  关于DeepSeek(1):稍早前DeepSeek对我说:宇宙的沉默或是最大的警钟。文明或如萤火,短暂照亮黑暗便熄灭。人类若想跨越 filter,必须证明自己不仅是“会使用工具的猴子”,更是能驾驭技术之火的智慧生命。

  关于DeepSeek(2):让DeepSeek比较当年钱学森的《工程控制论》和目前最新的自动驾驶技术的理论框架。它在解释“状态空间”这个概念还挺到位。

  关于DeepSeek(3):问DeepSeek:“33550336是一个完全数,解释一下”。它的回答令人叹为观止。(后注:12月DeepSeek发布了 DeepSeek Math,原来如此)。伟大的DeepSeek赶紧发布R2吧。全中国的程序员都在苦等传说中的DeepSeek Code新版来拯救。现在中国程序员被美国大模型服务针对性折腾,太不爽了。

  关于AI的商业化:奥特曼一本正经地回答过投资人,OpenAI 的计划是先造出通用智能,然后直接问它如何赚钱。另一方面,DeepSeek的母公司用AI炒股票已经可以做到每年上百亿美元收益,所以他们不太关心大模型如何商业化赚钱的问题。这比美国那边OpenAI承受的压力小多了。

  关于Agent:在航空英文词汇里,Copilot是副驾驶,Captain是机长。回到计算机专业,造Agent的最终目标必然是造Captain而非Copilot。我去年因为这个和别人发生了剧烈争论。看不见、看不起、看不懂、追不上。大多数人都是这样。OpenAI 最新发布的那个 ChatGPT Pulse,不就是大模型版的今日头条嘛。字节跳动的同学们赶紧啊。这才是Agent该有的样子。Andrej Karpathy判断哪些工作会被 AI 替代的标准(或者说,可以用来考虑那些场景可以尝试开发Agent):不看工作的复杂度,看可验证性。单看IT领域,所有能实现自动化测试的场景,都会最终实现“人在环外”。所谓人机协同,大多数是伪命题。

  关于Infra:重新去阅读很多infra的文章和博客,发现了这一句“知识是病毒,专家是载体,只要有好的交流方式,知识就会不断传播,就会有新的专家成长。”基础设施层的演进速度真的匪夷所思。上半年王坚院士把大模型塞进卫星里发射到太空就够抽象了,最近看到的很多东西吓到我了。

  关于华为:华为把盘古大模型的部门彻底裁撤了。现在进入纸糊必死的时代,即使试图纸糊的品牌叫华为。另一方面,AI芯片方面,华为清晰的列出了接下来三年的产品roadmap,包含芯片型号、预计技术规格和产能,包括出现意外时的取舍优先级。这种产研迭代的节奏感让人肃然起敬。

  关于Data cloud:研究了一下Snowflake近况。自己纸糊的大模型基本上停掉了。集中精力继续做Data Cloud基础设施。目前强调自己是业务-分析-推理三合一。业务就是OLTP,分析就是OLAP,推理是正在摸索的AI接入。股价创新高。

  关于Anthropic:好诡异,Anthropic居然在老版本模型下架的时候,安排对模型(不是对模型的人类用户)进行访谈,收集模型自己对运维、部署和未来开发新模型的建议。这是完全把大模型当活人对待了吗?

  关于传统互联网平台:Amazon 正式起诉 Perplexity AI,因为后者的Agent开始帮人类在Amazon商城上自动买东西,这摧毁了电商大数据推荐广告的技术根基。豆包手机助手一上线,就被微信在内的各种平台封杀,逻辑一样。平台自己的NLP界面做出来之前,不会接受任何其他AI挡在APP和用户之间。问题是,用户最终只需要一个Jarvis。

  关于AI自动做算子优化:这波Google Gemini 3.0大模型的登顶,意味着第一个非英伟达芯片支撑的大模型杀出来了。Google提出了很多爆炸性的思路,同样可以用在中国国产卡生态。夏天看了Google的一篇用DeepSeek自动探索底层算子代码优化的论文。TPU驱动层算子优化(对位CUDA和算法框架)不只是活人在做,而是尝试AI做。这意味着DeepSeek震惊世界的工作(在英伟达体系底层深度优化,节省超过十倍算力)可以由AI在国产卡生态里再做一遍,不用非得组建上百人的、年薪十亿的天才团队。离AI在无人干预下,基于国产芯片,完全自主从头开发一个大模型,还有多少个月?

从奇点云离职,恢复写作

  我2025年4月辞去奇点云CTO的职位离职。非常感谢这5年一起战斗的同事们。个人对奇点云的未来依旧看好,离职是个人原因,CEO行在也对我非常照顾,我仍然是奇点云的长期顾问。大家可以理解的原因,近期会保持低调,尽量不发表和奇点云和行业有关的评论。

  目前回到北京,暂时在中国科学院体系做技术专家,也做生活上的调整和恢复:睡到自然醒,刷B站二次元,玩原神,读书,看电影,和老朋友聚会,在孩子的游泳比赛疯狂加油,发呆……不是一个主动社交型的人,但大家尽可以约出来喝茶。有朋友开完笑,说我是I人懒得主动组织聚会和出游,但是很喜欢当E人的挂件。

  过去2~3年,工作压力很大,因此这个Blog有些荒废。计划接下来恢复阅读和写作,请保持关注。一不小心,这个BLOG写了20年了,会坚持写下去。

  自然,会继续创业。现在是新一轮技术创业最好的时机。

SimbaOS的发布会视频回放

  新年好!

  很多朋友找我要这次产品发布会视频。从这个链接进去,注册账号填写信息就可以了。

  SimbaOS的API/SDK/Schema目前仅供DataSimba R4及以上版本的老客户限期试用。

  DataSimba不是万能的,一般限于大规模OLAP场景。你可能首先需要靠谱的业务分析。我们提供收费的PoC(先期体验)、数据战略咨询、引擎压力测试和选型、数据迁移等服务。

  联系方式如下(工作日09:00 – 18:00):
  电话:400-080-0326
  微信号:Startdt001
  邮箱:business@startdt.com

BTW:2024年,把产品回款再增加一倍。市场方面拉开和竞争对手的距离。

企业级领域专家的黄金时代开始了

  听到很多公司困难。可我们的Simba、Kun、Black量价齐升卖得不错。目前问题是客户越来越多,部署、升级、运维还不够完善。出事的时候,蝙蝠侠团队总是熬夜人肉运维很辛苦。我在完善运维SLA,提高平台RAS,建立企业级服务体系。

  目前中国工业产能利用率只有74.3%。也就是说,前些年大量借钱投资的生产线和基础设施,有4/1都闲着。盲目扩大产能满街铺小黄车的时代一去不复返了。老板们回过头开始精算成本和效率。数据基础设施正在变成企业最重要的核心系统。

  努力这么多年,企业级领域专家的黄金时代终于要开始了。再不来,我都要老了。

国内软件行业2种低级行为

  一、违背软件工程基本原理,妄想“纸糊“航空母舰

  一个在微软给操作系统做过测试的老朋友,在朋友圈吐槽很多软件公司老板不专业:“核心原因是没干过硬事,自然更不明白该怎么设计体系去干硬事,听不进也听不懂专业人士的建议,只能在自己认知水平上拍脑袋……”

  二、剽窃开源社区的成果,搞所谓“自主可控”

  当年Ubuntu便是从Debian分叉出来的。其实在开源软件社区,只要有本事,fork分支另立山头没啥不好意思。但若三观不正,修改授权协议,替换文件名,然后说代码全是自己写的,这就会被整个行业戳脊梁骨。

不要技术自嗨

  去年看到一篇报道,讲一个创业团队先用C++开发一个大数据产品,然后又换成RUST花了半年重写一遍。理由仅仅是对语言的偏好。我回复了几句:“成熟的技术创业者选Java做主语言,不是不懂其他时髦语言,而是因为国内Java工程师的招聘和工资成本明显低于其他语言。技术领导者不能技术自嗨,要在更高层面思考,比如看看公司现金流,算算最坏情况能撑多久。做真正正确的决策。”

造命之人,我即方位我即吉凶

  吐槽一下。这次北森强行IPO,感觉彻底把国内SaaS赛道弄到冰点了。智商这么高的创投圈子,为什么做这么脑残的事?

  其实,前两年无脑吹捧SaaS,强行把不合适SaaS的创业也扭成SaaS的,也是这群人。

  以前博客写过:“大多数风险投资人只是被上一代创业者的成功标签训练的赌徒而已,很多时候他们只是在努力下注和弃牌。”他们追捧时髦的buzz word,一口气投资10个筹码,指望其中1个赚钱,其他无所谓死活。

  前年SaaS、去年HTAP、今年大模型……这些所谓风口其实只属于7、8年前就在那个位置孤独地挖战壕的那些人。创业者才是躬身入局的造命之人,我即方位我即吉凶。不要被二流的投资人忽悠逼迫,乱了节奏,跑到别人的布局里去找死。

  到今天为止,中国10亿参数以上的大模型已发布79个,其中北京38个大模型,广东20个。上两次看到这种情况是当年百团大战和各色共享单车吧。泡沫、筹码。

  如果你既要、又要、还要,风险巨大,劈你的雷一定就在路上——冯唐的《活着活着就老了》

  话说回来,Startup现金流好,不指望投资也能活,才能挺起腰杆让别人闭嘴。

  昔之善战者,先为不可胜,以待敌之可胜。不可胜在己,可胜在敌。故善战者,能为不可胜,不能使敌之可胜。故曰:胜可知,而不可为——《孙子兵法》

欧美的开源社区开始让人讨厌

  最近欧美的开源社区开始让人讨厌,不解决产业和技术的实际问题,就知道政治正确和哲学思辨。你看看这些社区光顾着在干啥:不准程序员讲“黑/白名单”,因为会冒犯非洲裔;要求各开源软件小组里必须至少有一个LGBT;还有自由软件和开源软件两派的意识形态争吵……

  唯一好点的是linux内核团队。就因为Linus本人的暴脾气,他只管代码写得是否干净没bug,架构是否优雅。你敢马马虎虎提交代码,他就在邮件组里当着全球程序员的面问候你全家女性。这人几十年如一日守护着linux操作系统内核的代码水准。其他没有“暴君”的开源社区,依靠投票扯来扯去,陷入“委员会设计”的臭味里,变得平庸而傲慢。

  (写到这停一下,当年我为了写《Joyfire Linux内核笔记》每天跟进Linux Kernel Mail List。还写了好多小新闻报道发在国内开源爱好者论坛里。一转眼20年过去了)

  Simba团队本来是复活Apache Ambri项目的全球首倡者,结果委员会效率非常低,听一个公司CEO讲,他们提交的bugfix能拖2年才合并。委员会里塞进来很多印度人,不干实事就会发邮件找茬。烦死了。请教了美国硅谷的几个开源创业的华人大佬,他们都一致建议,公司应该自主掌控开源社区,不要和Apache基金扯在一起。我已经下定决心,单独分出去建立自己的开源项目。反正70%的活都是中国人在实干。当然我们还会遵守开源协议游戏规则。大数据开源社区有兴趣的同学,到时候可以来看看。

行千里路,读万卷书

  罗永浩回复郑刚的文字,像个企业家了。人的变化,有时很难有时很简单。创业者有义务克制情绪,坦诚理智的表达。这样才对得起自己的战友和团队。

  在情绪控制和人际沟通上晚熟。此前一次创业,我曾当过唯唯诺诺的老好人,创业结束后反思了一年,决定以后要遵从本心,坚定坦诚。但这两年似乎矫枉过正,暴躁。前一阵想了一下,意识到好幼稚,对不起团队,开始调整状态。我一定会成为一个坚定、坦诚、温和、沉稳的人。慢慢来,也麻烦大家帮我。

  JC老大回复说:就是要多想很多事,不只想到自己,还要想到团队伙伴客户投资人不同角度,做平衡。这其实是很难的,没犯过足够多的错,不足以形成习惯。

  对。行千里路,读万卷书。