Category Archives: 0和1

SimbaOS的发布会视频回放

  新年好!

  很多朋友找我要这次产品发布会视频。从这个链接进去,注册账号填写信息就可以了。

  SimbaOS的API/SDK/Schema目前仅供DataSimba R4及以上版本的老客户限期试用。

  DataSimba不是万能的,一般限于大规模OLAP场景。你可能首先需要靠谱的业务分析。我们提供收费的PoC(先期体验)、数据战略咨询、引擎压力测试和选型、数据迁移等服务。

  联系方式如下(工作日09:00 – 18:00):
  电话:400-080-0326
  微信号:Startdt001
  邮箱:business@startdt.com

BTW:2024年,把产品回款再增加一倍。市场方面拉开和竞争对手的距离。

和大模型对话

  我和大模型对话以后,他总结了下面的结论,有点意思:

  我认为目前大模型领域存在较大泡沫风险,大多数人保持冷静是正确选择:
  1. 大模型技术虽复杂高超,但实用价值还不明确。许多模型只是技术演示,缺乏落地场景和商业价值,难以形成产品。这使投资风险较大,容易产生泡沫。
  2. 几乎所有大型模型都面临数据隐私、计算资源和模型可解释性的挑战。这些问题如果不解决,将严重限制大模型的实际应用和产业化进程。
  3. 目前大模型领域创业公司较多,但真正具有产业竞争力和可持续盈利模式的company还不多。这也增加了泡沫形成的概率。
  4. 盲目跟风和过度投机是泡沫形成的重要诱因。许多投资人并不真正理解大模型的技术细节和应用场景,而是锁定概念进行投机。这势必产生错估风险。
  5. 任何技术热点都经历过高期待→泡沫→爆发→平稳发展的过程。大模型也难免遵循这个规律,我们应理性看待目前的热潮,做好产业和技术积累。
  所以,总的来说,大模型技术本身虽然前景广阔,但目前离实际应用和产业化还存在较大差距。我们需要认识到其中的困难和挑战,理性判断市场热度,避免过度投机和盲目跟风。真正的机会往往出现在泡沫破裂后,关键在于做好技术和产业积累,等待时机成熟。
  大多数人还是应该保持冷静,深化对技术与应用场景的理解,做好产品和产业设计。不必过于渴望热潮带来的暴利,要有耐心迈向技术变现。这才是大模型产业真正健康发展的基石。热度终会消退,真知者自然见真章。
和大模型讨论

编码规范的价值

  记得18年的新闻:硅谷一个程序员编码不规范:不写注释,不遵循驼峰命名,括号换行,最主要还天天git push -f 提交代码。他同事忍无可忍,就拿枪到公司把他毙了。我国没有枪,但有时候你忍不住想带着一个大铁锤去参加研发团队的站立晨会。

  刚刚OpenAI 的CTO说:“编程中最不被重视的技能之一就是编写友好的报错信息。”马斯克表示赞同。

战鹰的数据

  战鹰在B战火了以后,数据分析师迅速统计出,战鹰一年多的118场直播,总共说了401572句话,其中提及了4201次柯洁,说话速度平均每分钟170字。由这个场景看,有各类非结构化识别算法的加持,处于其下游的数据技术领域会迎来爆炸性的需求增长。

内卷和创新

  大环境来说,一个人的活两个人干,这就叫内卷。美国人为啥相对疏阔,因为他们总在全世界轰炸制裁,还整天想着探索月球火星。所以,内卷不是管理水平问题,是业务发展问题。各位老板,请支棱起来开疆拓土星辰大海。

  具体到软件行业第一性原理来看,如果没有软件工程方面的创新和进步,仅仅指望现在的加班和未来的规模效应,我们都走不远。

  没钱没名,被吴宗宪逼着3天写50首歌。那就是周杰伦艺术生涯的巅峰时刻,不疯魔不成活。现在他要啥有啥,自己做老板没人逼,肯定挤不出灵感了。Simba团队的很多年轻人现在很苦,但疯狂努力。他们知道自己正在完成职业生涯的第一个代表作。看他们充血的眼睛,我能回忆起16年前的pFind和10年前的ODPS。

唐世平的计算社会科学

  唐世平突然火了。因为他的数学模型准确预测出了乌克兰战争的爆发。他的计算社会科学的论文突然被很多人搜索。

  看过阿西莫夫的《银河帝国》系列小说的人,都有点发抖吧。

  预测战争爆发有点难,预测输赢就简单了。1886年之后的每一场国际战争,都是国防预算多的一方战胜预算少的。没有任何例外。乌克兰国土面积欧洲第二,人口5000万。其实并不弱。如果扛过第一波,全民动员不怕死人,欧美持续援助,俄罗斯会有很大麻烦。中文社交媒体上普遍觉得俄罗斯会轻松取胜,有点幼稚。关键在于,俄罗斯自己的经济和军事工业可能耗不下去。

  另外,看新闻,俄罗斯和乌克兰都有车臣营。都是恐怖分子归顺以后组成的炮灰部队,负责最血腥的扫荡和巷战。车臣营旁边都会有专门的部队监视督战。这次他们要在战场遇到了。

关于开源的2条

  今年Linux内核维护者Qu Wenruo在内核维护邮件列表指出来自华为的开发者Leizhen等人提交的补丁有刷KPI嫌疑。热度迅速超过之前Linus关于疫苗的那一封。我看了一下,完善异常和日志格式,包括一些拼写错误。不像刷KPI,更像代码强迫症发作。不过最近中国企业有很多刷榜行为特别让人烦。比如大厂投资人突然把Github上的star当作一个指标,然后就各种造假。ym大虾回复我的朋友圈的时候,就这件事说:“应该不看动机看价值,该拒就拒,该收就收”。说得太对了。

  LoongArch对GNU Binutils的支持被合并了,共12个补丁。不过赶不上GCC 12了。Linux生态完整支持LoongArch要到2023年的GCC 13了。龙芯加油!顺便提一下,DataSimba已经支持龙芯CPU。刚做过正式测试,并拿到了信创认证。

用移动数据预测特斯拉产能

  之前介绍过Bloomberg通过网上抓取VIN(车辆识别码)估算Tesla Model 3的每周产量(今天的公众号也会转发)。最近又看到Thasos的另一种手段。

  Thasos Group分析了特斯拉厂房范围内的手机信号,显示通宵轮班在6月到10月之间增加了30%,他们与对冲基金客户分享了数据。特斯拉7月宣布 Model 3产量几乎翻了一番,这一消息使得该公司股价上涨9.1%,而Thasos的客户则能提前预测这一结果。

  8月份,特斯拉在美国市场的销量超过了奔驰、宝马和奥迪。北京这里特斯拉也开始满街跑。这特别像诺基亚被iPhone干掉之前的情形。不管短期内有多少问题,长期看特斯拉一定会更好,这是本质决定的。

  看了一下官方网站,Thasos拥有一个高品质的手机位置数据库,可以做很多事。例如为梅西百货(Macy’s)、诺德斯特龙(Nordstrom)、Dillard’s(狄乐百货)和西尔斯百货(Sears)进行同店销售额和同店交易额的增长预测,平均误差不超过0.7%。Thasos从大约1000个APP获取移动设备的地理位置,这些APP一般都是位置相关的产品,例如天气预报或行车路线。

Tesla Model 3的生产率

  特斯拉产能爬坡,已经快变成娱乐事件了。马斯克又是换供应商,又是搬到工厂睡,又是大裁员,又是在大帐篷里搭建新流水线,又是怼投资人……来回折腾。

  Bloomberg有个叫 Tesla Model 3 Tracker 的页面挺好玩,开发的程序员是Tom Randall和Dean Halford。

  他们从各种网上来源,例如高速公路安全管理页面、社交网络、特斯拉用户论坛……抓取新增的特斯拉汽车的VIN(车辆识别码),估算Tesla Model 3的每周产量。此前曾有Tesla内部员工说这个数学模型估算的还挺准的。

  从下面这张图可以发现,此前几个月Tesla Model 3的产能一直在稳步上升。2月底的时候达到了每周917台,但是最近两周生产率突然剧烈下降,本周跌到了599台。到网上搜了搜,上周Tesla Model 3生产线升级,刚刚新增了自动安装电池的设备,还在调试中。

  7月3日更新:今天突然满屏幕都是Model 3产能终于超过5000台/每周的消息。查了一下,Q2共生产28578辆,交付18440辆。最后7天下线超过7000台(各种车型总和,不只是Model 3)。

谈谈ODPS商业化(五):华大基因在ODPS上做的试验

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  由于我正在着手做生物信息云计算方面的工作,很多信息不方便透露,这篇会很短。有兴趣的同学请找我线下交流。不过在阿里云上做基因测序创新的同学们不必担心,阿里云没有野心、也没有能力成为一个提供完整基因测序计算服务的公司。相反,ODPS等等产品一定是做底层通用平台该做的事,帮助生物信息应用上云更方便,和创业者们一起成长。

  回来开始说华大基因在ODPS做的试验。以前写过一篇博客提到过这件事。

  将基因测序仪输出的上亿条DNA片段拼接为基因组长序列,这个过程可以看作在一个超大规模的拓扑图上寻找欧拉路径。人类基因组包含30亿个碱基,目前基因测序一般会做30倍到50倍的扩增。利用典型的单机组装软件至少需要256GB的内存才可能完成基因组装,时间长达数天。

  ODPS Graph Task是面向迭代的拓扑图算法处理框架,提供类似Google Pregel的BSP并行编程模型。正适合支持一些超大规模拓扑图算法。

  去年10月5K项目测试期间,华大基因的生物信息专家基于ODPS Graph Task开发了一套基因拼接算法,在E.coli(大肠杆菌)、Bombus(熊蜂)和Yanhuang(人类)三个物种的测试集上均取得了非常高的加速比。

  此前一直关注Google在生物信息领域重兵投入。自从Google Genomics API推出,形势就更加明确了。另外一边,据称亚马逊AWS美国有1/4的客户来源于生物制药行业。生物信息显然是云计算的重要业务增长方向。随着全球第一张基因测序临床牌照的颁发,已经可以看到国内大量围绕基因测序的创业项目起来了。目前ODPS团队正在和多个生物信息领域的合作伙伴一起努力,把各种生物信息经典算法和数据处理流程搬到云上来。如果你正在做这方面的产品、创业,欢迎和我联系,阿里云会尽可能提供关键帮助。

  另外我刚刚在知乎和知因同时发起了问题:生物信息还需要云计算提供什么样的功能?生物信息应用上云,你碰到了哪些问题?现有的阿里云、亚马逊AWS云计算基础设施需要做哪些改进,为什么?目前你用的最多的云产品和Web Service API是哪些? 等待你的真知灼见:
  知乎:http://www.zhihu.com/question/24719395
  知因:http://www.knowgene.com/question/1639

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……