零零碎碎

  没有整块的语言好BLOG,就用”韩峰体”分享点零零碎碎吧。(其实是想测一下,出现这三个字是不是真会被GFW)。

  1. zixia的微博又活了,他开始新创业。从12年前在aka上听他的Linux培训开始,俺始终是他的粉丝; 
     

      ……我于07年创立的微博服务 JiWai.com 的“被死亡”,让我度过了一段非常难忘的时光……均衡了各方面因素,最终将叽歪网所有资产转让……;

     

  2. 孟岩BLOG发了一篇对所谓“职业生涯规划”的议论: 
     

      ……如果你听说伯南克要采取“非常规的货币政策”,还没吓得魂飞魄散,那你的存在本身是个悲剧……

     

  3. 刘慈欣刚刚宣布《三体》的第三部《死神永生》写完了; 
     

      ……社会动荡是科幻最大的杀手。现在,平静已经延续了二十多年,感觉到在社会基层,有什么东西正在绷紧,压跨骆驼的最后一根稻草随时都可能出现。但愿这只是一个科幻迷的忋人忧天……

     

  4. 饶毅和施一公在最新一期Science上发表社论:China’s Research Culture,抨击国内科研经费分配的潜规则。 
     

      ……这个问题在浪费经费资源、腐蚀学术精神、阻碍科研创新……

     

  5. 韩国一个团队,把GPU应用到路由器领域,软件路由器(跑在通用PC上)的速度创了记录;

专利、商标和比比西T恤

  在跟知识产权较劲。申请了软件著作权,又在搞发明专利,接下来还有商标。碰到些新鲜概念。

  申请软件著作权比较容易,准备好用户手册和代码就可以了,但文牍格式要求最繁琐。

  申请专利更有趣。这两天通过和律师的反复沟通,接触了专利布局方面的皮毛:有专利争端时,对方会竭力寻找专利的纰漏以使其失效。因此,最好把创新点拆解成互相掩护的专利群,即使其中某一个被废掉,其他“桩子”仍然能保证“篱笆”不容易被绕过。这一招在对付拥有顶级律师的大公司时尤其重要。专利的文档要求逻辑性和严谨性,程序员在思维方式上不会有太多障碍,关键是学会法律文件撰写的文字技术手段。

  初次涉及PCT(Patent Cooperation Treaty,《专利合作条约》),还在了解中。专利是地域性的:若只申请中国专利,而不到欧美日地区申请,专利一旦公开,尽管在我们这里受保护,其他市场上别人统统有权免费使用。

  正在调研商标申请,手续不难,关键是设计LOGO。大公司有自雇的平面设计师,或聘请设计公司,成本不低。请教高人,指点我通过网络发包给“维客”,看来性价比不错。创业团队相对大机构,成本就是这样节约下来的。

  关于商标,刚好和最近一则新闻有关:腾讯刚刚收购了康生创想。在收购前几天后者刚申请到“社区动力;Discuz!”商标(而“Discuz!”商标已经被京东方抢注)。戴志康说是2006年红衫风投时要求他们申请商标,腾讯收购前刚好申请下来了,纯属巧合。换个角度看,科技创业,知识产权保护措施应该早点考虑。

  最后掺点八卦,上周在淘宝买了“比比西斗二龙”T恤。刚看到比比西BLOG上说他要结婚,秀出幸福的戒指。莫非真靠卖衣服攒老婆本?

  看游戏风云三年。2008年比比西原来的公司破产,团队剩下7个人转投上文广,仍然扛着G联赛;私人方面,B叔差点结婚又分手,后来又遇到交通事故,打着石膏主持节目……如今频道渐有起色,承办韩国Star league的2010总决赛,个人也找到归宿。不容易。坚持理想的家伙值得祝福。

竖起耳朵听

  2005年那几个人说美国的金融杠杆太高,不可持续,要出事。当时我想,理论分析的确符合逻辑,但真会那么快吗,报纸上美国经济的新闻都是一片大好。后来的事情证明他们说对了。所以当那几个乌鸦嘴开始警告中国过度迷信凯恩斯,难免通货膨胀,就要竖起耳朵仔细听了。

话剧和哀悼

  今天全国哀悼舟曲遇难同胞。我生长于甘肃,心情更加沉重。希望死者安息,生者释然。

  昨晚去蜂巢看孟京辉工作室的小剧场话剧《两只狗的生活意见》。按原剧本,最后“旺财”应该唱一首歌的,但戏剧提前结束,演员上台严肃告知周日停演哀悼:甘肃、四川又降暴雨,多人遇难,汶川映秀刚建成的城区又被改道的岷江淹没。

  昨天观众非常多,蜂巢剧场完全塞满了。这一版扮演“来福”的新人王印,是北京舞蹈学院大三学生,90后。散场后买了一本《孟京辉先锋戏剧档案》

  孟京辉的话剧里,很想看刘烨和王珞丹演的《琥珀》,希望以后还有机会。

Sector&Sphere

  大约一个月前读了Sector and Sphere: The Design and Implementation of a High Performance Data Cloud这篇论文。后来在组会上做了文献讲评。一直想BLOG分享,今天抽空补上。

  Sector/Sphere可以看作与GFS/MapReduceHadoop竞争的另一种云计算的基础设施。相对于Hadoop,它的特点是提供了更好的性能和安全性。如果云计算集群跨越不同地理位置的多个计算中心,Sector/Sphere的优势就能得到最大体现。从Terasort结果来看,同等条件下,其性能比Hadoop高出不少

  之所以能有这么好的性能效果,除了Sector/Sphere是用C++实现(而Hadoop是用Java)的天然优势以外,数据传输使用UDT协议(而不是常规的TCP)是一个独特之处。关于UDT协议的技术细节可以参考这篇论文,这项技术获得了2006、2008和2009三年的High Performance Computing, Networking, Storage, and Analysis会议的Bandwidth Challenge Winner

  因为有了UDT的独特创新,Sector/Sphere在数据吞吐方面就有了很强的核心竞争力。论文里提到:典型的Web应用,例如搜索引擎查询一个关 键词,尽管计算过程涉及很大规模的数据I/O查询,但是算法的输入和输出的消息尺寸本身是相对较小的。而对于典型的科学计算任务,输入输出数据本身往往也 很庞大,例如作者自己从事的天文学项目SDSS中,要先输入几十T的天文望远镜照片,再从中分析寻找褐矮星。这就要求面向这一类问题的云计算底层机制拥有更高的数据传输性能。

  在基于串联质谱的蛋白质鉴定中,海量数据的传输同样是瓶颈。这也是pFind集群版将要涉及云技术时,我对Sector/Sphere产生兴趣的主要原因。

  再列一些八卦信息。Sector/Sphere的第一作者Yunhong Gu拥有中国大陆的教育背景。而他所在的Oregon State University’s Open Source Lab被Network World杂志评选为美国10个最酷的网络实验室之一,入选原因就是研发出了Sector/Sphere。

pFind新版、生日

  好久没写BLOG,在忙软件的新版。昨天pFind Studio 2.4.1版发布了。欢迎下载使用。

  五月份发布2.4版时,因为要赶丽江会议的deadline,产品推出有些仓促。这次新版重点针对用户的反馈意见进行完善,尤其是pBuild有了不少改进。当然还要继续努力,下半年主要精力就放在完善pFind Studio产品上。

  除了产品开发,还和yf一起组织专利和软件著作权的申请。俺自己,也提交了pFind集群的算法发明专利以及软件著作权的申请资料。

  虽然紧张,工作与生活之间的平衡还算掌握得不错。帮忙照顾亲戚的小孩子有点头大,还好还好。昨天实在顾不上,我们只好把小朋友寄放到更远的亲戚家里去, 幸亏小姑娘是自来熟。下午pFind Studio安装包测试完成,各种知识产权申请和硬件设备采购都赶上了deadline,下班回家(遭遇地铁故障,煎熬)吃到了生日蛋糕。到晚上,听说亲 戚手术顺利,松口气。

美国能源部长在Nature上发表的学术论文

  刚刚在Nature上看到美国能源部长Steven Chu(朱棣文)的一篇学术论文:Subnanometre single-molecule localization registration and distance measurements。其主要内容是改进纳米尺度电子显微镜的精度。二月份,他还在Nature上发表过另一篇论文,内容是广义相对论领域的,主要研究测量引力是如何放慢时间。

  这两篇论文引起了美国新闻界的兴趣。Steven Chu解释说,这两篇论文的实际研究早在2009年1月进入奥巴马内阁之前就完成了。他在处理墨西哥湾漏油、全球变暖谈判等行政公务之余,把撰写论文当作 一种休闲:”I just consider it my equivalent of … vegging out in front of the TV,” 。

  事实上,第三篇论文正在完成中。

  相对小布什内阁里众多的虔诚教徒、模范丈夫、资深军人,现在的民主党内阁里有好多智商超高、特立独行的酷家伙。

终于买到了《独唱团》

  买到了传说已久的《独唱团》第一辑。中午跑到中关村图书大厦,下午下班后跑到光合作用,都说还没上架,马上就会到。只好顺手买了梁文道的《读者》、皮亚杰的《结构主义》、村上春树的《1Q84 BOOK2》

  最终在五道口地铁站门口的报摊买到了《独唱团》。我和报摊老板娘感叹“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”,跑了这么多地方,居然在她这个小摊上才能找到。老板娘说昨天就有很多人问,所以今天有人送货,她就留了5本,一会儿功夫就只剩2本了。

  交完钱,老板娘好奇地问我:“你们喜欢它啥呢?因为韩寒是主编吗?你是他的粉丝吗,就像‘快乐女生’一样?……”抓耳挠腮,支吾:“这个……我是因为……这些人都是独立的公共知识分子,不是歌功颂德的奴才和喉舌。”

  老板娘立马严肃起来,抓起手头的一本颠过来倒过去翻看:“这里面有不和谐的内容吗,这是合法出版物吗,我卖它会不会惹麻烦……”

  汗,只好找到刊号指给她看,“放心,这杂志去年就想出版,拖了一年,就是政府在审核呢。不通过审核,拿不到刊号的。”

  凤凰网专为《独唱团》出版创刊号这件事开辟了专题。晚上回来一看,专题在首页的链接标题改成了:网友认同韩寒《独唱团》出版体现政府包容开放。在卓越网一上市就超过《哈利波特》成为销量冠军。而豆瓣上的《独唱团》小组显示“小组成员数已达上限,无法加入”。其实以上这些网站,都没敢把这本杂志的内容放在首页太显眼的位置。

  但总有一些世界观,是傻逼呵呵地矗在那里的……我们总是要怀有理想的。写作者最快乐的事情就是让作品不像现实那样到 处遗憾,阅读者最快乐的事情就是用眼睛摸摸自己的理想。世界是这样的现实,但我们都拥有处置自己的权利,愿这个东西化为蛀纸的时候,你还会回忆起自己当年 冒险的旅程。

章文嵩的技术报告

  上周末,淘宝网基础软件研发部的负责人章文嵩来计算所做技术报告,一直想记录一下。最近三天在家里照顾病人,所以没顾上写BLOG。

  大约是十年前在AKA的网站认识了章文嵩和他的LVS。 那时候我刚刚接触开源,正在阅读Linux内核源代码,积累俺的《joyfire linux笔记》。当时LVS正在争取成为第一个汇入Linux内核的Made in China项目,我等粉丝狂热崇拜,《joyfire linux笔记》里有专门一章收录LVS技术资料。

  隔了这么久,章文嵩的外貌似乎没啥变化。这次报告主要介绍淘宝网的基础设施,例如分布式文件系统(TFS)、K/V缓存系统(TAIR)。细节可以参考幻灯

  章文嵩提到他们正在踅摸倒排索引等技术,研发上千亿规模的全文检索功能(淘宝网站现有40亿条目,每年翻一番)。另一个设想是图片搜索,预计2年初步可用:女孩子们可用3G手机拍摄商场里的衣服和鞋子,然后发送到淘宝网站,搜索类似的商品信息。

  章文嵩认为,在网络服务基础中间件领域,商业专有产品性能无法令人满意,淘宝正在实施开源战略,一方面用开源产品把现有平台逐步替换掉,另一方面也对自主研发的基础设施进行开源。他们的TAIR刚刚开源,TFS 预计会在9月份开源。

  目前淘宝网平均一笔交易耗费0.4度电,可以煮熟4个鸡蛋。因此和Google一样也开始关心能耗问题,希望定制 低功耗的服务器。考虑到Memory Cache和Web Service等模块大都是I/O密集型的,对CPU主频要求不高,没必要安装最强悍的CPU。章文嵩抱怨INTEL只看重利润,漠视环保:淘宝希望大规 模采购ATOM处理器,得到的回答是“不符合公司战略”,不愿意ATOM挤占高端芯片的市场。最终选用了VIA处理器,关闭不必要的主板模块如USB,能 耗大大降低,实现了无风扇,依然有不错的处理吞吐量(单机柜6Gbps)。