Author Archives: wangleheng

BigTable和生物信息

  以前提到过,GFS分布并行、高度容错、海量I/O、“重”插入查询“轻”删除、面向廉价PC集群的特点,很适合生物信息方面的应用

  最近构建在GFS基础上的BigTable受到关注。简单地说,BigTable提供稀疏表形式的数据存取服务,除了拥有GFS的原有特点,更适合存放半结构化的数据。所谓半结构化数据,和关系数据 库的表一样是二维的,有字段(列)和记录(行)的概念,但每个字段不限制长度,适于存储HTML和RSS(XML)。而生物信息应用中,肽、质谱、酶、修 饰等都是由一组或多组不定长字符串表达的半结构化数据。

  Google进军生物信息领域,看似隔行,其实门槛很低,因为原有核心竞争力在此领域同样有效。

王选病逝

本周收藏.2006.02.12

去单向街买书

  对传说中的单向街书店向往已久,但一直没去过,其实我家离圆明圆不远。今天终于有机会逛逛。

  人不多,延着走廊慢慢看,书架很高,找到感兴趣的书就坐到沙发上浏览,光线和音乐都很平和,太舒服了。如果有时间,我一定会在里面泡一整天。

  买到两本史景迁《The Emperor of China–Self Portrait of K’ang-H’si》《Treason by the Book》,前者在行文上是根据康熙的遗诏整理的,后者讲述雍正朝的曾静案和《大义觉迷录》。

  随便翻了翻第一本,有趣的地方很多。比如签订尼布楚条约后,康熙跟传教士学习的那一段:一连数个小时观看大炮制造的每一个步骤,建筑带有机 关的喷水池,由皇太子监工在养心殿建造风车,康熙自己负责制造时钟和机械,康熙学会了计算球体、正方体、圆锥体的重量和质量,学会了测量河案的距离和角 度,学会了计算圆周,学会了用水闸的抽样调查计算全天的流量,甚至比钦天监的官员更准确地预测了一次月蚀,并且知道西边的四川和云南等省看不到这次月食 ——因为地球是圆的,他还教儿子怎样计算纬度——三阿哥胤祉算出故宫的长春宫的纬度是39度59分30秒……

  从一个美国人的书里了解中国历史,视角的差异会带来很多阅读乐趣,尤其是史景迁这种汉学大家,又的确比普通的中国人更清楚某些历史细节,这种戏剧性的差异就更大了。

  后记:今天看到许知远的blog刚好在写这本书

小心2.0

  到海外发展的职业球员一般在转会第二年遇到瓶颈。对于系统分析员有个类似规律:小心进入新领域后的第二次设计。

  刚涉及陌生领域,战战兢兢,因此放低期望值,尽量采用熟悉可靠的设计和技术,遇到变化能容忍妥协。而到了“第二个赛季”,虽然客观上面对前一版剩下的“难啃的骨头”,但由于对领域知识有所了解,半瓶水晃荡,需求分析时就会有意无意添上很多漂亮但不重要的内容,设计时也总想用时髦的新技术弥补上一版的遗憾……眼高手低往往搞砸。就连成熟的大公司开发的软件产品,“2.0”都是危险阶段。

  到目前为止,在生物信息组的工作还算满意,但接下来进入深水区,必须加倍谨慎。

  • 备份到目前为止的资料、邮件、文档、工具、代码和测试数据
  • 沉下心,扎扎实实沟通,需求分析很琐碎,文档、画图、开会……要拿出热情来
  • 整理需求,分级排序,时刻提醒自己,那些很酷的东西,比如分布并行,比如Web Service,比如泛型技术,并不一定真正重要
  • 修改接口协议要谨慎,一定要修改,必须首先更新相应的单元测试代码
  • 多花时间帮各个算法模块的作者,在保证代码工程强度的前提下,让博士们腾出更多精力投入研究
  • 里程碑和deadline,重要的不是日期,而是不断监测和调整
  • 砍掉不必要的,砍掉风险大的,砍掉机器可以做的,砍掉资源不够的……逼急了,砍掉某些人

假期结束

  昨天下午飞回北京。从深圳起飞时天气很好,从空中看地面绿油油的。越往北云层越厚。落到首都机场一看,到处白茫茫的。两边温差达到30摄氏度,没几分钟机舱窗户上就开始结冰花。一上飞机全身就开始紧张,每次回北京就像回战场一样。在飞机上接着踅摸《Modern C++ Design》,第3章Typelists的内容总算是搞清楚了,回头又读第11章Multimethods,果然更明白了

本周收藏.2006.02.04

见到了果果

  在珠海和深圳,总产生错觉,“等到冬天这里是什么样子,啊,对了,现在就是冬天”。每次在北京和深圳之间飞,就像跨越时间。

  珠海是座漂亮的海滨小城,沿海岸的情侣路景色很好,道路楼房中又分布着很多青翠的小山,马路上车很少,公园大多不用门票,草地上很多胖乎乎的鸽子。

  见到了两岁的侄女果果,真是个小机灵鬼。我用天线宝宝气球和喂鸽子的玉米粒贿赂她,很快就取得了小家伙的信任。

本周收藏.2006.01.28

到达深圳

  昨天下午1:40坐上机场大巴,在机场高速遇到交通事故,停了半小时。3:15到机场,一直等到6:00才起飞,我把晚餐全都吃光了,包括榨菜包。

  利用在天上飞的三个小时把《Joel on Software》仔细重看了一遍.原著的确是好书,而且由于大多数文章来源于作者的blog,所以文字很鲜明。但翻译不负责任,实在很烂,其中一个家伙甚至连基本的软件开发常识都没有,能把XP翻译成“超级程序”,把check in/out硬翻译成“检验异常”

  飞机降落时,深圳已经是一片灯火,地面温度16摄氏度,我每次都准备一个大袋子装脱下来的衣服。老妈是自己开车来接我的。祝大家都顺利早点到家。