又来上海

  2016第三届科学数据大会在上海复旦大学举办。8月25日下午我会在高性能计算与大数据分会场做一个分享,欢迎大家来听。明天我会去听精准医疗分会场的报告。希望认识更多朋友。最关键的,希望收到简历和人才推荐。

  最近开始疲惫和焦虑。有一天早起,居然有溜号不上班的念头。对我这种跳着踢踏舞上班的人来说,这很少见。很长时间没休假,看来需要充充电了。

  到上海的高铁,买了一本海莲·汉芙的≪查令十字街84号≫,几乎不喘气读完。真棒!同时发现自己彻底放松下来了。然后突然特别困,眼皮都抬不起来,睡得不省人事,直到列车员查票。发社交网络称赞,才被科普,火车站书店之所以会放一本小众的文艺作品,是因为最近有一部畅销电影提到了它。

  刚到上海,收到邮件,有个客户申请GeneDock的邀请码,看地址离我很近,于是去拜访。见完客户,又发现离贝壳社上海的办公室很近,就跑去玩。遇到了以前就认识的朋友,才知道他找到了合适的合伙人,获得了贝壳社的投资,赞!然后又遇到了另外一个创业者,基因行业最著名的猎头。有些话题只有创业的人才能真正互相理解。(聊了好久,我差点耽误了晚上的视频面试)。

GeneDock研发团队的一些方法论

  逼着自己上来写BLOG。最近工作强度非常大,回到家吃完饭洗完碗,真的手指尖都不想动一下。不过工作有进展,人有成长,心情还不错。今天冒着大雨回家,浑身湿透,但是心里一动:“两年前的今天我心情很糟,现在虽然累得像条狗,却很充实,看来这次创业是对了。”

  创业以来,感觉还算顺利。所谓好运气,部分源于GeneDock团队有一套自洽的逻辑。创业和投资说到底拼的是世界观,你对现实世界的某个局部有超常的,未来有独特的洞见。这里面有些关于技术产品,有些关于团队管理,有些关于商务销售。

  这篇BLOG再总结一下GeneDock研发的方法论。算是呼应一年前的那篇《思考:如何开发应用平台》,对其做一些补充或再次强调。

一、彻底信仰API

  Alex Iskold说:“API代表公司的业务本质……思考API实际上就是思考公司的未来……”

  绝对赞同,一年多前我在社交网络发过一条对国内一些所谓基因云的吐槽:“不是做个Web页面就有资格叫云计算的。前端若不提供RESTful API、编程语言SDK以及UNIX风格的CLI工具包,后端若没有可拓展的分布式架构、防单点故障的failover机制……就别觍着脸自称云计算了,这只是一个网站而已”。这话似乎刺痛了某些人。

  GeneDock刚刚对外开放了第一批Workflow和Task有关的11个API。欢迎大家试用,这里是API-Reference文档。如果单从Web Service的设计这一点看,我们的产品领先于国内外友商。

二、To B 的产品逻辑:别抖机灵

  To B 产品和 To C 产品有很多业务差异。To B 是给专家甚至专家团队用的软件,本质上在卖你对行业的独特洞见,在卖你的工作哲学。例如,当年SAP的ERP软件最成功,因为他们最理解德国制造的业务逻辑;再如,Salesforce在卖的是销售团队的方法论;而GitHub实际在卖他们对软件工程的理解:Bug管理、版本管理、Code Review……

  另一方面,To B 和To C 其实都是给人用的软件。从设计和研发的方法论来看,并没什么本质区别。GeneDock产品经理何荣惠(在阿里云的时候程序员们昵称“神仙姐姐”)在知乎回答过“to B 的产品经理和 to C 的产品经理有什么差别?”,我觉得写得很好。

  总之。To B 产品,抖机灵没用,保持克制和敬畏。躬身入局,琢磨清楚基因数据传输、存储、分析、应用的所有业务场景。

  我们刚刚上线的企业账号功能,对很多团队都有用。GeneDock官方BLOG对此有描述,推荐大家看一下。

三、坚守软件工程底线

  GeneDock只雇用最好的程序员。好程序员必须能熟练应用软件工程的成功方法论。

  至于什么是好的软件工程,一年前都写过了:“好的软件工程实践,决定了技术团队的层次。Github用的怎么样、Bug管理怎么样、代码审核是否严格、发布升级是否自动化、有没有单元和集成测试……到一个技术团队里呆几个小时,鼻子闻一闻,就知道几斤几两。技术团队如果这些基本功不好,摩擦力会越来越大。”

  不只是提高自己内部生产率,GeneDock还想把数据生产的最佳实践推广到整个行业,成为生物信息行业的GitHub。我们正在优化配置和调试的体验,总结GeneDock生信团队的流程规范。后面会不断放出软件工程培训文档和配套工具,让生物信息程序员们效率更高,更专业,工作更有价值。

列书单2016.07.01

  刚啃完了两本挺厚的史书。

  一本是奥姆斯特德的《波斯帝国史》。以波斯人的角度而不是以希腊人的观点去叙述历史,西方著作里很难得。关于波斯和希腊之间的战争,有一些希腊将军的战地笔记流传至今。我最喜欢色诺芬的《长征记》,超好看,8年前看的,至今记得很多细节。

  第二本是霍布斯鲍姆的《帝国的时代1875~1914》,年代四部曲的第三部。

  

  上周日随手翻完了小说西德尼·谢尔顿的《假如明天来临》,讲一个被腐败黑暗社会伤害的姑娘如何一步步复仇,女版《基督山伯爵》。戏剧性的是,她最终变成了一个诈骗惯犯,其实和害她母亲自杀的仇人没啥区别。

GeneDock招收生物信息实习生

  GeneDock每天帮助客户处理TB级别基因组数据。基因数据工程师支撑这个行业最活跃的创新企业设计业务架构方案,使用Docker容器等各种数据技术帮助客户把NGS分析流程迁移到云端。

  我们正在招收生物信息实习生,具体岗位要求请参考 https://www.genedock.com/joinus/ 这里的“生物信息算法工程师”和“基因数据工程师”两个JD。实习工资比照互联网行业平均标准按天计费。要求全职实习至少3个月以上。转正offer可以在面试时一起谈掉,也可以实习期间再谈。

  简历发送到 hr at genedock dot com 。也欢迎推荐人才。老规矩,实习生转正或候选人入职过了试用期,推荐人送iPhone或大疆DJI无人机。

GeneDock架构师介绍分布式基本原理

  GeneDock首席架构师陈昕刚刚在公司网站上发表了一篇BLOG,介绍了有关分布式系统的基本知识,例如一致性问题、FLP不可能性原理和CAP定理。推荐大家看一看,了解客观限制,免得试图制造永动机。

  原文地址如下:https://www.genedock.com/blog/2016/05/27/20160527_distributed_system/

Max Levchin

  继续八卦,这次是Max Levchin。他是Paypal黑帮的关键人物,23岁的CTO,重要性仅次于Elon Musk和Peter Thiel。

  之前在《支付战争》的读后感里提过他。我又去翻了翻Founder at Work,原来第一章就是对Levchin的采访。其他信息来源包括维基百科,以及他在Quora上回答的问题

创业者  支付战争

  Levchin 16岁从乌克兰移民到美国,数学天赋极高。他擅长安全加密算法,所以创立了Fieldlink公司,想做移动设备的安全技术供应商。后来找到Peter Thiel当合伙人和CEO(Levchin只喜欢和聪明人共事,Peter Thiel小时候得过加州数学竞赛第一名)。Levchin对Paypal创业的回忆很少涉及那些著名的运营手段(直接给新客户10美元补贴等),也没怎么提Elon Musk和Peter Thiel之间的宫斗戏(稍微说了说Elon Musk逼研发团队改用Windows,结果导致政变),他讲得最多的是如何对付金融欺诈,这在《支付战争》里几乎没被提到。

  2001年Paypal因为信用卡诈骗每月损失1000万美元,而且比率还在不断上涨。这引起了团队的恐慌。Levchin自己一度有些绝望,然后开始全力应对。最终Paypal开发出一整套防欺诈的工具,称为IGOR。很多今天已经习以为常的互联网防欺诈手段,都源于那时候Paypal申请的专利。例如现在常用的CAPTCHA技术:多次输入密码错误后,会显示一张只有人类可以识别的图片,要求用户按照图片内容输入验证码,防止黑客利用程序暴力破解密码。

  按照Levchin的说法,竞争对手eMoneyMail就是因为无法控制商业欺诈,损失比率达到惊人的25%,不得不退出。而《支付战争》的作者似乎没有意识到这一点,他认为Paypal就是业务增长速度正面碾压了eMoneyMail,所以对方放弃了。可能两边都没说错,技术团队和市场团队不同的视角而已。Levchin评价《支付战争》总体还是很有趣的,虽然个别地方错误。

  感觉最近新闻很多的Palantir的技术框架应该就源于IGOR。Palantir是Peter Thiel投资的创业公司,利用金融领域反欺诈的大数据工具,帮助美国政府进行反恐,据说在追杀本拉登的行动上出了力。大名鼎鼎的棱镜监控系统获取的海量元数据,需要有合适的数据技术进行处理。

  Paypal被收购后,Levchin花了很多年创业做Slide,不成功,最后卖给了Google。他又回到最擅长的互联网金融领域做了Affirm。他在Quora回答在Paypal积累的经验对Affirm创业有何帮助:“People underestimate the complexity of legacy payment infrastructure. Solid knowledge of that helps a bunch. More broadly, the greatest lesson is always the same: people is what makes or breaks every company.”

  去年他又推出了Glow,一开始还以为是类似“好孕帮”一样的助孕APP,好诡异。仔细一看:”夫妇可在备孕时每月连续往这笔基金内存钱,每月50美元,连存10个月。如果10个月之后Glow还没能帮助你成功受孕,这个基金则会资助你后续的检查和治疗……Levchin把Glow的未来定位为一家健康保险公司。而现阶段要做的就是收集数据、改进算法,帮助更多夫妇成功受孕”。 牛,原来还是玩金融,这智商税太有才。

Michael Burry

  抱歉两个月没写东西。快四十的创业大叔,工作生活压力有些大。部分原因是博客VPS被黑客控制,备份数据重配服务花了些时间。

  接下来几篇BLOG说说我崇拜的几个GEEK。这次是Michael Burry。

  次贷危机爆发,Michael Burry大赚一笔,却关闭自己的基金,发了一封愤世嫉俗的公开信。这是他最初为世人,包括我,所知的原因。去年Michael Lewis的畅销书The Big Short拍成电影以后,Burry就变成红人,网上能搜索到更多有趣信息。电影不错,普通人可以搞清楚MBS和CDO这种复杂的金融概念。据说书更精彩,Michael Lewis的标准风格,大量水面以下的细节,完整描述决策逻辑成型的全过程。

The Big Short

  Burry一只眼睛失明,阿斯伯格综合征(自闭症的一种,又称为天才症),不善于和人打交道,但是对数据分析极端专注。他最早在Stanford学医。到医院实习,16小时轮班,值夜班的时候建了一个BLOG,开始发表对金融投资的看法。由于见解独到,预测精准,这个BLOG很快受到金融专业人士的关注。2000年,Burry筹建自己的Scion Capital,门槛居然是1500万美元。然而,在没见过面的情况下,很多大型机构的投资人打电话过来直接确定出钱,都是他BLOG的粉丝。这里面包括鼎鼎大名的Joel Greenblatt:“我一直等着你离开医疗行业”。这个BLOG的文章现在还能用Google搜到,简单看了看,Burry是Benjamin Graham的价值投资理论的信徒,但是思路很灵活,自己构建了一套独特的模型。

  后面的事众所周知:2005年Burry通过数据分析发现房地产泡沫严重。决定做空次贷。然后就开始漫长的等待,承受巨大的压力。在泡沫还没有破灭之前,Burry在客户的压力下不断减持宝贵的CDS,甚为可惜。直到市场崩溃,证明全世界都错了,Scion Capital在运行期间给客户带来了489.34%的总收益。2008年11月关闭Scion Capital,群发最后一封邮件,“我被基金的投资人和业务伙伴,甚至过去的员工一次又一次地推到崩溃的边缘”。对他而言,拿着1亿美金的业绩提成,摆脱不信任自己的金主,成为私人投资者,的确是最好的选择。

阿兰·德波顿的《亲吻与诉说》

  阿兰·德波顿的《亲吻与诉说》买回来在书架里放了大半年了,连塑料膜都没撕开。周一顺手拿出来,在上下班地铁上看。来回坐了三趟地铁,今天早上去上班的路上读完了。

  虽然这是一本小说,其实内核和阿兰·德波顿的那些散文差别不大。更多文字是在旁征博引和内心思辩,基本没有什么故事情节:前女友抱怨“我”只关注自己。因此“我”决定尽可能了解新女友,事无巨细,给她写一本传记。于是读者们开始跟着“我”一起探索伊沙贝尔,一位25岁漂亮伦敦女孩,的全部生活细节:家族、童年、朋友、兴趣、弱点、习惯……很多地方相当有趣,例如她和17个人接过吻(第1个接吻对象是自己的妹妹)并和其中10个人上过床(“我”还为此整理了一个数据表格)。一边,伊沙贝尔碰到一个特别有耐心的听众,傻乎乎把该说的不该说的都倒出来了,另一边,“我”却在暗自大开脑洞。最终伊沙贝尔厌倦了“我”的窥探,分手。

  阿兰·德波顿广博的知识,纷纷杂杂稀奇古怪的想法,流畅而有才气的文字,都非常有趣。故事本身体现了某种理性主义的悲观:即使交流了这么多,人和人之间仍然无法彻底理解和接纳。真的没有戏剧性的故事情节吗?有的,比如,我觉得第六章最后那几句太好玩了:

  “你是不是也想把自己的名字加在我那个讨厌的小名单上?是不是?”

  “我一向喜欢数字18的。”

悉达多·穆克吉的《众病之王:癌症传》

  前几天从我们GeneDock的公共存书里翻出《众病之王:癌症传》。利用上下班时间,在地铁上读完了。这是一本非常精彩的史诗。

  对抗癌症本来确实是个有点压抑甚至绝望的话题,但同时也体现出了人类惊人的智慧和坚韧。一代代医生和生化学家提出各种假设,然后努力用科学试验和临床观测证明自己的想法。大多数人都失败了,但每一时代的主人公都完成了某些使命,替后人铺了一段路。读到最后几章,希望慢慢多起来。近二十年的技术进展尤其令人振奋。Rb,res,myc……每个基因突变的发现和证明,都是一段令人叫绝的侦探故事。随着致病机理逐渐被揭示,针对各种癌症通路的靶向药物也就开始出现了。

  读这样的书会强迫你思考生命的意义。对我个人而言,GeneDock正在帮助专家分析海量的癌症基因数据。商业以外能为这项事业出一点点力,也算没白过吧。