关于器量和勇气

　　教主在42qu发帖转载摘录《历史的经验》说：

曾子说过：“用师者王，用友者霸，用徒者亡。 ”，周围全是服从的、听命的、乖乖的人，会有麻烦。

　　我对此深有体会，回复了一下。

领导身边必须有几个敢直言相告，平等讨论的人，告诉他什么时候皇帝没穿衣服。这就得考验说的人够不够有专业精神和放到桌面上说的勇气，听的人够不够有器量。这个问题处理得好，双方都能积累长远的职业威望。

从我个人的经验来看，在国内尤其是公有单位，目前还普遍流行耍小聪明讲城府的处世哲学，物以稀为贵，坚持职业操守主动说真话会带来相当可观的口碑红利。当然，想高于均值，一开始总得多付出一点代价。直言相告很容易导致人际关系的紧张和冲突，会给双方都带来压力感和困扰。

　　说虚一点，器量和勇气，跟潜意识里的自我认同和安全感有关。

　　其实除了基本人品和信赖以外，最关键的是人际交流的方式方法。能不能用合适的方式表达和听取异议，这是个情商和修养问题。对于程序员来说，大多数人缺少这方面的训练和慎重思考，拙于表达又很容易情绪化。见过太多次，原本出于公心的讨论，当事人却没注意非技术因素，发生争执时控制不住语气，话都是横着出来的，导致矛盾甚至反目。上次提到PM的心态问题，其实也是这个意思。

　　职业精神和个人品牌需要着意维护，需要成熟，需要反省，需要磨练。

招聘、求职和早恋

Leave a reply

　　前两天的千核测试太累，测试报告发出去，老婆大人命令在家休息了一天。

　　先帮朋友发个招聘广告。香港某大学正在筹备的文本挖掘和推荐算法实验室，招聘熟悉学术圈氛围，有软件工程经验，能带人做产品的工程师。这个实验室是与企业合办的，其目标是把学术研究成果向市场孵化。实验室负责人是从pFind组出去的帅哥leo。待遇不错，尤其是与国内相比。如果嫌香港租房比较贵，可以在深圳住。嗯，如果不是因为年纪太大，在北京成了家，俺是一定投奔的。有兴趣的同志们赶紧发简历到topmathchina at gmail。要快哦，亲。

　　言归正传，最近招聘的话题在42qu和各个牛人的Blog上大热。例如刘未鹏刚发表的Blog《怎样花两年时间去面试一个人》，堪称经典。作为资深人贩子，我以前也在Blog上议论过别人的是非。类似的，挑灯看剑也在BLOG上叹息过豆瓣招人不易（这篇BLOG现在被隐藏了，如果你真想看，用Google Reader）。招人的机构找不到靠谱的人，大量求职的年轻人又在纠结郁闷，出现这种局面责任在教育机构。

　　反过来说，总有人能超出环境均值成为Outlier。前两天蓝色宝石聚会，rainbow学长愈发内敛强大，喜欢把他的经历讲给年轻人。rainbow刚来北京上大学时，特困生，家里为了凑足学费历尽周章，去中关村软件公司打工，开电脑的电源按钮都找不到……可一年以后，他给家里汇回去1万元，蓝色宝石筹备创业时，他说没问题，现在的积蓄够自己两年的生活；到了毕业，打印出来的求职简历比别人厚四五倍；进入老牌国企，很快成为几十年来最年轻的处长；他在北京买了房子，把父母接来，结了婚……最关键的是，每次见到我们这些朋友，他还是那个真诚、温和、质朴、大度、勤奋、踏实的rainbow始终没变。无论提供的教育质量怎样，毕竟是大学，有很大的自我发展空间，年轻人首先应该有自己的行动。

　　关于大学教育和创业，42区上有个16岁小朋友前两天发帖子“为什么我选择辍学创业？”。对这件事，每个人有自己的看法。求职和找对象一样，想找到可以托付的事和人，先得做不少功课。说到这里，跑个题，有个15岁小女孩误入邪恶的42qu，问：“我这个年纪、要是喜欢上了别人该怎么办”，joyfire大叔是这么教坏小朋友的。

早恋挺好，早点体会一些悲欢，了解人生的真相。总比变成剩女了还不了解异性的基本特质好（北京城里这种女孩还真多，周围认识好多有车有房却没谈过恋爱的30岁白骨精）。

不过，要把握几点原则：

1、保持悲观，概率统计显示，中国大约有3000-5000人是非常适合你的The one，这个人在中学就出现的概率比被雷劈中的概率小一千倍以上。

2、相信自我感觉，保持勇气。勇气有很多种，例如向一个人早点承认自己不喜欢他，让彼此尽快解脱的勇气。

3、学会自我保护。世界上真的有不少烂人，得不到就伤害。保持冷静而强悍，不要轻信，学一点跆拳道。

1024个CPU核下的测试

3 Replies

　　正在单位加班。所里新建的平台上有96小时独占机时，可以跑一些1024个CPU核的测试。机器跑起来了，等结果的空隙就上来敲点BLOG。

　　这次测试，对pFind来说只是重复以前在曙光500A和升腾7000上的试验结论。昨天pFind引擎刚启动，系统管理员就报告他那边的性能监控服务里面，各个节点的CPU占用率都满了。首先跑了一个热身任务，在腾冲嗜热菌数据上，设置了包括磷酸化在内的5个修饰，开300Da的超大误差窗口，跑了4小时，看来很稳定。上次超龙一号超级计算机硬件插电测试，用pFind烤机，随便跑跑，就报警说CPU过热。

　　pNovo是第一次走这么大规模并行测试，一开始IO有点阻塞，换了OpenMPI，效果就好起来，1024核情况下加速比甚至超过pFind。

　　pLink还没跑，估计比较麻烦，对于这种谱少，搜索量重的情况，负载均衡是个问题。早上开车去NIBS找yb拿pLink测试数据，他也在加班做试验。看到dmq老板也在加班赶deadline。

　　前天为试验做准备的时候，发现系统里面现有的MPI库都被损坏了，不得不自己安装；另外发现集群的文件系统句柄数上限只设置为1024个，改为65536个。不禁怀疑此前使用和测试的课题组的测试认真程度，这些基础设施都有问题，能测多大规模的并行任务呢。不管别人如何，我这里不放卫星扯淡。其实吧，技术上到底是不是有货，很容易感受到，例如一起汇报的时候，工程师的气场就不一样。

　　感谢各位同志们的帮助。

　　最近挺累，但心情不错。上个月有一天晚上疲惫地回到家，吃完饭，抱着女儿哄她睡觉，“等你长大了，会发现世界的不完美，会郁闷，但是要相信，总可以找到值得托付的人和事”。她眼睛瞪得大大的，突然咧开嘴冲我笑。一瞬间，绷得紧紧的神经就放松下来。第二天，接到了纠结期盼已久的重要电话，总算熬过了最低潮的阶段。女儿是我的小福星。

胡戈真有才呀

1 Reply

　　下面这个视频是今年看过的最让人乐的广告了。胡戈真有才呀。

　　偶怎么感觉主人公长得那么像教主呢，哈哈哈哈。光棍节就要到了，据说教主给所有单身下属放假3天，“因为这是法定假日”。祝愿所有IT死宅程序猿都赶紧找到女朋友。

　　附：新出版了一本《全球最值得模仿的500个网站》，里面有教主的42qu……

瓦良格航母和小木虫网站

1 Reply

　　昨天飞到大连出差，晚上12点才入住香洲大饭店的20层楼。今天早起一拉窗帘，哇噻，瓦良格航母就在窗户前方的港口里啊。

　　在科学计算讨论会上发现小木虫学术科研论坛做得风水水起，很有前途。和科学松鼠会类似，完全民间志愿性质的公益网站，往往比受到国家经费支持的事业机构做得更好。

　　“你怎么看刚刚去世的乔布斯先生？”我问自由广场上“占领华尔街”运动示威的年轻人。“我负担不起一个iPhone，但我觉得这家伙跟我们是一伙的”。源自：《乔布斯的无用之用》

　　越来越没耐心，忍不了空洞乏味。听到“布局”、“运作”、“战略”、“平台”这种词太多，就会引起生理反应，逃去厕所。

zf的pParse论文接近发表了

1 Reply

　　早上zf把Editor in Chief的来信抄送给组里，他的pParse论文接近发表了。我抢到第一个re邮件，表示祝贺。这篇论文的内容和zf这个人一样，踏实厚重。六年磨一剑，不容易。对手是红得发紫的MaxQuant又有什么了不起，在文中的几个数据集中，pParse效果高出10%。恭喜恭喜！

　　“哪吒”系统里已经集成了pParse，前两天我刚刚在集群平台上实现了它的异步并行。它将和pFind、pBuild、pCluster、pMatch、pXtract软件一起成为哪吒三头六臂里的重武器。

　　这消息来得太及时了，今天对hchi哥开玩笑说，看到zf的论文发表，我可以去死了。还是那句话：“joyfire的意思，如果zf愿意加入他的团队，他就有胆子去月球。”

　　这两天开车上下班路上，都在听孙燕姿的《是时候》的CD。的确是时候了。

Dennis Ritchie去世，还有一段个人记忆

Leave a reply

　　首先，C语言之父Dennis Ritchie去世，默哀。大家可以回顾一下这篇2000年的新闻稿，记者专访了C、C++和Java三种语言的创始人。C++11标准终于发布了，ISO C11新版也会马上发布。C标准委员会和C++标准委员会关系很好，有很多成员在两边兼任，所以相互协同越来越好。只可惜，自从SUN被收购，眼看着Java要被Oracle生生折腾死了。

　　OK，技术写完了。

　　前两天收到好朋友的消息，说我的BLOG上长篇大论的技术review越来越多，鲜活的个人体验越来越少。朋友提醒我，不要被点击量和搜索排名绑架，不要忘记那些关注你个人的好朋友们。说得对，BLOG之所以不同于其他媒体，在于其背后是个活人，有喜怒哀乐和碎碎念。订阅者若是只关心宏大严肃的话题，就去看《南方周末》了。

　　下面是一段无关技术的记忆，分享给关心我的好友，也分享给上岁数以后的自己。

　　战争，窗户外面轰炸机正在扔炸弹，火红的爆炸和灰滚滚的尘土，小区里的楼开始摇晃歪倒，多米诺骨牌，一栋、两栋……终于轮到我这一栋楼了，卧倒，地板逐渐倾斜，周围充满了邻居们的叫喊……

　　女儿的抽泣把我从梦里拽出来。睁开眼睛，小婴儿正在吭叽，努力试图侧过身子，离妈妈近一点。妻子还在睡梦里，一只手揽着孩子，胳膊肘顶着我的肩膀，哦，是怕我梦里翻身会不小心压到孩子。

　　女儿不懈挣扎，用脚踢被子，发出更大声音的抗议……妻子很快醒了，侧过身给孩子喂奶。孩子急躁地叫起来，妈妈温柔而疲惫地安慰，然后就是小家伙咕噜咕噜吃奶的声音。

　　给女儿盖上被子，问“换尿布吗？”，妻子说“不用，你睡吧”。

　　卫生间里的冷光夜灯透过来，描出母女两个的轮廓来，像大理石雕塑。翻身，裹好被子，深呼吸，安详温暖的气氛，刚才噩梦里的紧张纠结已经很远很淡了。困倦，接着睡……

　　补：教主说，闭上眼，且听风吟；这一刻，世界与我无关。

Google投资基因组数据服务

2 Replies

　　这两天生化和生物信息领域的人很兴奋，因为Google对DNAnexus的投资。

　　DNAnexus刚刚在A轮融资中获得1500万美元投资，投资方包括Google Ventures。除了资金，Google还将利用自身基础设施，如Google Cloud Storage，对DNAnexus提供技术支持。美国政府因为预算吃紧即将关闭NCBI，所以DNAnexus的DNA数据云服务今后有望成为生物科研的基础。

　　回顾一下:

　　十年前人类基因组计划完成，多国科学家利用了几亿美元，花费数年才完成了一个人的DNA测序；

　　六年前，中国第一个商用案例，某位匿名亿万富翁花了一千万RMB给自己测序；

　　四年前，Google联合创始人之一在自己妻子创立的23andMe公司内接受基因测序，被预测出帕金森症高危，因此大笔捐助研究这种疾病的基金会，此时23andMe已推出了免费测序服务（当然你要接受自己的DNA隐私被出售，以及随之而来的各种医疗服务的恐惧营销）;

　　而到了今年夏天，在55BBS孕宝亲子版上，北京的孕妇们开始热烈讨论购买华大基因的DNA测序服务以进行唐氏儿筛查。1500元的推广价当然还高于成本，但按照目前基因测序技术的发展速度（大大超过了摩尔定律），其成本很快就会降到普通人可以接受的范围，成为普通医院的标配。

　　随着测序技术的进步，如何对接近10T的基因深度测序原始数据进行分析就成了问题。总不能让每个病人都拿着10T的硬盘到医院的集群上现算吧。云服务是合乎逻辑的方式。所以生物信息领域的人，等待Google等互联网巨头的进入，已经有好几年了。

　　一直在期待领域Killer Application的出现，也一直在讨论“云计算+生物”的技术细节，让暴风雨来得更猛烈些吧。

pFind网站恢复正常

Leave a reply

　　经过小f和wl的全力工作，pFind官方网站已恢复正常，可以正常注册下载pFind Studio 2.6。感谢大家对pFind团队的理解和支持。任何问题可以发邮件到pfind at ict dot ac do cn进行咨询。

腾讯的DNA搜索引擎

Leave a reply

　　腾讯研究院刚刚推出了实验性的DNA搜索引擎，去年他们发表过一篇学术论文How to build a DNA search engine like Google?，还申请了与此相关的专利。当时引起了国内外很多科技媒体的关注。

　　关于这个DNA搜索引擎，扬子江@42qu刚刚发表的这篇文章里面有更详细的介绍。

　　先简单介绍一下这篇论文的思路。现代搜索引擎的一个常规预处理环节，是对文档进行分词然后创建倒排索引。中英文在分词这个环节上有很大差别，英文单词天然被空格隔开，中文句子里的词汇都是连在一起的，所以更加难以划分，例如“南京市长江大桥”，分词算法一不小心就切成了这样：南京/市长/江/大桥。因此最常见的处理，是开一个移动窗口，不断扫描连续几个字形成的子串，创建倒排索引，当然最终只会保留频率较高的串。考虑到基因串搜索的特点与此很类似，所以现有中文搜索引擎的技术可以应用到生物基因搜索里去。

　　如果对分词算法更感兴趣的话，可以参考《算法导论》里“动态规划”那一章的计算字符串最小距离的那个例题，书里还特别提示了一句：这个模型被应用于基因比对领域。进一步，还可以Google更专业经典的生物信息算法，例如BLAST（我记得IBM开发社区有过一篇BLAST算法的介绍写得很好）。

　　文本信息检索和基因分析两个领域之间有很多故事。

　　在本领域的超大规模序列匹配算法和软件尚未成熟之前，早期的生物信息学者就曾经试图借助过Google协助自己的研究。他们的办法是把基因数据放到Web上，然后吸引Google的爬虫过来抓取，最后再用Google搜索自己想要的序列片段。不过由于人类基因字符串长达三十万，Google对匹配模式的长度有上限，所以这种方法的结果并不是特别精确。按说号称更懂中文的百度应该能派上用场……悲剧的是……百度限制更多……嗯……我记得……那时候搜索内容不能超过32个汉字（或64个字母）。

　　当BLAST等经典基因比对算法出现以后，又反过来被信息检索领域应用，在某些特殊的场合（例如版本比对、谣言分析、抄袭判断等领域）发挥了重大作用，很多人大概都听说过分析“赶快把这封邮件抄送给十个朋友，否则……”这类蠕虫email内容几十年演变过程的那篇著名论文。

　　稍微了解领域知识的生物信息人员都会明白，腾讯的这个引擎还只是一个演示性的玩具。真正常规的工业级基因深度测序数据处理，是要对多达几T的测序数据进行拼接和匹配，然后再搜索基因库，寻找突变点。不过俺个人看法是，如果有一天网络巨头真把目光投向生物信息领域了，这个行业就该重新洗牌了。目前看，还是产业规模和利润兴趣的问题，而具体的技术能力并不会形成太大的壁垒，就算有，在高薪挖墙角的人才战面前也是浮云。

　　说到这里，LinkedIn上面的Bio-IT World: Bioinformatics小组里刚有过一个有趣的讨论：So why hasn’t the Bioinformatics industry rocketed to success? （为什么生物信息产业始终不温不火，没有出现爆炸性发展？）。

joyfire 王乐珩地雷

有事多Google，没事少上网

关于器量和勇气

招聘、求职和早恋

1024个CPU核下的测试

胡戈真有才呀

瓦良格航母和小木虫网站

zf的pParse论文接近发表了

Dennis Ritchie去世，还有一段个人记忆

Google投资基因组数据服务

pFind网站恢复正常

腾讯的DNA搜索引擎