Tag Archives: 创业

2014再见!

  从阿里辞职创业两个月了,忙得没心境写BLOG。实在对不起订阅者。今晚给wangleheng.net域名续费,顺便上来敲两句,免得大家以为这里死掉了。接下来的更新节奏会逐渐恢复正常。

  先傲娇一下!念念不忘好多年,终于迈出关键一步。给自己点个赞。一个已经创业的本科同学给我发来贺电:“尝试改变世界,或者等死。很高兴又出现一个人选择了前者!”

  回来继续写总结。2014年初的这篇BLOG已明确提到今年要做的两件事:完成ODPS对外开放商业化,然后着手准备离职创业。现在看都做到了。我给自己打个90分。扣掉的那10分源自ODPS商业化过程中出现的大量问题。经验教训记住了。同事朋友们的善意也记住了。

  关于新公司的行业背景和介绍,可以参考我们在Qcon上的分享图灵专访。目前在宇宙中心——回龙观的居民楼里,距离地铁站步行2分钟,逆峰上下班。下面这张是我们的门神。

qintianzhu

  我们在招人。点这里看职位。公司提供机械键盘,人体工程学椅子,多显示器,不限量vpn,正版开发环境…这些要求对程序员来说并不过分!牛人把要求在简历里列清楚,我们赶快办入职手续吧:)也好尽早给推荐你的朋友发iPhone6。什么?女王范的美女产品经理?这个…快有了快有了…

pingmu

  互联网创业,工号是个位数的员工大都是在A轮之前加入的。这些同学的工作能力未必Top 1%,但往往拥有清晰的决策树,知道平衡点在哪儿,知道自己不要什么。观察每个人如何取舍、如何谈判并最终入伙是一件很好玩的事。Welcome aboard,各位GDer!系好安全带,这会是一段奇妙的回忆。

  至于我自己,纠结的时间不长。答应合伙人会出来一起创业的那天晚上失眠了,毕竟要放弃很多,例如大笔阿里股票,后来在手机上给某慈善基金会捐款了100块,平静下来,然后去睡觉。从那天开始,每天都比前一天更确定自己的选择是正确的。

  其实最近看到大量阿里的同学都出来。其中玄橙老大也看好生命科学这个行业,加入了即将上市的华大基因。他还写了一篇文章回忆叛逃的过程,据说最早还是被我忽悠的。

  如果你对创业感兴趣,又不太了解。推荐9月起YC的新主席Sam Altman与Stanford联合开的一门创业课,叫“How to start a startup”。我每晚和女儿玩游戏、哄她睡以后,就在手机上听一课。收获很多。这里是视频课程的网站。另外,罗胖在《逻辑思维》这一期视频讲得也很有趣。还有,我在读Startup: A Silicon Valley Adventure

  2015年要来了,祝大家都离自己的梦想更近一步。

健康大数据创业团队诚邀您的加入

  我们是一个健康大数据创业团队,已经拿到百万美元天使投资。创始成员包括前阿里巴巴数据科学家、前阿里云数据产品经理,核心团队长期工作于阿里、百度等业界知名公司。我们怀揣用数据技术推动健康领域革新进步的梦想,期待您与我们结伴前行。
  我们在北京。
  如果你是一个Geek,和我们一样渴望用互联网和数据技术改善自己和他人的生活质量,请无视下面的职位描述,直接把简历砸向 igenedock@gmail.com ,我们会在第一时间跟你联系。

系统架构师
我们希望您擅长根据业务需求构建和优化可扩展的计算系统,对分布式存储/分布式计算/并行计算系统架构如数家珍,并热衷跟进前沿计算技术发展。
工作职责:设计系统架构,带领团队实现面向海量数据的可扩展计算系统。
要求:
  1. 深入了解Mesos/Yarn或其他分布式资源管理系统
  2. 熟悉分布式计算领域作业调度、元数据管理、数据质量监控等方面
  3. 熟悉Hadoop生态环境,有系统级开发经验
  4. 优秀的沟通能力和团队协调能力
其他
  1. 熟悉亚马逊AWS或阿里云等公有云服务优先
  2. 熟悉Docker或其他虚拟化容器技术优先
  3. 熟悉Spark/MPI等计算系统优先
  4. 参与过开源项目优先
  5. 有github和技术博客展示自己以往技术沉淀者优先

前端工程师
我们希望你热衷于前端技术,对浏览器加载方式理解深刻,渴望实现多样流畅的用户体验,
工作职责:设计并开发web前端页面,完善报表展现、数据操作等功能,并能使用缓存和按需加载方式优化页面性能。
任职要求:
  1. 熟悉W3C标准,熟悉MVC模式
  2. 熟练掌握HTML/JavaScripts/CSS/jQuery等前端技术
  3. 对用户交互设计有自己的理解
  4. 良好的沟通能力和合作精神
  5. 熟练使用git工具进行代码管理,熟悉基本的软件工程方法论和工具,例如单元测试、版本管理、Bug管理等
其他:
  1. 熟悉主流Web框架优先
  2. 有数据可视化经验优先
  3. 参与过开源项目优先
  4. 有github和技术博客展示自己以往技术沉淀者优先

后端系统工程师
我们希望你对业务系统开发有丰富经验,擅长设计简洁易用的RESTful API,热衷于提高系统性能和可扩展性。
工作职责:开发后端服务,包括权限控制、元数据管理、任务调度等功能
任职要求:
  1. 熟悉Python/Java编程
  2. 熟悉MongoDB,Redis,memcached等存储技术
  3. 对后端业务流程搭建有丰富经验
  4. 了解Nginx配置,使用过主流Web开发框架
  5. 熟练使用git工具进行代码管理,熟悉基本软件工程方法论和工具,例如单元测试、版本管理、Bug管理等
  6. 良好的沟通能力和团队合作精神
  其他:
  1. 了解亚马逊AWS或阿里云等公有云服务者优先
  2. 有Hadoop开发经验者优先
  3. 参与过开源项目优先
  4. 有github和技术博客展示自己以往技术沉淀者优先

数据工程师
我们希望你热爱数据和算法,熟悉计算任务的开发和调度过程,对分布式数据存储和计算流程的优化实现有自己的心得。
工作职责:开发ETL过程,优化存储方案,设计并实现分布式计算任务,搭建数据处理流程。
要求:
  1. 熟练掌握Java/Python/C++至少一门编程语言
  2. 熟悉Shell Script和Linux操作
  3. 熟悉常用数据结构和算法实现
  4. 了解分布式系统构成,有Hadoop开发经验
  5. 优秀的沟通能力和合作精神
其他
  1. 有生物信息学/机器学习背景优先
  2. 有Spark/MPI等计算系统开发经验优先
  3. 参与过开源项目优先
  4. 有github和技术博客展示自己以往技术沉淀者优先

我们提供:
  1. 有竞争力的薪资和员工福利
  2. 员工期权激励
  3. 宽松自由的工作环境、工作午餐和无限零食

感兴趣请尽快发简历到 igenedock@gmail.com ,如果有个人作品和项目,也可以一并附上。

近几年内,国内公有云会怎么发展?

  我在知乎上回答了一个问题:近几年内,云计算会有怎么的发展?

     只说说公有云。对私有云不了解。

     1.最近云计算领域的关键词是“落地”。国内共有云基础设施将逐步成熟,领先的公司有望收支平衡。随着价格战的展开,泡沫落潮,没穿内裤的游泳者会逐步出局。

     2.地方政府推动的所谓云计算项目,会找公有云商业公司合作。前者擅长出钱、征地、修机房、买机器,并拉上来一些当地客户。而拥有技术和运营能力的商业公司,负责提供品牌、开发软件、部署系统、运维。

     3.越来越多的天使投资人和风险投资人会要求互联网创业团队在创业初期租用公有云。这比一开始就买很多硬件和带宽放在那里日日夜夜产生折旧成本,风险更小。支出成本与业务量之间线性相关,一旦业务转型包袱比较轻,这更符合财务投资的原则。

     4.Saas类的产品会再次迎来机会。此前的一些RCM、ERP、SCM软件的Saas化尝试不算特别成功,原因是业务模式只改了一半:客户这边变成了按需租用,但支出成本这边却仍然不变, 需要自己建机房买机器,这导致现金流循环的周期太长。有了底层Iaas和Paas供应商,Saas从业者可以按需租用,节省运维费用,成本就降下来了。

     5.移动智能手机的进展会促进云计算的发展。

     6.电子商务从业者方面,用数据仓库、数据挖掘技术支撑运营,会逐渐变成默认标配。中小电商不会投资独立设施,会租用云计算。

     7.弹性计算、云存储、大数据处理,这三大主题陆续都会变成红海。业者需要寻找新的技术和业务模式的创新。

     8 传统意义上的高性能计算的非互联网客户,例如物理、天文、地质、材料,生化等计算的市场,会逐渐往云计算平台上转,但这是一个漫长的过程。曙光6000和天河1号这样的超算中心将来还是会活的很滋润。两边各自擅长于不同的市场(IO密集型和计算密集型)。

跟上

  又来杭州开会了。zw说我像打了鸡血一样。

  《社交网络》里Mark Zuckerberg对好朋友Eduardo Saverin说,快过来和我们一起,要不然你就落下了,我需要你。可是后者始终没听懂。他连自己的Facebook主页都不会改。那种连接起来发生共振的感觉,敲代码入魔的感觉,从二楼滑入水中胡闹的感觉,他始终没法真正体会。

The Social Network

  下面视频源于豆瓣的版本管理系统里面的代码提交记录。那些大名鼎鼎的ID头像,以及周围烟花般绽放的代码,羡慕嫉妒恨。视频是由Code Swarm制作的,具体技术参考Xupeng的BLOG

离职

  大家都知道了,所以就提前在BLOG上写一下。

  我将于今年12月底从中科院计算所生物信息研究组离职。到阿里云计算公司任产品经理。

  2003年5月,人脸识别课题组招聘软件工程师。当时正值非典,面试当天只有我一个人到场,其他应聘者都被隔离了。于是幸运地得到了这份工作。此后2005年6月调入生物信息研究组负责pFind引擎的产品和架构。算起来,在计算所服务了8年多,做pFind超过了6年。这期间,读取了在职学位,发表了两篇SCI论文,申请了若干发明专利、软件著作权和商标,还成了计算所内部培训师,买了房,买了车,结婚生子,交了一大堆朋友,由生涩的毛头小伙儿变成了三十岁大叔。

  我进入pFind组的时候,pFind还是一个学术demo,BOSS H对我的要求很明确:让它能真正在生物研究一线用起来。经过pFind Team这些年的努力,pFind Studio共发布6个重要版本,累计开发20万以上C++代码和10万行的python或Java代码,申请10项发明专利。到2011年年初,pFind引擎已经在国内外63所大学、研究机构和公司安装,其中包括Duke University, MIT, NIH, UCSF, LICR, Thermo等。在此基础上构建了“哪吒”云计算平台,为多家生物研究机构提供在线服务。在pFind组的大多数日子里,我都是“跳着踢踏舞去上班”的。不是所有人都能把兴趣作为职业,拥有pFind这样一个平台去施展才干,我对此心怀感激。

  另一方面,从2000年本科时代参加创业大赛接触风投开始,始终怀有创业理想。很早前就在pFind团队里明言:“如果pFind失去了创业可能,我会在第一时间离开”。最近两年pFind在学术领域进展顺利,我与BOSS H进行了坦诚交流。由于pFind在接下来几年内肯定不会创办公司,所以我选择重回工业界。

  我可能在阿里云参与研发离线计算平台,和科学计算有关联。所以还有机会与生物信息的朋友们继续合作。

  工作地点还在北京,手机和私人邮箱等联系方式都不变。祝大家新年快乐。我会继续写BLOG。

创业者加油!

  经济危机前有朋友创业,写过BLOG祝好运。这两年身边不断有人下海

  刚刚听说本科同班同学zp和xjm两人正准备创业。虽然表面上毕业后的发展路径有所不同(一个出国留学,一个进入大国企),但最终殊途同归。说到底,都是坚持做技术,同时又有自己想法的人。

  他们公司名叫引众科技,主要提供企业虚拟化产品。例如Instant Cloud 2.0可以用于搭建类似EC2的虚拟主机。

  个人关心的是针对软件研发测试的解决方案。从pFind Studio产品开发现状来看,最头痛的是测试不同平台环境,例如不同版本操作系统:Windows和Linux的各种版本,32位/64位,中英文等 等。反复把各种OS版本在物理电脑上安装或恢复,这个测试成本是不可接受的。结合虚拟化和集成测试(CI),用无人值守的方式依次调出各种操作系统的虚拟 机副本,安装软件测试最终生成报告,这是大势所趋。

  进一步,对许多小团队来说采购软硬件还是经费不足。如果能解决安全信任问题,就可以采用资源租用的方式在互联网上提供云服务。我和zp聊天时,他们已有这个想法,但必须先看市场需求。

  听到老朋友创业很欣喜,又是有技术含量支撑的,就更值得顶一下。加油!

生物信息和云

  云计算在生物领域面临几个问题:首先是计算密集型和数据密集型的平衡,其次是授权管理和安全问题,第三是T级别甚至P级别海量数据的实时传输和分发。最近读了几篇相关论文,分享一下。

  Clare Sansom刚发表在Nature Biotechnology上的Up in a cloud?这 篇文章分析了美国市场上生物云计算的问题和趋势。云计算包含多种商业模式,目前亚马逊式的“公用云”租用已逐渐普及,租用计算资源的用户中生物领域占到了 一定比例。相比传统的超级集群租用,这种形式优势更便宜更灵活,能做为对外服务的基础。但安全性和授权管理还是制药公司和生物研究单位的顾虑之一。

  与此相关,Eric E. Schadt等人在Nature Reviews Genetics刚发表了一篇题为Computational solutions to large-scale data management and analysis的综述,更深入地对生物领域的云技术进行了汇总,介绍了超级计算机、网格计算、云计算和异构并行(GPU)技术在生物计算中的成功案例,并对比了其不同的应用特点。

  同时,Joel T Dudley和Atul J Butte在Nature Biotechnology发表了一篇文章,题为In silico research in the era of cloud computing, 主要从另外一个角度展开讨论。由于生物学研究越来越依赖大规模计算,同行间重复别人的工作面临着很多软件和计算问题。而可重复性 (reproducible)是现代学术体系的基石。作者希望利用虚拟机技术提供同行评议时的可重复性,同时又能保护必要的知识产权和技术机密。

  另外几篇,Michael C Schatz发表在Nature Biotechnology上的Cloud computing and the DNA data race,以及Monya Baker发表在Nature Methods上的Next-generation sequencing: adjusting to data overload,都主要涉及新的测序技术导致的数据剧烈膨胀。

  还看了Sector/Sphere作者在SC09(The International Conference for High Performance Computing Networking, Storage, and Analysis)上的论文Lessons Learned From a Year’s Worth of Benchmarks of Large Data Clouds。如果看过Sector/Sphere最早的论文, 再读这篇就比较轻松。这篇文章对Hadoop和Sector进行了更详尽的对比。相对源于Web搜索引擎的Hadoop,源于科学计算领域(在海量天体照 片中搜索可能存在的褐矮星)Sector先天具有一些特点:例如C++比Java的性能优势;例如可跨数据中心运行的安全机制;再例如UDT协议(UDP-based Data Transfer Protocol)比TCP协议在海量数据传输分发方面的优势……

  Sector/Sphere作者刚刚创业,建立了verycloud.com公司,提供云计算领域的咨询和定制开发。

  一直希望建立pFind“专有云”,向Google一样提供行业数据处理的在线服务引擎。因此,除了领域算法,还需要掌握一整套软硬件维护和运营能力。这很难,但如果成功,则不可替代性很强。不仅仅可以避免传统软件的桌面维护,避开盗版,让反向工程模仿成本大大增加。

  游戏产业放弃单机版转向网络云技术是一次成功的突围。生物信息能重复这个故事吗?

刺猬的两个偶像

  上一辈经历坎坷,上山下乡折腾,但老妈说,“每个人都有自己的精彩故事”。而我们以及更小的一代,吃全世界小孩都吃的KFC,看全世界小孩都看的Big Bang,玩全世界小孩都玩的星际2试用版,抢全世界小孩都抢的工作职位……这是前N代华人没有的幸福,也是一种致命的压力。对俺们来说,最重大课题就是必须搞清楚“我是谁,和其他人有啥不同”。

  马齿渐长,过了三十岁,同辈的朋友开始变:找到自己使命的,都安静下来不再焦虑了。

  说说俺的两个偶像:

  当初yang姐因某知名外企不准穿牛仔裤上班,愤而鄙视之,转投去了Google。每隔一段时间再联系,她总有成长。最近虽然公司卷在漩涡里,但yang姐嫁了人(恭喜,怨念),还支起了自己的iPod/iPhone软件生意,个人气场持续稳步增强。

  wl在2002年本科一毕业就果断买房,薪水减去房贷只剩几百块吃饭了。那时候班上其他同学根本没这根弦。反而到去年经济危机最厉害的阶段,他却卖掉了房子和汽车,开张了自己的女鞋买卖。现在也是做几十万流水的人了。

  我一向迟钝。yang姐提她的软件和Google AdWords时,Object-C还不像如今这么红得发紫;wl讲解女性消费,俺只能勉强跟得上。嗅觉灵敏的强人永远走在平庸之辈前面,悲剧呀。

  也好。连岳在一次访谈里讲:“我很晚熟,三十岁才差不多成熟”。这话给我不少信心。做不了狐狸,就老老实实做一只好刺猬吧。(也许是鸵鸟?哈)

流水帐.2009.11.11

  压力很大,有段时间没有写BLOG的心境。修养不够,乱发火,还需要磨练,还需要反省,还需要成长。

  投稿Journal of Proteome Research,被传说中的副主编不经同行评审直接拒稿。yb打电话聊天,安慰:有些人就是怀疑,认为中国大陆做不出那么出色的科研成果。其实还好,还好。宁愿相信是自己做得还不够牛。即使真涉及技术外的因素,是不是歧视,取决于你最终到底做成什么样。姚明得分超过30,巴克利就该kiss驴屁股,否则人家就是有先见之明。短暂抑郁,转投Rapid Communications in Mass Spectrometry。这次遇到的责任编辑还是06年投稿的那位,很快就进入peer review了。fy老大催着赶紧申请专利,否则文章一发表,就来不及了。

  瓶子哥在曙光5000A上测试,320核条件下,加速效率达到80%。欣慰。这段时间的交流,意识到随着分布式规模的扩大,pFind集群的特点逐渐向I/O密集型靠拢。也就是说越来越像web搜索引擎。明年要搞点MapReduce的尝试。另外购买4000块的昂贵显卡。一直在关注GPU在科学界的应用。生物制药、物理航天、天气地质、游戏娱乐……短时间出现了爆炸性的增长。计算机行业的一个有趣的特点就是,工业界常常跑在前面,搞出一些破坏性创新,给学术界造成了很大的压力。

  雪下得好大,积雪没过了鞋帮,咯吱咯吱的。大家注意身体,别H1N1。今天见到了好久没联系的jw。原来是班车11点还因为大雪堵在路上,他索性下车到我们这里交流。忙过这一阵,要去看看朋友们。当然,还是会逼着大家给pFind引擎提意见。

  在各种场合听到关于创业的讨论。创业当然主要跟钱有关,但是必须有一点钱以外的东西。Boss H说得对,一时的热情最容易消散。必须有点功利以外的理由,让自己在最痛苦时平静下来,坚持下去。

  douban.com在测试“豆瓣电台”,根据你的历史行为推荐音乐。上来就给我推荐了几首没听过的张震岳、周杰伦和涅磐。查了查,豆瓣在招聘“算法和数据挖掘专家”。应聘要求包括:“热爱探索和钻研,相信算法能够改变人们的生活;极佳的逻辑分析能力和学习能力,善于应对各种智力挑战;熟悉海量数据处理和挖掘的基本算法, 或有高性能科学计算的相关经验”。

生物信息和创业

  都知道我患有轻度创业妄想症,痴迷收集各种白手起家的离奇故事,狂热鼓动周围所有合适不合适的朋友下海。可俺手头的工作叫生物信息,传说中最阳春白雪,让热血青年丧失注意力的一种罕见菌类,哦不,我是说一种罕见学科。

  所以俺总在饭碗和理想之间寻找联系。

  以前就写过BLOG,猜测生物信息领域未来最可能的杀手应用。里面提到的23andMe其实是Google创始人的新婚妻子创建的。(Google两个创始人几乎同时结婚,娶的都是搞生物信息的博士)。今天在科学松鼠会看到一篇以玩笑口吻撰写的创业计划。笑过以后提醒你,并没有看起来那么荒谬,目前硅谷VC资助的生物信息创业公司,基本也就是这些路数。

  关于扫描基因取得个人倾向,05年想到时还很兴奋。其实已是老生常谈。电影GATTACA里性感美女谈恋爱的标准模式,就是拔根头,然后留下联系方式,“如果对我感兴趣,打电话”。你可以拿着头发去医院里算命:如果有孩子,得心脏病的概率是多少。

  BTW:伦理问题不是工程师的范畴,让哲学、社会学和法律专业的兄弟姐妹去头疼吧。最坏情况下,出现基因专利和昂贵的定制基因服务,就像刘慈欣《赡养人类》里的一号文明一样,富人和穷人逐渐演变成不同物种。