从阿里辞职创业两个月了，忙得没心境写BLOG。实在对不起订阅者。今晚给wangleheng.net域名续费，顺便上来敲两句，免得大家以为这里死掉了。接下来的更新节奏会逐渐恢复正常。

　　先傲娇一下！念念不忘好多年，终于迈出关键一步。给自己点个赞。一个已经创业的本科同学给我发来贺电：“尝试改变世界，或者等死。很高兴又出现一个人选择了前者！”

　　回来继续写总结。2014年初的这篇BLOG已明确提到今年要做的两件事：完成ODPS对外开放商业化，然后着手准备离职创业。现在看都做到了。我给自己打个90分。扣掉的那10分源自ODPS商业化过程中出现的大量问题。经验教训记住了。同事朋友们的善意也记住了。

　　关于新公司的行业背景和介绍，可以参考我们在Qcon上的分享和图灵专访。目前在宇宙中心——回龙观的居民楼里，距离地铁站步行2分钟，逆峰上下班。下面这张是我们的门神。

　　我们在招人。点这里看职位。公司提供机械键盘，人体工程学椅子，多显示器，不限量vpn，正版开发环境…这些要求对程序员来说并不过分！牛人把要求在简历里列清楚，我们赶快办入职手续吧：）也好尽早给推荐你的朋友发iPhone6。什么？女王范的美女产品经理？这个…快有了快有了…

　　互联网创业，工号是个位数的员工大都是在A轮之前加入的。这些同学的工作能力未必Top 1%，但往往拥有清晰的决策树，知道平衡点在哪儿，知道自己不要什么。观察每个人如何取舍、如何谈判并最终入伙是一件很好玩的事。Welcome aboard，各位GDer！系好安全带，这会是一段奇妙的回忆。

　　至于我自己，纠结的时间不长。答应合伙人会出来一起创业的那天晚上失眠了，毕竟要放弃很多，例如大笔阿里股票，后来在手机上给某慈善基金会捐款了100块，平静下来，然后去睡觉。从那天开始，每天都比前一天更确定自己的选择是正确的。

　　其实最近看到大量阿里的同学都出来。其中玄橙老大也看好生命科学这个行业，加入了即将上市的华大基因。他还写了一篇文章回忆叛逃的过程，据说最早还是被我忽悠的。

　　如果你对创业感兴趣，又不太了解。推荐9月起YC的新主席Sam Altman与Stanford联合开的一门创业课，叫“How to start a startup”。我每晚和女儿玩游戏、哄她睡以后，就在手机上听一课。收获很多。这里是视频课程的网站。另外，罗胖在《逻辑思维》这一期视频讲得也很有趣。还有，我在读Startup: A Silicon Valley Adventure

　　2015年要来了，祝大家都离自己的梦想更近一步。

列书单2014.10.12

2 Replies

　　今年逛书店和买书的次数很少。下面是到目前为止买的部分书。有马尔科姆·格拉德威尔的《异类》，萧红的《呼兰河传》，托妮·莫里森的《所罗门之歌》，阿兰·德波顿的《写给无神论者》和《亲吻与诉说》，艾丽丝·门罗的《逃离》，迈克尔·道布斯的《纸牌屋》，朱锡庆的《知识笔记》，朱德庸的《大家都有病》和《大家都有病2》，Dan Sanderson的《GAE编程指南》，千叶滋的《两周自制脚本语言》，桂曙光的《创业之初你不可不知的融资知识》

谈谈ODPS商业化（六）：ODPS小伙伴SLS和DPC

2 Replies

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

　　在典型的大数据解决方案里，除了以ODPS这样的离线分布式计算引擎为核心，周边还需要日志收集、开发IDE、工作流调度、数据质量监控、BI报表等等一系列配套机制。因此ODPS用户往往还会对SLS和DPC等服务感兴趣。

　　先说SLS（简单日志服务），这是阿里云提供的针对日志收集、存储、查询和分析的云服务。用户只需简单地配置日志产生的位置和格式等信息就能实时查询海量日志。用户也可以把SLS日志归档保存到ODPS中做更多数据分析。

　　简单来说，SLS提供一个名为Logtail的客户端，把它部署到需要监控的机器上（阿里云云主机默认安装），配置好以后，Logtail会定时把本地的日志文件（例如Web Sever的access_log或DB的bin-log）上传到后端的RESTful API，然后用户就可以在后台利用SLS对日志进行简单的实时过滤和处理。CNZZ就基于SLS进行全网日志数据的收集。更多SLS细节请参考官方主页。

　　SLS在ODPS里面有一个project名叫sls_log_archive，用户打开推送功能后，SLS会定时把数据推到特定名字的表里（Project+Category），用户可以再执行一个简单的SQL把数据拖到自己的Project里。可以参考这篇用户文档。然后用户就可以写SQL把数据导入自己的Project，下面是个简单的SQL例子,第一句是在自己project创建一个表，第二句是创建相应时间段的partition，第三句是导入数据

　　CREATE TABLE mylog LIKE sls_log_archive.XXXXXXX;

　　ALTER TABLE mylog ADD PARTITION(__partition_time__=’2014_06_24_12_00′);

　　INSERT OVERWRITE TABLE mylog PARTITION (__partition_time__=’2014_06_24_12_00′)
SELECT __source__, __time__, __topic__, _extract_others_ FROM sls_log_archive.XXXXXXX where
__partition_time__=’2014_06_24_12_00′;

　　日志数据导入ODPS，就可以利用它的强大能力深入分析SLS收集上来的日志。这里有一篇BLOG很值得推荐。

　　接下来介绍DPC，它是基于ODPS的DW/BI的工具解决方案。DPC提供全链路的易于上手的数据处理工具，主要提供如下四种能力：
　　1.把各种数据源的数据（例如RDS）拖拽到ODPS
　　2.提供IDE开发界面和SQL代码管理能力
　　3.任务调度功能
　　4.通过拖拽和可视化的方式进行数据分析，并通过BI报表进行数据可视化展现。
　　有了DPC，可以大大降低ODPS用户在数据仓库和商业智能项目上的实施成本，加快实施进度。天弘基金、高德地图的数据团队基于DPC完成他们的大数据处理需求。更多DPC细节可以参考官方主页

　　有了ODPS+SLS+DPC小伙伴，就可以支持典型的大数据工作场景了：日志收集、数据开发和定时生产。还有更多ODPS小伙伴正在开放的路上，例如流计算和实时查询，请大家关注阿里云网站。

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

怎么看待互联网公司进入医疗健康业？

1 Reply

　　先看个好玩的。下面播放的这个名为Big genomic data on Google Cloud Platform的视频（在youtube上，得翻墙）简单介绍了如何通过Google的基础设施，例如Genomics API、BigQuery和 GAE Mapreduce ，在云端处理基因大数据。那个分析基因的BigQuery SQL代码例子你看懂了吗？

　　知因上有个问题：昨日爆出腾讯7000万美元投资中国最大的医疗健康互联网公司丁香园；雅虎将于今年10月正式启动个体基因数据库“HealthData Lab”项目；不久前，Google X部门启动 “基线”研究项目绘制健康人体图谱。你怎么看待互联网公司进入医疗健康业？他们在未来的医疗健康行业会起到怎样的作用？随着互联网公司的涉足，未来医疗健康行业又将如何发展呢？（原文链接）我做了如下回答：

　　算是和这个问题有点的关系的人。此前有好多年在科研机构里搞生物信息学。然后跳到互联网公司里做云计算。现在正准备跳出来创业，搞健康大数据和云计算。

　　感觉最大的区别是人的思维方式。互联网是竞争和变化非常激烈的行业，追求高效、专注、开放，有很多应对资本和人才流动的游戏规则。而生物制药这边，套路还有点传统。

　　举个例子，互联网出来的人创业，首先考虑的是怎么把自己做薄，把能放弃的都外包出去，专注于自己的最大优势。而传统健康领域出身的创业团队搞某件事，例如基因测序，思考方式似乎仍然比较宏大，停留在再造另外1个或者0.5个华大基因：测序仪，服务器，算法研发，数据分析，网络营销，地面推广，健康诊断，个性化医疗……

　　再举个例子，我没看到基因测序行业特别担心一线技术人员流失和跳槽，至少他们没有采取很明显的激励措施：提高工资、赠送期权、鼓励和参与员工进行内外部再次创业等等。相关专业的毕业生，例如生物信息，平均士气并不高，找工作的时候对未来普遍很迷茫。

　　未来会怎样？我不知道，至少目前阶段，互联网出身的人还处于劣势，他们不了解医药健康行业的特点和细节，缺少体系内的人脉和资源。但这些鲶鱼至少激发了整个行业的思考。让我们一起加油，看看两三年以后会变成什么样？

　　顺便发点小广告，我们在招人：http://knowgene.com/article/136

健康大数据创业团队诚邀您的加入

谈谈ODPS商业化（五）：华大基因在ODPS上做的试验

3 Replies

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

　　由于我正在着手做生物信息云计算方面的工作，很多信息不方便透露，这篇会很短。有兴趣的同学请找我线下交流。不过在阿里云上做基因测序创新的同学们不必担心，阿里云没有野心、也没有能力成为一个提供完整基因测序计算服务的公司。相反，ODPS等等产品一定是做底层通用平台该做的事，帮助生物信息应用上云更方便，和创业者们一起成长。

　　回来开始说华大基因在ODPS做的试验。以前写过一篇博客提到过这件事。

　　将基因测序仪输出的上亿条DNA片段拼接为基因组长序列，这个过程可以看作在一个超大规模的拓扑图上寻找欧拉路径。人类基因组包含30亿个碱基，目前基因测序一般会做30倍到50倍的扩增。利用典型的单机组装软件至少需要256GB的内存才可能完成基因组装，时间长达数天。

　　ODPS Graph Task是面向迭代的拓扑图算法处理框架，提供类似Google Pregel的BSP并行编程模型。正适合支持一些超大规模拓扑图算法。

　　去年10月5K项目测试期间，华大基因的生物信息专家基于ODPS Graph Task开发了一套基因拼接算法，在E.coli（大肠杆菌）、Bombus（熊蜂）和Yanhuang（人类）三个物种的测试集上均取得了非常高的加速比。

　　此前一直关注Google在生物信息领域重兵投入。自从Google Genomics API推出，形势就更加明确了。另外一边，据称亚马逊AWS美国有1/4的客户来源于生物制药行业。生物信息显然是云计算的重要业务增长方向。随着全球第一张基因测序临床牌照的颁发，已经可以看到国内大量围绕基因测序的创业项目起来了。目前ODPS团队正在和多个生物信息领域的合作伙伴一起努力，把各种生物信息经典算法和数据处理流程搬到云上来。如果你正在做这方面的产品、创业，欢迎和我联系，阿里云会尽可能提供关键帮助。

　　另外我刚刚在知乎和知因同时发起了问题：生物信息还需要云计算提供什么样的功能？生物信息应用上云，你碰到了哪些问题？现有的阿里云、亚马逊AWS云计算基础设施需要做哪些改进，为什么？目前你用的最多的云产品和Web Service API是哪些？等待你的真知灼见：
　　知乎：http://www.zhihu.com/question/24719395
　　知因：http://www.knowgene.com/question/1639

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

谈谈ODPS商业化（四）：2014阿里巴巴大数据竞赛

1 Reply

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

　　几天前2014阿里巴巴大数据竞赛刚刚落下帷幕，第11名的F1分数、准确率和召回率是6.10%、6.28%和5.93%。前10名的成绩还未公布，他们会被邀请到阿里巴巴公司来，有机会和内部团队一起参与双11。选手们闲下来，开始在群里爆特征、开玩笑、交换联系方式。

　　这次海内外共有7276支队报名。比赛分为多个阶段：S1是线下海选，从S2开始上ODPS，每月底淘汰末位的100支队,直到7月31日尘埃落定。选手们需要像阿里数据分析师一样工作，完全依赖云端的ODPS平台上的SQL、Mapreduce和Xlib/Xlab算法工具处理大数据，E2E完成建模全过程：划分训练集和测试集，选择模型，抽取特征，处理过拟合，采样正负样本（向上采样、向下采样），调参，特征和目标值的处理，模型融合……几个月下来，有不少同学分享了心得和感悟：

　　来着如临高山，往者以观逝水
　　成也solo，败也solo
　　事非经过不知难
　　大数据竞赛所历所思。
　　点说那些年参加过的竞赛
　　 STO_OTZ队的比赛流水账以及心得感悟
　　那些在坑里翻滚的日子
　　一场比赛、一组数据、一个梦想
　　 ODPS SQL 构建离线评估
　　超级啰嗦版ODPS MapReduce入门
　　第一季总结：LR入门
　　阿里大数据竞赛season1总结

　　有次看到阿里云后台的客服工单：“想实现逻辑回归分类算法，使用随机梯度下降算法来优化参数，怎么在大规模分布式系统下实现？你们的xlib已经有了，我就是想问问^_^”。阿里云的售后支持mm真心累啊。发了一条微博说：下次再有这种调戏就回答“想知道吗，给我们投简历吧。”结果第二天就有参赛选手分享了这篇博客：在MapReduce中实现随机梯度下降法（这篇文章对算法实现原理写得很清楚了，但用Mapreduce编程模型实现迭代类算法性能是很弱的，大多数人还是直接用Xlib实现好了的逻辑回归、随机森林、GBRT等算法）。

　　还有好玩的，有一位在台湾上学的参赛者利用S1的参赛队的排名信息深入分析了一番，写了这个：阿里大数据 – 中国好大学

　　比赛筹备一年多，很辛苦，很成功，恭喜得福和一婷。对于即将毕业的学生来说，关注并参与这次比赛，能深入体会工业界数据分析师的工作场景。另外，除了比赛内容本身，我想提醒读者注意天池平台。数据交换的业务模式已经开始萌芽。

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

谈谈ODPS商业化（三）：阿里金融的业务

4 Replies

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

　　阿里金融是ODPS第一个用户，业务发展很快，备受关注。网上能找到很多报道，例如以前一篇BLOG引用过《一笔B2B贷款的旅行》。近期又披露了A-GDS系统和水文模型，大家可以自己搜索（作为参与者，终于能把这些曾经保密的词写在公开渠道，真爽）。通过这些已经能大体了解到阿里金融如何利用海量数据挖掘信息，并据此确定信用风险和额度并发放贷款。所以这篇BLOG会短一些。

　　阿里金融团队里，程序员和数据分析师占绝大多数。这些同学都在ODPS上忙什么？

　　金融的核心是对风险进行量化评估。举个例子，发信用卡给某人，必须先拿到对方的信息，根据各种指标进行打分，估算出这个人赖账的概率，评估期望收益减去成本之后的盈利空间，并确定授信额度。通过特征计算信用额度是一门专业的金融建模技术，称为“信用评分卡”。大家可以到豆瓣上搜一些经典教科书。“信用评分卡”一般是由一系列的特征选择、回归统计和评价算法组成。

　　传统金融行业能获得一个人的信息是有限的，几页纸的表格资料就填写好了：生日、性别、教育、婚姻、城市、单位、职称、收入、财产、负债、健康……所以传统的信用评分卡模型，输入训练集的特征矩阵也就上百列。同样的方法拿到互联网企业来用，嗯，我们能收集你这个人的一切数据：用iPhone还是Android，接收包裹的地址是高档小区还是地下室，在天猫旗舰店买首饰和包包有多腐败……如果你是淘宝或B2B卖家，支付宝里赚到的每一笔现金流都可以反映你的还债能力，甚至会测评你对假设情景的掩饰和撒谎程度。于是信用评分卡模型就必须能处理好几百万列的特征矩阵。而且，疯狂的数据科学家们想到，每月、每周甚至每天的授信额度都应该动态调整，就像江河里的水位一样随季节涨落，例如双11之前，根据往年的数据预测，模型会自动给电商卖家逐步调高额度，而春节之前又降到最低（这也是“水文”模型名字的来历）。

　　业务需求如此，海量数据必须要存，要过滤，要计算，要建模，包括调度和监控、授权和审计、数据质量控制、元数据管理等重要问题都要有解决方案。于是神说，要有ODPS，要有水文模型，要有A-GDS。

　　阿里金融的生产流程都在晚上跑，是典型的数仓场景：把上游数据定时拖进来，ETL清洗整理后进入数据仓库，然后针对上层业务提供垂直的数据集市。每天离线作业完成之后，数据就会被灌入OTS和RDS这类在线服务，为日常业务提供支持。而在白天，分析师们使用SQL进行数据探查，写程序或调用统计机器学习的工具包进行数据挖掘和建模，并把开发测试好的模型发布到线上生产。

　　阿里金融在ODPS上每天处理30PB数据，800亿个信息项，运算100多个数据模型。ODPS上的信用评分卡模型（以逻辑回归为核心的十几个算法组成的建模流程）一般会跑上百万维特征，上亿行样本的训练集。有了强大平台的支持，阿里金融就可以给没有资产可抵押的小微企业发放贷款，每一笔贷款成本是传统银行的1/1000，且坏账率非常低。

　　写到结尾，我终于可以像购物节目里面的亢奋主持人一样说点煽情的：“ODPS可以120%的满足你的所有梦想，现在打开电脑，登陆www.aliyun.com，展开你的神奇大数据之旅吧！”

　　顺便提一下，其他金融类业务也都在用ODPS了。余额宝前两天在微博上发了一组好玩的数据统计，“广东、山东、河南男人们的私房钱最多”。

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

joyfire 王乐珩地雷

有事多Google，没事少上网

《教父》、公务员和创业

Rudy Wang的博客

2014再见！

列书单2014.10.12

谈谈ODPS商业化（六）：ODPS小伙伴SLS和DPC

怎么看待互联网公司进入医疗健康业？

健康大数据创业团队诚邀您的加入

谈谈ODPS商业化（五）：华大基因在ODPS上做的试验

谈谈ODPS商业化（四）：2014阿里巴巴大数据竞赛

谈谈ODPS商业化（三）：阿里金融的业务