Category Archives: 流水帐

　　2013阿里大数据暑期学校的主题正是ODPS。我们将从ODPS底层的飞天大规模分布式系统讲起，为同学们分享研发ODPS平台的几项关键技术：平台框架和服务化、跨集群调度、Tunnel数据交换服务、BSP图编程模型、分布式SQL引擎、分布式数据分析和数据挖掘算法。授课的主讲人基本上都是ODPS开发团队一线的技术经理，并邀请了清华大学、中国科学院、浙江大学等知名高校的专家。欢迎相关专业的博、硕士研究生和高年级本科同学报名。名额有限，赶快点击http://102.alibaba.com/

　　这次课程中，《分布式大规模数据分析和数据挖掘算法》的主讲人是我们算法平台团队的大牛品数（杨旭）；而杭州站特有的《海量数据下数据挖掘实战》的主讲人是我们最主要的客户晓风（朱洪波）。强烈推荐！

阿里技术嘉年华要举行了，我们的主题报告和Workshop

1 Reply

　　2013阿里技术嘉年华将于7月13-14日在杭州举行。好多牛人带来技术分享。这里面和我工作直接相关的内容有下面两个：

　　13日上午，ODPS团队的高级产品经理水易（汤子楠）会在大数据主题论坛上做一个报告，介绍ODPS的产品设计思路、主要功能和基础技术架构。开放数据处理服务 (Open Data Processing Service, ODPS) 是基于飞天平台构建的离线大数据存储与分析系统，以云计算服务的方式实现海量数据的存储、分享与离线处理，在数据仓库构建、海量数据统计、数据挖掘、数据商业智能等应用领域有着广阔的应用前景。

　　14日下午，算法团队的高级专家品数（杨旭）会在Tech Loft主持一个workshop，讨论分布式数据分析算法。MapReduce模式在很多算法上已无法达到高效，如何扩展模式并使之与MapReduce统一调度？如何高效实现大数据算法？怎样定义数据结构？如何保证开发测试的质量？算法研发如何与业务紧密结合？希望更多人参与分享和讨论。

　　更多报告内容请参考这里，期待与大家交流。

准备休假

Leave a reply

　　这周在北京呆着，准备休几天假。像上次说的，春节之后这段时间太忙，需要充充电。

　　刚收到邮件，我在pFind组时申请的商标刚获批准。组里还给我一笔奖金。知识产权的积累是对5～10年以后的长远投资。希望pFind越来越好。

　　在工业界一段时间了，回过头看，学术界最大的问题是，常常感受不到哪些点是真实问题。这是过多知识和信息依赖文献阅读造成的。按照张五常的说法：某作者凭空想象给出一个案例，另一位引用，写下注脚，如是者转了三几次注脚，大家就把想象当作事实了！

　　结婚纪念日。以往都是在百度上搜索“鲜花”，然后点进去购买。这一次跑到淘宝搜索，按信用排序，最终在一家天猫旗舰店订的。价格便宜了很多，服务体验也好得多。据说这99朵白玫瑰一送去，老婆的同事们就要求她必须请吃饭。一淘刚刚超过百度，成为国内最大的搜索广告商。这次亲身体验，不由冒出好多关于生态环境的感慨。

　　上周“标签衍生”验收通过了，这是算法平台第一个大的关键业务系统落地。可是为什么没啥感觉呢？算法平台是个金子塔顶端的项目。无论是业务还是技术，如果没有周边诸多铺垫，肯定搞不成。我和sw说过，处在风口上猪也能飞起来，我特别害怕自己就真是那头猪，仅仅是在恰当的时机坐在了恰当的位置上而已，没有为这件事留下独特的贡献。产品落地了，恐惧却增大了。

　　所谓战略，就是想清楚不做什么。真正动脑子思考好难，发现大多数情况下，自己仅仅在转述别人的思想而已。

　　这两天和老大们交流。dh点拨我说，顺风顺水却开始焦虑，是因为又碰上台阶了，迈上去人就又成长一些。zn催促我实现说了好久的承诺，动手建个模。所以，休假回来啥事也不理了，就动手做这件事，给zn的承诺是六月底之前出结果。

似乎被黑了，求安全大侠支持

2 Replies

　　发现这个BLOG似乎被黑了，输出的RSS种子里总是带着卖药垃圾信息（也可能是我用的一些SEO插件不对头）。我正在备份数据，做些必要处理。接下来一段时间暂时不更新。

　　我不太懂安全，哪位安全大侠帮忙给点建议？

因为信任，所以简单

Leave a reply

今天坐杭州微车队的出租车到机场，快到了才发现现金不够，手机又没有电无法用支付宝。结果师傅和我说了一句：“因为信任，所以简单”，让我回去用支付宝给他。感动坏了。进了机场，找到电源和WIFI，赶紧用支付宝给人家打钱。

　　我在机场发了上面的微博。回到家手机充电，才发现这条微博已经被转爆了。这位师傅姓袁，后来又主动给我打了电话，说给他打的数额多了。我说，就是顺便输个整数，没别的意思，感谢对我的信任。很多杭州的朋友和他联系，这几天机场接送人日程全满了，还散了很多单给车队的兄弟们。下周我还会去杭州出差，还打算找他接我。

　　微车队是杭州出租车司机的自发组织。通过微信群互相联系。因为超过二百辆车动态调度，预约一般都很准时。安装专门的APP，因此到机场接机出现晚点的话，也能提前应付。车上提供免费WIFI，贴着每个司机的联系方式和支付宝二维码。师傅态度很好，据说有规矩：和客人吵架会被踢出群一段时间。

　　如果你和微车队的司机聊天，他们不像北京出租车司机那么喜欢议论政府，倒很像精明的江浙商人，愿意动脑子想办法提供优质服务，建立长久信誉，以此获得更高的收入。

平台需要生态系统

1 Reply

　　ODPS Sprint8发布了。算法平台也随之发布了很多新功能。

　　最近8个工作周累计只有1/4时间呆在北京，剩下的时间都在杭州。几乎每周都是周二飞到杭州，周末再飞回来。以至于偶尔在北京办公室露面，旁边同学们都问我：“这次到北京出差打算呆几天？”

　　例外是上个月底。每次Sprint发布之前都有这么一个阶段：从Word、Excell、Outlook里，从飞机场和会议室里逃出来。静下心，ssh连上跳板机，svn checkout，vi……写代码、加UT、提review、加班熬夜，重新变成一个程序员。这往往是整个产品周期里，比较平静的一周。

　　不过这次Sprint8我出错了，在逻辑回归的命令行指令里写出两个Bug来。不得不在发布后的几天里陷入煎熬，紧急打补丁。前天晚上HotFix折腾到23点。我离开办公室时，数据科学家团队还在继续加班。第二天3个基于我们算法的大数据模型按时上线。出自淘宝的工程团队，执行力很强悍。

　　作为平台，拥有生态环境是至关重要的：你有没有冲进客户业务里去，理解并搞定关键问题？反过来，别人能否沉到平台里面来，贡献代码和数据？有多大的器量就有多大的空间。找到靠谱的业务伙伴，应该在旁边摇着扇子、八抬大轿伺候着。

　　之前yy在客户现场呆了半年之久，帮客户重构了很多关键业务，获得了“数仓专家”的职业声誉。我去杭州，老大给我的指令是，像yy一样，扎进BI团队，成为合格的”数据科学家”。这事不容易，不过不会比杀小白鼠更难。

　　工作上好久没这么发狠了。

　　飞机上看完了《质数的孤独》。作者是个粒子物理学博士，处女作就获得斯特雷加奖。这本小说的页码不是连续的，而是质数序列：2,3,5,7……所有文艺作品都涉及孤独，因为孤独很普遍，这一部写得尤其彻底。

杀到一线去，吃自己的狗粮！

1 Reply

　　昨晚开会到23:30，漫长的一天。近两个月算法平台进展很快，压力也越来越大。把问题抛出来过一遍，也就放松了。得感谢团队给我成长空间。

　　今天收拾行李，继续飞杭州。接下来会在业务一线呆着，和数据科学家们泡在一起。学习金融信用评级，动手做数学建模，“吃自己的狗粮”。

　　兴奋，这种感觉有点像当年做pFind的时候，搬着服务器去生物学家那里安营扎寨，和他们一起杀老鼠做实验。以前总结过，交流多，创新就多。对个人也是很好的提高机会。

joyfire 王乐珩地雷

有事多Google，没事少上网

Category Archives: 流水帐

周末ADC见！

的确是被黑了，请亲友们注意安全

提醒：别忘记从Google Reader迁移

2013阿里大数据暑期学校开始报名了

阿里技术嘉年华要举行了，我们的主题报告和Workshop

准备休假

似乎被黑了，求安全大侠支持

因为信任，所以简单

平台需要生态系统

杀到一线去，吃自己的狗粮！