这周末的阿里技术嘉年华,貌似很多老朋友都会参加。14日“大数据技术与应用-A”的Workshop,我是现场主持人,欢迎大家来聊天。
我们在招人,alidata算法团队为缺人痛苦,北京杭州两边都是,有数学背景又喜欢写分布式程序的同学,赶快找我帮你内部推荐!
这周末的阿里技术嘉年华,貌似很多老朋友都会参加。14日“大数据技术与应用-A”的Workshop,我是现场主持人,欢迎大家来聊天。
我们在招人,alidata算法团队为缺人痛苦,北京杭州两边都是,有数学背景又喜欢写分布式程序的同学,赶快找我帮你内部推荐!
上次BLOG提到,怀疑自己被黑了。最近一直在查这件事。
今天收集到一些信息,请公司里的安全高手帮忙看了看。(上一篇BLOG其实是我做的实验)。确认的确是被黑了。黑客还挺狡猾,在程序里设置了判断,从Cookies发现是我本人在访问这个网站,则一切显示正常,否则就显示乱七八糟骗人的内容。
我的各种密码也许已经泄漏,昨天发现有人在试验修改我工作帐号的设置。各位亲友如果对从我的网站、邮箱、旺旺、手机发出来的信息有疑惑,请及时和我本人联系。建议大家更换自己常用的重要上网密码。
WUWU~,这个世界真不安全,我还是回火星吧。
直拖到最近两天,我才从Google Reader迁移到feedly。也提醒BLOG读者别忘记从Google Reader迁移到替代产品。7月1日就不能用了。这些天各种Reader都在抢客户。
自主研发的ODPS是阿里数据交换平台(DXP)的重要组成部分,支撑着阿里金融、淘宝指数、数据魔方等关键业务。
2013阿里大数据暑期学校的主题正是ODPS。我们将从ODPS底层的飞天大规模分布式系统讲起,为同学们分享研发ODPS平台的几项关键技术:平台框架和服务化、跨集群调度、Tunnel数据交换服务、BSP图编程模型、分布式SQL引擎、分布式数据分析和数据挖掘算法。授课的主讲人基本上都是ODPS开发团队一线的技术经理,并邀请了清华大学、中国科学院、浙江大学等知名高校的专家。欢迎相关专业的博、硕士研究生和高年级本科同学报名。名额有限,赶快点击http://102.alibaba.com/
这次课程中,《分布式大规模数据分析和数据挖掘算法》的主讲人是我们算法平台团队的大牛品数(杨旭);而杭州站特有的《海量数据下数据挖掘实战》的主讲人是我们最主要的客户晓风(朱洪波)。强烈推荐!
2013阿里技术嘉年华将于7月13-14日在杭州举行。好多牛人带来技术分享。这里面和我工作直接相关的内容有下面两个:
13日上午,ODPS团队的高级产品经理 水易(汤子楠)会在大数据主题论坛上做一个报告,介绍ODPS的产品设计思路、主要功能和基础技术架构。开放数据处理服务 (Open Data Processing Service, ODPS) 是基于飞天平台构建的离线大数据存储与分析系统,以云计算服务的方式实现海量数据的存储、分享与离线处理,在数据仓库构建、海量数据统计、数据挖掘、数据商业智能等应用领域有着广阔的应用前景。
14日下午,算法团队的高级专家 品数(杨旭)会在Tech Loft主持一个workshop,讨论分布式数据分析算法。MapReduce模式在很多算法上已无法达到高效,如何扩展模式并使之与MapReduce统一调度?如何高效实现大数据算法? 怎样定义数据结构? 如何保证开发测试的质量? 算法研发如何与业务紧密结合? 希望更多人参与分享和讨论。
更多报告内容请参考这里,期待与大家交流。
这周在北京呆着,准备休几天假。像上次说的,春节之后这段时间太忙,需要充充电。
刚收到邮件,我在pFind组时申请的商标刚获批准。组里还给我一笔奖金。知识产权的积累是对5~10年以后的长远投资。希望pFind越来越好。
在工业界一段时间了,回过头看,学术界最大的问题是,常常感受不到哪些点是真实问题。这是过多知识和信息依赖文献阅读造成的。按照张五常的说法:某作者凭空想象给出一个案例,另一位引用,写下注脚,如是者转了三几次注脚,大家就把想象当作事实了!
结婚纪念日。以往都是在百度上搜索“鲜花”,然后点进去购买。这一次跑到淘宝搜索,按信用排序,最终在一家天猫旗舰店订的。价格便宜了很多,服务体验也好得多。据说这99朵白玫瑰一送去,老婆的同事们就要求她必须请吃饭。一淘刚刚超过百度,成为国内最大的搜索广告商。这次亲身体验,不由冒出好多关于生态环境的感慨。
上周“标签衍生”验收通过了,这是算法平台第一个大的关键业务系统落地。可是为什么没啥感觉呢?算法平台是个金子塔顶端的项目。无论是业务还是技术,如果没有周边诸多铺垫,肯定搞不成。我和sw说过,处在风口上猪也能飞起来,我特别害怕自己就真是那头猪,仅仅是在恰当的时机坐在了恰当的位置上而已,没有为这件事留下独特的贡献。产品落地了,恐惧却增大了。
所谓战略,就是想清楚不做什么。真正动脑子思考好难,发现大多数情况下,自己仅仅在转述别人的思想而已。
这两天和老大们交流。dh点拨我说,顺风顺水却开始焦虑,是因为又碰上台阶了,迈上去人就又成长一些。zn催促我实现说了好久的承诺,动手建个模。所以,休假回来啥事也不理了,就动手做这件事,给zn的承诺是六月底之前出结果。
发现这个BLOG似乎被黑了,输出的RSS种子里总是带着卖药垃圾信息(也可能是我用的一些SEO插件不对头)。我正在备份数据,做些必要处理。接下来一段时间暂时不更新。
我不太懂安全,哪位安全大侠帮忙给点建议?
|
今天坐杭州微车队的出租车到机场,快到了才发现现金不够,手机又没有电无法用支付宝。结果师傅和我说了一句:“因为信任,所以简单”,让我回去用支付宝给他。感动坏了。进了机场,找到电源和WIFI,赶紧用支付宝给人家打钱。 |
我在机场发了上面的微博。回到家手机充电,才发现这条微博已经被转爆了。这位师傅姓袁,后来又主动给我打了电话,说给他打的数额多了。我说,就是顺便输个整数,没别的意思,感谢对我的信任。很多杭州的朋友和他联系,这几天机场接送人日程全满了,还散了很多单给车队的兄弟们。下周我还会去杭州出差,还打算找他接我。
微车队是杭州出租车司机的自发组织。通过微信群互相联系。因为超过二百辆车动态调度,预约一般都很准时。安装专门的APP,因此到机场接机出现晚点的话,也能提前应付。车上提供免费WIFI,贴着每个司机的联系方式和支付宝二维码。师傅态度很好,据说有规矩:和客人吵架会被踢出群一段时间。
如果你和微车队的司机聊天,他们不像北京出租车司机那么喜欢议论政府,倒很像精明的江浙商人,愿意动脑子想办法提供优质服务,建立长久信誉,以此获得更高的收入。
ODPS Sprint8发布了。算法平台也随之发布了很多新功能。
最近8个工作周累计只有1/4时间呆在北京,剩下的时间都在杭州。几乎每周都是周二飞到杭州,周末再飞回来。以至于偶尔在北京办公室露面,旁边同学们都问我:“这次到北京出差打算呆几天?”
例外是上个月底。每次Sprint发布之前都有这么一个阶段:从Word、Excell、Outlook里,从飞机场和会议室里逃出来。静下心,ssh连上跳板机,svn checkout,vi……写代码、加UT、提review、加班熬夜,重新变成一个程序员。这往往是整个产品周期里,比较平静的一周。
不过这次Sprint8我出错了,在逻辑回归的命令行指令里写出两个Bug来。不得不在发布后的几天里陷入煎熬,紧急打补丁。前天晚上HotFix折腾到23点。我离开办公室时,数据科学家团队还在继续加班。第二天3个基于我们算法的大数据模型按时上线。出自淘宝的工程团队,执行力很强悍。
作为平台,拥有生态环境是至关重要的:你有没有冲进客户业务里去,理解并搞定关键问题?反过来,别人能否沉到平台里面来,贡献代码和数据?有多大的器量就有多大的空间。找到靠谱的业务伙伴,应该在旁边摇着扇子、八抬大轿伺候着。
之前yy在客户现场呆了半年之久,帮客户重构了很多关键业务,获得了“数仓专家”的职业声誉。我去杭州,老大给我的指令是,像yy一样,扎进BI团队,成为合格的”数据科学家”。这事不容易,不过不会比杀小白鼠更难。
工作上好久没这么发狠了。
飞机上看完了《质数的孤独》。作者是个粒子物理学博士,处女作就获得斯特雷加奖。这本小说的页码不是连续的,而是质数序列:2,3,5,7……所有文艺作品都涉及孤独,因为孤独很普遍,这一部写得尤其彻底。
昨晚开会到23:30,漫长的一天。近两个月算法平台进展很快,压力也越来越大。把问题抛出来过一遍,也就放松了。得感谢团队给我成长空间。
今天收拾行李,继续飞杭州。接下来会在业务一线呆着,和数据科学家们泡在一起。学习金融信用评级,动手做数学建模,“吃自己的狗粮”。
兴奋,这种感觉有点像当年做pFind的时候,搬着服务器去生物学家那里安营扎寨,和他们一起杀老鼠做实验。以前总结过,交流多,创新就多。对个人也是很好的提高机会。