Monthly Archives: November 2009

友情宣传stdyun.com

　　有需要的朋友去stdyun.com购买虚拟主机吧。

　　其实只见过张沈鹏两面，他没让我帮忙宣传。这里纯粹是自发的友情支援。为了让这篇BLOG显得不要太水，再写点八卦话题吸引眼球，哈。

　　老张刚离开豆瓣去那个让男青年们起歪念头的美空网的时候，我问他以后打算干啥，他平淡地说，先卖卖虚拟主机吧。摸不着头脑，所以一直保持关注。stdyun.com推出来一踅摸，没那么简单，还在开发更好玩的应用。你看首页那段邪恶的《网络创世纪》，虚拟主机仅仅是教主的第一步。

　　回来说现成的东西。stdyun.com提供的虚拟主机最合适python项目。为教育入门级用户，还专门写了本风格很恶搞的新手教程。另外，limodou大神已经把Uliweb轻松移植上去了。

　　正因为这个，前两天CSDN首页挂出“google限制Python项目”的新闻专题，老张就只好发声了。Beta技术沙龙的时候，他这篇BLOG被用来挤兑新官上任的刘江老大

　　在国内靠技术创业不容易，加油！

参加Beta技术沙龙，主题是推荐系统

2 Replies

　　周日去奇遇花园参加Beta技术沙龙，这次主题是“推荐系统在大型网站中的应用”，是和Resys合办的（说起来俺也起了点儿牵线搭桥的作用，哈）。推荐系统果然很热门，参与的人比以前都多。

　　第一个主讲人是dangdang网的技术总监王洪涛。从产品经理的角度介绍了dangdang的推荐系统。从业务需求的视点去看，实现什么算法反而不那么重要了，关键在于整体把握。网站做到什么程度需要引入哪一类的推荐系统？如何评价系统的效果？另外对用户体验的拿捏也是个重要问题，必须既给用户惊喜，又不讨人烦。

　　接着讲座的是付超群，以前在新浪音乐开发推荐系统。他从技术上介绍了推荐算法和工程实现。主要涉及了关联分析、slope one和SVD三种算法，内容很足，言简意赅没废话，我个人很喜欢这个报告。

　　国内评价和推荐做得最好的应该是豆瓣。有人问dangdang是否考虑在书评挖掘方面深入做些事。我想，豆瓣的领先地位，除了源于技术，更重要的是来自 “第三方”的超然位置所带来的高质量评价内容，以及这些评价数据背后的深度参与人群。王洪涛回答时也说，dangdang上的书评，很多是抱怨送货和售后服务的，而豆瓣就没有这个包袱了。其实单个企业很难全面覆盖产业链条，合作共赢才是正理。

　　顺便提一下，企业的技术形象很重要。dangdang站内搜索的口碑不好。结果每次圈子里交流，他们的工程师总是有点尴尬，心虚郁闷的样子，忍受周围的朋友拿各种雷人的搜索结果开涮。物质待遇以外，工程师还很需要专业上的自豪感和认同感。

生日和数学

2 Replies

　　今天pFind组里两个人同时过生日。大家买了个黑森林蛋糕庆祝。

　　吃蛋糕前，BOSS H问pFind组共17个人中出现生日重复的概率。我算的方式是1-(364/365)*(363/365)…*((365-16)/365)，大概应该是31.5%，可能性还是蛮高的。

　　然后切蛋糕，可吃蛋糕的次序怎么决定呢。于是玩猜数字游戏。屡战屡败，倒数第三个才吃上，哇哇哭。

　　请寿星之一发表XX岁感言，他说：“XX是个素数。”

　　怎么感觉像The Big Bang Theory里的情节？郑重声明：俺是正常的工程师，和这帮博士不是一伙的。

Hadoop in China 2009印象

Leave a reply

　　昨天Hadoop in China 2009在计算所召开。有主场之利，就混进去听了。把印象最深的内容写一写。

　　总体感觉规模很大，组织相当严谨，内容具有多样性。一方面，Hadoop in China前身是开源社区的线下技术沙龙，骨子里带有草根性，相当多的报告都是年轻的一线工程师在讲实实在在的最新项目；另一方面，这次又请来一些拥有行业视角的大公司技术高层，分享了不少全局信息。

　　第一个超出期望的是中国移动研究院院长黄晓庆。原以为礼貌上请赞助单位发言，不差钱的央企，“大云”肯定是炒概念。没想到还真讲了些好玩的研发内容，甚至对Hadoop内核做了不少改进。正因为有实际工作而且打算开源，所以就有深入的思考： “下面是我对开源社区的建议。首先，Hadoop应该更全球性。很高兴看到72%的贡献来自Yahoo!，但这对Hadoop长远发展并不是最好的，Hadoop用户应该提供更多贡献。另外，希望建立基于开源社区的云计算规范标准，使应用不只绑定在某个特定平台上。”报告英文很流利，讲得台底下的 Yahoo!技术高层直点头。

　　来自Facebook的报告特别吸引人。除了技术本身，数据仓库这种应用场景也很酷。底层设施需要按照 ETL、数据挖掘和决策支持的特性进行调整，例如利用Hive支持SQL，以便商业分析人员使用。查了一下，已经有三篇论文引用Hive，都是比较顶级的会议。相对我个人而言，以往关注都限于搜索引擎范围内。这次意识到Hadoop已经被用于很多领域。

　　Cloudera帅帅的创业者（长发，山羊胡子，真的很Geek）列出了Hadoop的应用领域：像NTT KDDI和中国移动这类的电信公司用Hadoop分析用户信息，优化网络配置；美国供电局用Hadoop分析电网现状；包括VISA和JP摩根在内的金融公司用Hadoop分析股票数据；包括Amazon和ebay在内的零售商和电子商务公司也开始使用Hadoop……他还特别提到生物公司用Hadoop 进行DNA测序和分析。

　　有事错过了Google公司的报告Challenges in Data Processing in the Cloud。

　　下午Track很多，在分会场来回转移。之后主要听了下面几场：

Hadoop at Facebook: Past, Now and Future (Zheng Shao@Facebook)
Mumak — Using Simulation for Large-scale Distributed System Verification and Debugging (Hong Tang@Yahoo!)
Monitoring Hadoop (Yunsong Huang@IBM)
The Distributed Storage in the Search Engine (Kun Zhang@Netease)

　　前几个报告都能在网上搜索到相关技术资料，不多写。

　　后一个报告介绍网易的封闭项目，也算是与Hadoop对照。网易在国内算是技术布局早的，几乎是一看到Google老三篇就立刻照着实现。报告前半部分讲如何选择不同的分布式存储设施。把分布式存储系统分为三类：类似GFS的，类似BigTable的，还有Key-value方式的。对于GFS这一类，提供接近Unix文件的API，适用于必须对数据进行顺序全扫描的应用场景；对于BigTable这一类，提供分字段索引排序，适合需要随机查找的应用；而对于Key-value这一类，强调响应速度，更适合当cache用。报告后一半都是案例，分享重点是解决问题的思路，而不是问题本身。

　　大会最后的Panel Discussion。从听众提问看，在国内Hadoop还有待普及，很多技术人员甚至不太熟悉开源基础。百度的Ruyue Ma提出，不要指望万能药方，每种技术方案都有适用区域，传统的MPI也有自己的独特优势，未必所有应用都必须移植到云平台上。多位嘉宾强调，第一关注点应该在于可拓展性，而不是性能。

　　顺便提一下，国内企业今年突然都开始投入分布式技术的研发。很多家公司同时打算或正在开发自己的GFS、MapReduce对应产品。我倒觉得，现在才动手的话，不如选择成熟的开源方案，这样招聘、培训和合作的成本较低。

列书单.2009.11.13

流水帐.2009.11.11

1 Reply

　　压力很大，有段时间没有写BLOG的心境。修养不够，乱发火，还需要磨练，还需要反省，还需要成长。

　　投稿Journal of Proteome Research，被传说中的副主编不经同行评审直接拒稿。yb打电话聊天，安慰：有些人就是怀疑，认为中国大陆做不出那么出色的科研成果。其实还好，还好。宁愿相信是自己做得还不够牛。即使真涉及技术外的因素，是不是歧视，取决于你最终到底做成什么样。姚明得分超过30，巴克利就该kiss驴屁股，否则人家就是有先见之明。短暂抑郁，转投Rapid Communications in Mass Spectrometry。这次遇到的责任编辑还是06年投稿的那位，很快就进入peer review了。fy老大催着赶紧申请专利，否则文章一发表，就来不及了。

　　瓶子哥在曙光5000A上测试，320核条件下，加速效率达到80%。欣慰。这段时间的交流，意识到随着分布式规模的扩大，pFind集群的特点逐渐向I/O密集型靠拢。也就是说越来越像web搜索引擎。明年要搞点MapReduce的尝试。另外购买4000块的昂贵显卡。一直在关注GPU在科学界的应用。生物制药、物理航天、天气地质、游戏娱乐……短时间出现了爆炸性的增长。计算机行业的一个有趣的特点就是，工业界常常跑在前面，搞出一些破坏性创新，给学术界造成了很大的压力。

　　雪下得好大，积雪没过了鞋帮，咯吱咯吱的。大家注意身体，别H1N1。今天见到了好久没联系的jw。原来是班车11点还因为大雪堵在路上，他索性下车到我们这里交流。忙过这一阵，要去看看朋友们。当然，还是会逼着大家给pFind引擎提意见。

　　在各种场合听到关于创业的讨论。创业当然主要跟钱有关，但是必须有一点钱以外的东西。Boss H说得对，一时的热情最容易消散。必须有点功利以外的理由，让自己在最痛苦时平静下来，坚持下去。

　　douban.com在测试“豆瓣电台”，根据你的历史行为推荐音乐。上来就给我推荐了几首没听过的张震岳、周杰伦和涅磐。查了查，豆瓣在招聘“算法和数据挖掘专家”。应聘要求包括：“热爱探索和钻研，相信算法能够改变人们的生活；极佳的逻辑分析能力和学习能力，善于应对各种智力挑战；熟悉海量数据处理和挖掘的基本算法, 或有高性能科学计算的相关经验”。

joyfire 王乐珩地雷

有事多Google，没事少上网