Category Archives: 科技评论

原来生物的遗传密码表有不止一套呀

  昨晚开会开到23点,无论是BOSS H还是我们几个,都筋疲力竭了。打车到家已经过了0点。

  到最后才发现,原来基础概念有误:DNA翻译氨基酸序列的密码表不止一套,细菌的和人类的不一样。在一般教科书和维基百科上都用人类的密码表做例子,没提还有其他可能。晕。

  以前提过软件开发过程中的隐喻(Metaphors)。这是交叉学科最普遍的问题。往往,生物领域大学一年级的常识,计算机领域出身的人对此却毫无所知。

  难点并不在于你不知道,而是你不知道你不知道,合作伙伴也不知道你不知道(好绕啊)。所以,我们需要好的搜索引擎(不是坏的),还需要更智能更公平的推荐引擎。我们最不需要的,是围墙

流体力学和干妹妹

  最近在汇总代码树,身心憔悴。我这个愁啊。

  推荐一个视频。老妈曾经是大学里的流体力学教师,所以从小熟悉这种乒乓球在气流里的实验。还有一次,写论文需要直观思维。抢走了儿子的橡皮泥去捏涡轮模型。那个时候第一次接触穿孔纸带计算机,记得进机房还要换拖鞋和白大褂。

  豆瓣电台的算法终于把张震岳的《干妹妹》推荐给我了,哈哈。说到用户评价和推荐,xlvector大虾刚刚发现郎咸平也在研究餐馆评价网站的数据。不过经济学家的思路与算法研究是不一样的。

友情宣传stdyun.com

  有需要的朋友去stdyun.com购买虚拟主机吧。

  其实只见过张沈鹏两面,他没让我帮忙宣传。这里纯粹是自发的友情支援。为了让这篇BLOG显得不要太水,再写点八卦话题吸引眼球,哈。

  老张刚离开豆瓣那个让男青年们起歪念头的美空网的时候,我问他以后打算干啥,他平淡地说,先卖卖虚拟主机吧。摸不着头脑,所以一直保持关注。stdyun.com推出来一踅摸,没那么简单,还在开发更好玩的应用。你看首页那段邪恶的《网络创世纪》,虚拟主机仅仅是教主的第一步。

  回来说现成的东西。stdyun.com提供的虚拟主机最合适python项目。为教育入门级用户,还专门写了本风格很恶搞的新手教程。另外,limodou大神已经把Uliweb轻松移植上去了

  正因为这个,前两天CSDN首页挂出“google限制Python项目”的新闻专题,老张就只好发声了Beta技术沙龙的时候,他这篇BLOG被用来挤兑新官上任的刘江老大

  在国内靠技术创业不容易,加油!

参加Beta技术沙龙,主题是推荐系统

  周日去奇遇花园参加Beta技术沙龙,这次主题是“推荐系统在大型网站中的应用”,是和Resys合办的(说起来俺也起了点儿牵线搭桥的作用,哈)。推荐系统果然很热门,参与的人比以前都多。

  第一个主讲人是dangdang网的技术总监王洪涛。从产品经理的角度介绍了dangdang的推荐系统。从业务需求的视点去看,实现什么算法反而不那么重要了,关键在于整体把握。网站做到什么程度需要引入哪一类的推荐系统?如何评价系统的效果?另外对用户体验的拿捏也是个重要问题,必须既给用户惊喜,又不讨人烦。

  接着讲座的是付超群,以前在新浪音乐开发推荐系统。他从技术上介绍了推荐算法和工程实现。主要涉及了关联分析、slope one和SVD三种算法,内容很足,言简意赅没废话,我个人很喜欢这个报告。

  国内评价和推荐做得最好的应该是豆瓣。有人问dangdang是否考虑在书评挖掘方面深入做些事。我想,豆瓣的领先地位,除了源于技术,更重要的是来自 “第三方”的超然位置所带来的高质量评价内容,以及这些评价数据背后的深度参与人群。王洪涛回答时也说,dangdang上的书评,很多是抱怨送货和售后服务的,而豆瓣就没有这个包袱了。其实单个企业很难全面覆盖产业链条,合作共赢才是正理。

  顺便提一下,企业的技术形象很重要。dangdang站内搜索的口碑不好。结果每次圈子里交流,他们的工程师总是有点尴尬,心虚郁闷的样子,忍受周围的朋友拿各种雷人的搜索结果开涮。物质待遇以外,工程师还很需要专业上的自豪感和认同感。

Hadoop in China 2009印象

  昨天Hadoop in China 2009在计算所召开。有主场之利,就混进去听了。把印象最深的内容写一写。

  总体感觉规模很大,组织相当严谨,内容具有多样性。一方面,Hadoop in China前身是开源社区的线下技术沙龙,骨子里带有草根性,相当多的报告都是年轻的一线工程师在讲实实在在的最新项目;另一方面,这次又请来一些拥有行业视角的大公司技术高层,分享了不少全局信息。

  第一个超出期望的是中国移动研究院院长黄晓庆。原以为礼貌上请赞助单位发言,不差钱的央企,“大云”肯定是炒概念。没想到还真讲了些好玩的研发内容,甚至对Hadoop内核做了不少改进。正因为有实际工作而且打算开源,所以就有深入的思考: “下面是我对开源社区的建议。首先,Hadoop应该更全球性。很高兴看到72%的贡献来自Yahoo!,但这对Hadoop长远发展并不是最好的,Hadoop用户应该提供更多贡献。另外,希望建立基于开源社区的云计算规范标准,使应用不只绑定在某个特定平台上。”报告英文很流利,讲得台底下的 Yahoo!技术高层直点头。

  来自Facebook的报告特别吸引人。除了技术本身,数据仓库这种应用场景也很酷。底层设施需要按照 ETL、数据挖掘和决策支持的特性进行调整,例如利用Hive支持SQL,以便商业分析人员使用。查了一下,已经有三篇论文引用Hive,都是比较顶级的会议。相对我个人而言,以往关注都限于搜索引擎范围内。这次意识到Hadoop已经被用于很多领域。

  Cloudera帅帅的创业者(长发,山羊胡子,真的很Geek)列出了Hadoop的应用领域:像NTT KDDI和中国移动这类的电信公司用Hadoop分析用户信息,优化网络配置;美国供电局用Hadoop分析电网现状;包括VISA和JP摩根在内的金融公司用Hadoop分析股票数据;包括Amazon和ebay在内的零售商和电子商务公司也开始使用Hadoop……他还特别提到生物公司用Hadoop 进行DNA测序和分析。

  有事错过了Google公司的报告Challenges in Data Processing in the Cloud。

  下午Track很多,在分会场来回转移。之后主要听了下面几场:

  • Hadoop at Facebook: Past, Now and Future (Zheng Shao@Facebook)
  • Mumak — Using Simulation for Large-scale Distributed System Verification and Debugging (Hong Tang@Yahoo!)
  • Monitoring Hadoop (Yunsong Huang@IBM)
  • The Distributed Storage in the Search Engine (Kun Zhang@Netease)

  前几个报告都能在网上搜索到相关技术资料,不多写。

  后一个报告介绍网易的封闭项目,也算是与Hadoop对照。网易在国内算是技术布局早的,几乎是一看到Google老三篇就立刻照着实现。报告前半部分讲如何选择不同的分布式存储设施。把分布式存储系统分为三类:类似GFS的,类似BigTable的,还有Key-value方式的。对于GFS这一类,提供接近Unix文件的API,适用于必须对数据进行顺序全扫描的应用场景;对于BigTable这一类,提供分字段索引排序,适合需要随机查找的应用;而对于Key-value这一类,强调响应速度,更适合当cache用。报告后一半都是案例,分享重点是解决问题的思路,而不是问题本身。

  大会最后的Panel Discussion。从听众提问看,在国内Hadoop还有待普及,很多技术人员甚至不太熟悉开源基础。百度的Ruyue Ma提出,不要指望万能药方,每种技术方案都有适用区域,传统的MPI也有自己的独特优势,未必所有应用都必须移植到云平台上。多位嘉宾强调,第一关注点应该在于可拓展性,而不是性能。

  顺便提一下,国内企业今年突然都开始投入分布式技术的研发。很多家公司同时打算或正在开发自己的GFS、MapReduce对应产品。我倒觉得,现在才动手的话,不如选择成熟的开源方案,这样招聘、培训和合作的成本较低。

天河1号抢在了曙光6000的前头

  病得晕乎乎,上来敲几句就下去。

  原想明年的曙光6000突破千万亿次,却让天河1号抢在的前头。可怜孩子们,肯定有些郁闷。还有,GPU红得发紫,对FPGA和龙芯众核都形成了好大压力。等病好了,有机会去参访他们一下。其实也好,竞争才有进步。

  不超过140个字吧,呵。再贴一个张小盒漫画(不过网上找到的文字有差异,《南方周末》最后一幅说明是“为什么我们要忙到连生病也流行?”)

网络游戏就是云计算

  居然有这么多人没意识到:网络游戏就是云计算。

  从运营形式看:玩家把自己的帐号信息、虚拟装备和财产等关键数据,都存储在服务器上,通过网络登入,使用运营商提供的娱乐服务;从技术角度看: 众多玩家的各种交互,例如聊天、组团、战斗等,以及更多虚拟世界并发事件的模拟,都需要深度运用大规模分布式计算和网络安全技术。

  很明显,这是典型的云计算。无论是从技术还是商业角度看,网络游戏产业已经是搜索引擎以外,云计算最成功的应用案例。

  事实上,也许它未来的地位还会更重要。

  一方面,游戏领域的激烈商业竞争会不断推动技术发展,培养人才,这很容易理解。例如国内不少著名的程序员和架构师,都是游戏产业培养起来的,再例如ice等重大创新,就是美国军方和网络游戏的产业需求共同催生的。

  另一方面,用户习惯上,当网络游戏的一代长大成人,走入社会,在线游戏就不再是边缘产业。直观上思考,能在这个3D虚拟场景里交朋友、谈恋爱、合作杀怪 物,以后就可以通过它找工作、买卖二手车、开商店、组织学术会议、进行远程培训、举行演唱会……这就好像,我小时候很痴迷《变形金刚》,其实这部动画片只 是玩具厂商的市场营销。现在我们这一代三十岁了,《变形金刚》就突然变成了几十亿美元的好莱坞电影,汽车产业巨头植入广告的载体。在此之前的《蜘蛛侠》也 一样:从五六十年代小孩子的漫画书,变成了主流大片。

  林登实验室其实就是意识到了这一点,才开发出“第二人生”,IBM公司在其中会召开全球年会,路透社设立驻“第二人生”特派记者,那位著名的德国女华人通过虚拟房地产业赚取百万利润,甚至之前发生的虚拟恐怖分子案,说明他们都明白了。事实上,外国导演在十年前就拍了The Matrix。然而,再看看中央电视台前一阵讨论魔兽世界的节目,他们并没有明白,主持人和嘉宾在思维上已经落后了不止一代了。

  很多人都和我一样,不喜欢网络游戏。但警惕思维僵化,保持开放心态,是必要的。历史上很多重要创新,起初都不讨人喜欢,甚至引起社会主流的强烈憎恨。“老人”们要注意,别当烧死布鲁诺的人。

  故事回放:布鲁诺临死时说,“我死了,地球还是绕着太阳转,而不是相反”。伽利略虽然迫于压力收回了言论,进行了忏悔,可是忏悔完还是低声说了一句,“可是它们(指他观测到的木星的四颗卫星)的确在那里呀”。几百年后,教会向伽利略等被迫害的天文学家正式道歉。

  谁敢打赌说,下一代的战略性创新,决定国力的重要技术、商业模式或制度演进,肯定不可能从网络游戏里诞生呢?

  (后记:科学松鼠会发表了一篇《科学家网游不辍为哪般?》。)

狗血时代、百年老店和Objective-C

  昨天早上偏头痛,晚起了一小时,因为有些工作放心不下,还是强令自己去上班。午饭和晚饭都没吃。下午和领导谈工作的时候,已经有点灯枯油尽了。晚上10点回来,吃了点东西,包裹在被子里喝啤酒,看“游戏风云”频道演示《猪兔大战》。

  以前看到北京女病人BLOG这篇《被隐藏的时光》,和朋友笑言,俺的狗血时代终于过去了。好像很多功成名就的人物都说过,最快乐最令人怀念的时光,正是那默默无闻、野心勃勃、累死累活、年轻气盛、大喜大悲的几年。

  前天开会,fy大虾最后讲,他的PPT里写“什么是百年老店,就是人死了,店还在。”

  点开09年10月的TIOBE编程语言榜。趋势很明朗。Java和C/C++语言稳占鳌头;PHP、C#和JavaScript稳步提高;而随着iPhone所向披靡,尤其是App Store模式的猛烈发展,Objective-C像坐着火箭一样猛烈崛起,相信很快就能闯入前10。