Tag Archives: 推荐

不完备性定理和创业

  忙碌的假期,回来了。这些天买了刘未鹏的《暗时间》村上春树的《地下》黄铁鹰的《海底捞你学不会》。前两本强烈推荐。

    

  最近创业者言必称保罗·格雷厄姆和Y Combinator基金。而Y Combinator这个词源于lambda函数不动点。看看刘未鹏这篇《康托尔、哥德尔、图灵——永恒的金色对角线》能了解更多。简单说,哥德尔对不完备性定理的证明,意味着不可能单纯用一套逻辑系统解释整个宇宙。这不仅仅对数学,甚至对哲学和艺术也产生了重大影响。

  假期结束前一天,参加42qu.com的“42区 . 技术 . 创业”活动。有两个报告人,一位是Resys的创始人xlvector,另一位是PE.VC的投资人Luc Lan。

  两年前听过xlvector的讲座,那时候他还在搞学术,重点是Netflix百万大奖的推荐算法比赛。这次再听,他已经加入工业界,所以就有更多实用化、架构,以及产品的商业效果的考虑。非常期待他的新书。

  Luc Lan的讲座也很有内容。对想创业的程序员来说,“shut up, just code”做出可用的原型来的确是最关键的。至于要不要寻找天使和风投,是根据情况具体分析的。例如:如果自己能筹措资金(互联网创业,启动资金不会太多,一台服务器,机房托管,必要的执照……具体内容张教主都回答过)支撑过最初的一段时间,甚至能熬到有现金收入,就不必付出代价很高的原始干股了;再例如,有的具体行业,资金并不是最大的瓶颈,如海底捞的老板就强调,无法那么快的培训出合格的二级店长和领班,是他们扩张的瓶颈。只有必须用钱来当催化剂,想迅速把现有的已经掌握窍门的业务扩大一百倍的时候,找投资才是对双方有利的事情。对一些参加的朋友有个建议,很多资料是可以通过网络查到或问到的。例如Luc Lan投过哪些项目,给张教主投了多少万,张教主一个月烧多少钱等等……做好功课,是高质量交流的前提。

推荐10月份的《程序员》

  刚刚收到10月份的《程序员》,有几篇文章不错,推荐一下。

  这期组织了一个产品开发、营销和运营的专题。第一篇就是周鸿祎的《用互联网的思想经营产品》,很赞同其中的很多观点。之前谢文有一篇文字,对开发、营销和运营三阶段有很类似的论述。分析Windows Vista这款失败产品那一段,和Joel on software的看法基本一致。

  最近数据挖掘和推荐的话题很火爆,大牛们纷纷加入Resys Group。《程序员》保持了嗅觉灵敏、迅速跟进的特点,这一期里有《商品推荐背后的数学》和《Tag和Tagging》两篇与此有关。

  感兴趣的一篇小文章是《编程习惯》,强调了版本控制、构建系统、自动化测试、代码评阅、重构、代码风格等六大基础设施。刚好和俺前两天写的不谋而合。

  HR的内容越来越多了,例如《建立完整的外包人才体系》、《绩效考核的五种死因》、《绩效实施经验六法》等。今天和朋友吃饭,聊天说起这个来,很多HR部门都有故弄玄虚的坏毛病,交流困难,演进缓慢。在这种不良气氛下,个人的职业成长很多时候更需要依赖悟性和韧劲。

推荐Resys Group

  误打误撞,发现牛人团伙。

  原本打算参加这期Beta技术沙龙,听霍炬讲的报告《大规模软件服务的管理和监控》。结果粗心大意,把时间记错了一天,今天下午就闯到奇遇花园咖啡馆去了。

  也幸亏记错了,才能遇到Resys的牛人们线下聚会,正在讲数据挖掘和推荐系统的算法(collaborative filtering),于是就买了饮料,蹭听了一场。

  讲演者是The Ensemble团队的中国成员,传说中的xlvector大侠。具体内容,当然是他们拿到Netflix Prize比赛leaderboard头名的比赛经验。

  下面开始八卦,给没听过Netflix Prize的火星人科普一下:

  美国DVD在线租赁商Netflix于2006年发起的竞赛,悬赏100万美元,只要提交比其现有Cinematch效果好10%的新算法,就获得巨款。Netflix公开了四十八万多用户对一万七千多部电影的上亿条评分记录,要求算法推测另外三百万条记录。同时,100万美元存入银行,每年5万利息作为年度进步奖,发给当年取得最好效果的参赛者。

  Netflix Prize产生了轰动效应。大概是因为,这让公众亲眼目睹,靠数学和编程是如何挣到真金白银的100万美元的。主流媒体,例如《纽约时报》对此给予了大量报道(2009年7月27日的报道是:Netflix Challenge Ends, but Winner Is in Doubt)。技术领域的超女选秀?你终于明白了。对Netflix来说,得到了性能超群的数据挖掘算法,还做了广告,名利双收。

  回来再说xlvector的讲座,八卦内幕相当精彩:一开始你追我赶;接着合纵连横,世界各地的独立的技术和参赛者逐渐融合,成为团队;最后,居然涉及复杂的商业谈判,大鱼吃小鱼,直到非此即彼,参与两个巨型阵营的团战……

  伴随比赛过程,发表了大量的高水平论文,也申请了不少的算法专利,还有不少好玩的讨论:

  比如有人研究了参加者的性别,发现一开始有很多女性参赛者,而且成绩很不错,但最后两个“超级大国”团队里没女性。研究结论是:女性不会投入两三年时间去做一件根本不可能成功的事;男性相对单细胞一些,杀红眼了就钻进去出不来了。

  参赛者Bill Bame在BLOG写到,他发现团队里都是两种人,一种是数学家,一种是工程师,思维方式行事风格截然不同,但两种人都发挥了至关重要的作用。

  The Ensemble团队最后30天工作中,租用了EC2云计算平台进行模型的训练与融合,每小时0.2$。MapReduce模式比较适合离线推荐算法。

  OK,八卦写完了。很久没遇到这么好玩的东西。推荐Resys Google Group。这篇BLOG中链接和引用,都是我回来刚搜索出来的,未必全面准确,大家继续挖掘吧。另外,明天的Beta技术沙龙,我也很期待,号召大家参加。

  最后赞一下奇遇花园咖啡馆。今天交流到最后,xlvector跑到墙边(整堵墙是一块巨大的黑板),用粉笔演算方程。一帮怪人在下面长吁短叹,其他客人头也不抬,继续喝咖啡上网。

照片来自wentrue的flickr

  BTW:只是咖啡馆附近的西直门地铁,实在让人恼火。感觉自己是实验小白鼠,在八卦阵里撞来撞去,难道就没有专业人士稍微做些优化吗。