Monthly Archives: April 2006

blog的spam过滤技术

  发现有站点利用blog的引用通告发布了大量垃圾广告,登上来删了好半天。

  这个爬虫先搜索每篇blog,寻找特定的关键字,然后根据关键字提交不同的引用通告。这种类似Google广告的方式比垃圾邮件的变化多一些。看来不久就会出现针对blog的spam过滤技术了。

C++应用程序和C++库

  引用孟岩的好文:

  “…… 现在我们知道,用来写C++程序库所需要的技术,与用来写C++应用程序所需要的技术存在很大的差别。这已经比较糟糕了。更糟糕的是,一般的C++开发者 根本分不清这中间的差别,他们在开发中往往既不是一个称职的程序库开发者,也不是一个单纯的应用开发者。他们一边想着完成手头的工作,一边琢磨如何能够写 出高质量的基础库和框架,为万世开太平。如果说C语言是一把轻快的小匕首,遇谁都是进身猛刺,血溅一尺,那么这种C ++的使用方式无异于左手打铁铸兵,右手挥剑刺秦,这种精神分裂的状态直接将很多项目变成了既超期超支又质量低劣的垃圾。“

   “认识到这样的事实之后,C++程序员应当以更理性的态度来看待自己的工作。大部分情况下,你所需要做的是寻找一些可以互相合作的、稳定可靠的开源程序 库,然后在其基础之上,面向目标,使用尽可能简朴的技术,专心专意地进行应用开发,把那些复杂精妙的语言技巧和“可复用”之类的想法扔到Java国去。唯 其如此,你才可能更高效地开发出好的应用软件,而且会逐渐积累和重构出真正可复用的软件。”

停blog的感觉

  停了两周,优化作息时间,集中精力。感觉不错。不断改进pFind系统

  朱辉龙描述很贴切:“……订阅的feed与自己feed的责任感,让我经常凌晨2-3点睡觉的时候,对自己今天还没有写blog叹气,负罪、内疚、压迫感,在午夜依然不能入眠……”,乐趣变成了一种压力,该调整调整了。

  不过,我并没失去敲键盘的乐趣。阅读和网摘的时候,还是会不断闪念头:“有意思,这个可以写到blog里”。好多有价值的见闻和想法,当时不记录,淡忘得很快,过几天想写都没味了。

  BTW1:正在忙买房子,感谢波波这两天给我帮的大忙//bow,某人的自私冷漠伤人心。

Redhat收购JBoss

  之前JBoss拒绝了IBM和Oracle两个大佬,看来文化的认同和商业模式的匹配更为重要。

  另外一方面,Redhat和几个巨头的关系开始微妙起来。在这之前,Redhat是以IBM为盟主的反微软阵营扶植起来的过河卒。这次闯入企业级中间件市场,意味着会与以前罩自己的老大发生正面冲突。

  把最近频繁的收购联系起来看,大鱼开始吃小鱼,软件市场空间在缩小。谁能幸存成为战国七雄?

Google的算法

  开始设计pFind系统的集群版本。今天在读Google的论文:MapReduce: Simplified Data Processing on Large Clusters。之前推荐过The Google File SystemWeb Search for a Planet: The Google Cluster Architecture两篇论文。

  Google的强大不只源于PageRank算法,用普通PC组成的高效集群也是一个杀手锏。李开复就提到过,MapReduce算法和GFS架构才是Google真正的核心竞争力。

  digg上热炒Google购买Orion算法的的事。引出一大堆各式各样的八卦议论,比如有关这个博士生的国籍。有个小伙这么写“After all Israel is just America III. Canada is America II.”,哈哈。

  有趣的是,现在,北京时间2006年4月10日22:30分,用Google Web Search搜索这个新闻,可看的内容很少,但用Google Blog Search搜索,就能找到世界各地用各种语言写的评论,很多都是20分钟前刚写的。

老年病和基因

  前两天突然得知很多同龄人得上绝症,现在补一篇。也算《基因组:人种自传23章》的读后感。

  压力会改变体内激素,进而损坏健康,生物学已经可以解释这一切的发生机制。也就是说,我们知道了WHAT和HOW。但基因为什么被设计成这样:肾上腺素抑制免疫系统,甚至永久性损坏心血管系统?WHY的问题,还没有完美的理论解释。

  从进化论猜测,可能是生物在危机时刻,需要关闭所有的其他耗损,把能量集中在“打或逃”上。

  而遗传学的解释是,这是一种悖论式的现象:第二性征,比如鸟类的漂亮的羽毛,雄性哺乳动物的好斗和攻击性,都是以耗费健康资源为代价的。也 就是说,越是有男子气概或性感魅力,越是对免疫系统和心血管系统不利,那些身体强健的个体才有资本拥有漂亮的第二性征,炫耀自己,获得异性的青睐,并传宗 接代。

  我们是基因竞争的产物。和达尔文主义不同,现代遗传学认为,生物的很多特征和行为,不是为了让个体更好地适应环境活下去,而是为了让体内的 DNA避免被“困死”。我们只是基因的载体和工具。基因和病毒本质上……我们那么喜欢sex,那么贪恋虚荣,对自己未必有什么好处,这都是基因的陷阱。

  同样也就可以解释,为什么有那么多命中注定的老年病写在DNA里:基因倾向于在生物个体不能生育、失去利用价值以后毁掉它,以便节省生态资源,给新一代让路,让他们再生新一代,带着某段祖宗的基因……

本周收藏.2006.04.02