发现有站点利用blog的引用通告发布了大量垃圾广告,登上来删了好半天。
这个爬虫先搜索每篇blog,寻找特定的关键字,然后根据关键字提交不同的引用通告。这种类似Google广告的方式比垃圾邮件的变化多一些。看来不久就会出现针对blog的spam过滤技术了。
发现有站点利用blog的引用通告发布了大量垃圾广告,登上来删了好半天。
这个爬虫先搜索每篇blog,寻找特定的关键字,然后根据关键字提交不同的引用通告。这种类似Google广告的方式比垃圾邮件的变化多一些。看来不久就会出现针对blog的spam过滤技术了。
引用孟岩的好文:
停了两周,优化作息时间,集中精力。感觉不错。不断改进pFind系统。
朱辉龙描述很贴切:“……订阅的feed与自己feed的责任感,让我经常凌晨2-3点睡觉的时候,对自己今天还没有写blog叹气,负罪、内疚、压迫感,在午夜依然不能入眠……”,乐趣变成了一种压力,该调整调整了。
不过,我并没失去敲键盘的乐趣。阅读和网摘的时候,还是会不断闪念头:“有意思,这个可以写到blog里”。好多有价值的见闻和想法,当时不记录,淡忘得很快,过几天想写都没味了。
BTW1:正在忙买房子,感谢波波这两天给我帮的大忙//bow,某人的自私冷漠伤人心。
之前JBoss拒绝了IBM和Oracle两个大佬,看来文化的认同和商业模式的匹配更为重要。
另外一方面,Redhat和几个巨头的关系开始微妙起来。在这之前,Redhat是以IBM为盟主的反微软阵营扶植起来的过河卒。这次闯入企业级中间件市场,意味着会与以前罩自己的老大发生正面冲突。
把最近频繁的收购联系起来看,大鱼开始吃小鱼,软件市场空间在缩小。谁能幸存成为战国七雄?
开始设计pFind系统的集群版本。今天在读Google的论文:MapReduce: Simplified Data Processing on Large Clusters。之前推荐过The Google File System和Web Search for a Planet: The Google Cluster Architecture两篇论文。
Google的强大不只源于PageRank算法,用普通PC组成的高效集群也是一个杀手锏。李开复就提到过,MapReduce算法和GFS架构才是Google真正的核心竞争力。
digg上热炒Google购买Orion算法的的事。引出一大堆各式各样的八卦议论,比如有关这个博士生的国籍。有个小伙这么写“After all Israel is just America III. Canada is America II.”,哈哈。
有趣的是,现在,北京时间2006年4月10日22:30分,用Google Web Search搜索这个新闻,可看的内容很少,但用Google Blog Search搜索,就能找到世界各地用各种语言写的评论,很多都是20分钟前刚写的。
前两天突然得知很多同龄人得上绝症,现在补一篇。也算《基因组:人种自传23章》的读后感。
压力会改变体内激素,进而损坏健康,生物学已经可以解释这一切的发生机制。也就是说,我们知道了WHAT和HOW。但基因为什么被设计成这样:肾上腺素抑制免疫系统,甚至永久性损坏心血管系统?WHY的问题,还没有完美的理论解释。
从进化论猜测,可能是生物在危机时刻,需要关闭所有的其他耗损,把能量集中在“打或逃”上。
而遗传学的解释是,这是一种悖论式的现象:第二性征,比如鸟类的漂亮的羽毛,雄性哺乳动物的好斗和攻击性,都是以耗费健康资源为代价的。也 就是说,越是有男子气概或性感魅力,越是对免疫系统和心血管系统不利,那些身体强健的个体才有资本拥有漂亮的第二性征,炫耀自己,获得异性的青睐,并传宗 接代。
我们是基因竞争的产物。和达尔文主义不同,现代遗传学认为,生物的很多特征和行为,不是为了让个体更好地适应环境活下去,而是为了让体内的 DNA避免被“困死”。我们只是基因的载体和工具。基因和病毒本质上……我们那么喜欢sex,那么贪恋虚荣,对自己未必有什么好处,这都是基因的陷阱。
同样也就可以解释,为什么有那么多命中注定的老年病写在DNA里:基因倾向于在生物个体不能生育、失去利用价值以后毁掉它,以便节省生态资源,给新一代让路,让他们再生新一代,带着某段祖宗的基因……
pFind系统的用户界面部分,还有不少工作要做。