Category Archives: 科技评论

　　当了pm，尤其是没有界面不需要Axure的底层Web Service的pm，依赖一支巨大的分布式团队，面对不止一家强势客户，交流就成了最关键的任务。半年前我还是中科院里一个不折不扣的技术宅男，与生人聊非技术话题有障碍，害怕给陌生人打电话，外出聚餐拿菜单看半天也不知道点什么。幸运的是，跳槽后碰到几位好上级，每次掉进坑里都能获得诚恳的建议，甚至专门帮我复盘。

　　我有每天记录想法的习惯，很多内容整理之后就发BLOG。但这个“团队交流”的主题等了很久。涉及公司内部信息，无法带上具体场景，很多血泪经验就成了糖水大道理。也因为积压太久，即使只放是糖水大道理，慢慢也存了很多段。不管怎样还是发出来吧。

　　公司一直在剧烈重组。以往我设计软件架构很少考虑人的交流因素。现在算是理解了著名的Conway’s Law: A design reflects the structure of the organization that produced it。这条定律的意思是：什么样的团队组织结构，最终就会开发出一模一样的软件架构。如果有四个团队合作开发编译器，系统最终一定会长成一个四阶段编译器。所以大型软件组织内，在重构系统之前往往先reorg团队。对分布式的团队，更加如此。前一阵很多人在Blog里写分布式团队的交流问题，用了很多招数，例如两边架起摄像头和大屏幕，形成一个虚拟的统一环境。

　　到飞天团队，发现与以前在pFind倡导的工程实践没太多区别：SVN、BugFree、定期重构、单元测试、站立会议、代码review……所不同的是执行。飞天主力是微软出来的，有软件工程基因。制度和团队平台给力，就算是大三实习生也能大展拳脚，两三天内完成千核并行复杂算法的剧烈重构和测试。实际上pFind团队规模已经很大了。飞天内很多小team总共才四五条枪，而且大多是本科刚毕业甚至实习生，有些专注于统计机器学习的算法团队，工程产品也非常宏大。这是人际沟通和工程效率问题，不是学术或工程的非此即彼的投资方向选择。对pFind感情很深，希望后继者有勇气和智慧做到我没能做到的。

　　敢提出傻问题是有责任心的表现。很多新人、边缘人、接口人都有交流障碍：不敢把点子或疑问拿到桌面上来，借口是：还不了解情况，等我彻底变成“自己人”再说。怕问错了显得不够牛，或者问对了牵涉别人的利益。明哲保身是动物本能，但它仅仅在黑暗森林低级生态环境下才算是最佳策略，在一个有序、专业、理性的团队里，过分谨小慎微只会显得无能，让别人放弃对你分享信息。反过来，直言不讳也是一种压力测试，可以借以观察团队氛围是否正常。

　　tech lead最重要的素质是充分沟通的勇气和器量，“领导和下属之间应该’下棋’而不是’打牌’，在信息对等的情况下决策。尤其是坏消息，必须第一时间告知下属，坏消息往往传得很快，最好让下属从你这里首先获知。”反过来，最愚蠢的举动就是伤害团队对自己的信任。情绪管理、私人利益、交流效率都对信任感造成影响。

　　网络公司的技术团队往往被分为前端团队、后端服务团队和基础平台团队。不同类型的团队交流和思考的方式不同。出色的基础平台团队，节奏感往往非常强，知道先做什么后做什么，一开始只做最难最重要的事。

　　需求分析的时候，用户经常是在告诉你怎么做（How），这些信息没用，你要问清楚他们的本质需求(What/Why)。用户说要什么就做什么往往死得很惨。福特说：“如果最初我去问顾客想要什么，他们一定会说：一匹更快的马”。

　　技术->项目->产品->服务，这是个漫长的进化过程。和一个陌生的技术团队聊，最重要的就是评估他们在这条打怪升级的不归路上位于何处。已经拥有成熟服务的团队会问你：“需要多大程度的可用性？我们的服务目前能达到五个 9，也就是一年无故停机最多5分钟。”（关于服务怎么运维，现在DevOps讨论很热，推荐看看这个）

赞一下豆瓣bubbler

1 Reply

　　赞一下豆瓣新推出的bubbler，这才是好产品。据说是实习生做的，牛。这么多年过去，我依然是无可救药的重度豆瓣粉。

　　最近特忙，没怎么听豆瓣FM。今晚一听效果特好：它推荐给我的都喜欢，同时这些曲目大都是最近新发行的专辑，我都没听过。豆瓣的数据挖掘算法和推荐系统越来越成熟精致。

　　记得刚开始用豆瓣FM的时候，一跳出梁静茹和孙燕姿的歌，我就知道是因为某两个家伙在我好友名单里，所以算法推荐了这些歌。

　　前一阵还有个帖子被大量转发：一个单身女孩29岁生日那天，在微博上哭诉：“豆瓣的算法凭什么推荐一本《30岁前别结婚》给我！”

各个公司的数据产品,“指数”里的“中国好声音”

1 Reply

　　最近在玩各互联网公司的公开数据产品。例如淘宝指数、百度指数和新浪微博指数。

　　前两天和BD、业务架构师一起见房地产行业的客户，对方一上来气场很强，真是高帅富。我随手用这几个“指数”查了查，问：“你们的潜在客户群里，男性占90%以上，30～35岁的占70%以上，消费层级很高，客户的价值实在太赞了。不过，除了你们已经有项目的城市，为什么海南有那么多潜在客户？你们在那里布局拿地了吗？”他们很惊奇，赶紧挤到电脑前来看。

　　“指数”产品们虽然很初级，但有了这种对数据威力的展示，就能让很多传统行业用户明白转移到云计算技术、建立数据仓库并最终参与数据集市交易的重要性。

　　下面几张图是今天分别在百度指数、新浪微博指数和淘宝指数上查询“中国好声音”得到的基础数据曲线。你从中看到了什么？

“中国好声音”@百度指数

“中国好声音”@新浪微博指数

“中国好声音”@淘宝指数

大数据和互联网金融模式

Leave a reply

　　一直在关注大数据和金融模式创新。最近这方面的媒体报道多起来，例如前两天《21世纪经济报道》对阿里金融业务的报道。今天又找到了几篇相关报道。

　　“中国金融40人论坛”的一篇课题报告《互联网金融模式研究》。其中，关于云计算尤其是Big Data技术在互联网金融模式中所起的关键作用，有这么一段描述：

……

二是在信息处理方面，社交网络平台生成和传播信息，特别是对个人和机构没有义务披露的信息；搜索引擎技术对信息进行组织、排序和检索，能缓解信息超载问题，有针对性地满足信息需求；云计算服务保障海量信息高速处理能力。总的效果是，在云计算的保障下，资金供需双方信息通过社交网络揭示和传播，被搜索引擎组织和标准化，最终形成时间连续、动态变化的信息序列。由此可以给出任何资金需求者（机构）的风险定价或动态违约概率，而且成本极低。正是这种信息处理模式，使互联网金融模式替代了现在商业银行和证券公司的主要功能。

……

　　这篇报告认为,除了“Big Data”，“移动支付”和“信息的充分发布和匹配”是互联网金融模式的另两个核心。这将使金融交易的门槛大大降低，容易解决中小企业融资、民间借贷、个人投资渠道等难题。而传统形式的银行、券商和交易所等金融中介，将受到冲击。（如果你注意看了昨天的科技新闻，支付宝开始在移动支付领域发力）。

　　另外《环球企业家》刚发表了一篇《阿里金融凶猛：数据为王工厂化运作》，里面是这么写的：

阿里巴巴不平凡的金融抱负，让一些银行感到不安

……

支撑起这种工厂化运作的，是阿里小贷公司背后强大的信息系统和数据支持。

据阿里小贷公司相关人员介绍，小微企业大量数据的运算依赖互联网的云计算技术，不仅保证其安全性和效率，也降低了运营成本，同时简化了小微企业融资的环节，可以为小微企业提供365*24的全天候金融服务，“都是基于国内小微企业数量庞大，且融资需求旺盛的特点设计的。”

与同样以微小贷款著称的包商银行相比，截至2012年6月末，包商银行累计发放微小企业贷款20.90万笔，金额326.06亿元。同期阿里小贷公司已累计为超过13万家小微企业提供融资服务，贷款总额超260亿元，不良率为0.72%。

……

阿里金融业务@ODPS

5 Replies

　　很多人都知道阿里金融是ODPS最早的客户，那么他们到底在用ODPS支撑着什么内容呢？

　　这两天腾讯、阿里和平安合资组建保险公司的事情引起很大关注。新闻界对阿里金融做了大量报道，今天出版的《21世纪经济报道》里有一篇《一笔B2B贷款的旅行》，相对靠谱地介绍了每天自动跑在ODPS上的金融业务。这是一宗真正依赖大数据的买卖。

阿里金融通过阿里巴巴、淘宝、天猫上的销售平台，对客户的历史交易流水进行分析和定量，可以反映其真实的信用状况。

这些数据包括客户在什么时间、在哪里、同谁做生意、商品数量的变化等等。

随后，评级系统会分析小微业主的阿里巴巴平台认证与注册信息、留下的痕迹、贸易平台表现，如登录管理、广告投放、社区行为等。接下来，还要进行客户交互行为分析，如顾客的收藏、反馈、评价情况等。所有信息最终会进入数据库进行定量，并将数值输入网络行为评分模型，从而对小微客户进行评级分层。

在贷前阶段，除了运用自己的平台收集详细数据进行分析后评级外，近期阿里巴巴同第三方公司开始一项新的合作，通过深圳这家公司的进出口数据认证服务，掌握企业会员经过海关、税务验证的数据，这些数据将在阿里巴巴网站上自动生成。

同时，阿里金融在小微贷款技术中还引入了心理测试系统，对小企业主进行分析，判读其性格特质，并将得到的结果进行定量，通过模型测评小企业主对假设情景的掩饰程度和撒谎程度。此外，客户评级还结合客户软信息、上下游评价等，再将行业与政策库数据作为调整因素，从而完成对小微企业客户的全方位综合评价。

在贷款期间，阿里巴巴的系统将监控企业贷款使用是否有发生偏离的情况。

　　另外，其实这条新闻里除了“三马”之外还涉及第四“马”，是招商银行的老总马蔚华。他几个月前讲话说：互联网公司将对金融行业产生的颠覆性冲击，招商银行的竞争对手不是工商银行，而是Facebook。让我们继续努力，给这些西装革履的高帅富一点颜色看看。

推荐系统业务调研

Leave a reply

　　来还前两天的债了。后面是推荐系统的业务调研。

　　粘帖之前先说点八卦话题。最早知道数据挖掘和“尿布与啤酒”，是大一在贺仲雄老师那门妙趣横生的选秀课上，至今历历在目。包括后来两个月为了写那篇软件工程的论文，每天跑去图书馆查的资料，每一份内容都记得好清楚。再往后的三年，课堂上再也找不到那种感觉了，枯燥乏味死记硬背。最好玩的是，为了应付几门不同的选修课考试，连续三个学期，三次把“关联规则分析”和“梯度下降法”等算法的步骤背得贼熟，考完又很快忘掉。

　　工作之后，进入生物信息领域，视角逐渐小众。认识xVector还是因为去贝塔沙龙听技术讲座，粗心记错时间了，幸运地碰到了Resys线下聚会。此后就成了xVector的粉丝，只要他的公开讲座，就尽量去听。最近一次就是今年在上海的第二届中国推荐系统大会。后面这份调研笔记的内容，大部分都是从他的书《推荐系统实践》里抄来的。

　　今年连续参加了很多次数据处理的讲座，讨论。这份文档也算结果之一吧。

==============我是分割线，以上为无用的八卦内容===============

推荐系统业务调研

一、修改历史

　　略……

二、简介

　　随着ODPS系统被深入应用，在数仓团队以外，各个公司的BI团队也逐渐成为我们的用户。ODPS面临的需求也就逐渐拓展到数据挖掘领域。而推荐系统和个性化算法正是目前BI团队最典型的业务。

　　本文对推荐系统的领域现状、典型算法、业务流程进行梳理。这份调研不是学术性的论文、算法、专利的全面列举，而是站在产品和业务的立场进行分析，对经典的工业界常用算法进行介绍，如果涉及Big Data场景会重点关注和讨论。

　　涉及信息主要源于公开的网络、杂志、书籍和技术讲座。其中涉及淘宝推荐系统的涉密内容已删除，剩下的内容都可以在公网搜索到。

　　转载，请保留原作者http://wangleheng.net链接。

三、背景和应用案例

　　产品太多的情况下，用户面临信息过载，解决这个问题的方案包括分类目录、搜索引擎和推荐系统。前两种方案中用户知道自己想要什么，而推荐系统则更加主动。

　　推荐系统通过挖掘用户的各种数据，找到其个性化的需求，将长尾商品推荐给需要它的用户，帮助用户发现那些感兴趣但很难发现的商品。目前已经投入工业实用的知名推荐系统包括：

业务领域	著名产品名称	网址	国内类似产品
电子商务	亚马逊图书推荐	www.amazon.com	豆瓣读书
电影视频	Netflix视频推荐	www.netflix.com	暴风影音、（hulu）
个性化音乐	Pandora和Last.fm	www.pandora.com www.Last.fm	豆瓣电台
社交网络偏好推荐	Facebook Instant Personalization	facebook.com/instantpersonalization	新浪微博
个性化阅读	Google Reader Digg 新闻排序	www.google.com/reader www.digg.com	百度新闻猜您喜欢
LBS	Foursquare客户端	foursquare.com/apps	大众点评客户端
个性化邮件	Gmail优先收件	gmail.com
定向广告投放	Facebook 目标投放	facebook.com-> creat a Ad

　　推荐系统的评价依赖于各种指标：用户满意度、预测准确度、覆盖率、多样性、新颖性、惊喜度。要测量这些指标，有些可以采用离线计算方式，有些则必须采用A/B对照组在线实验。真正的工业化实践中，往往是在诸多指标中寻求平衡，并记录业务效果，所以最终的衡量标准往往还得看点击率和转化率。

四、针对各种业务数据类型的经典算法方案

4.1. 利用用户浏览、购买、评价的记录数据

　　基于用户行为的应用，最典型的就是各种排行榜，例如淘宝指数。

　　早期数据挖掘领域最经典方法是基于销售数据的关联规则发现，一个被反复提起的行业故事是“尿布和啤酒”的故事。这个阶段，数据挖掘算法的主要业务客户来自于金融、电信、零售，这些行业才有条件和动力收集自己的业务数据。

　　而进入互联网时代，协同过滤等算法成为主流算法。这种方法的基础是网站记录下来的用户行为数据。和前面提到“尿布啤酒”案例中的数据相比，互联网应用除了记录下产品的销售数据以外，还拥有每个用户（账号或客户端）的独立行为数据，这样就可以进一步针对每个用户进行个性化推荐。

　　目前工业界最常用的协同过滤算法有两种：基于用户的（user based collaborative filtering）和基于物品的（item based collaborative filtering）协同过滤算法。另外隐语义模型（latent factor model）算法也比较受关注。

4.1.1基于用户的协同过滤算法

　　基于用户的协同过滤算法是整个推荐系统领域最早最经典的算法。这个算法在1992年的提出标志着推荐系统的诞生。目前最著名的使用者是Digg新闻推荐系统。

　　基于用户的协同过滤算法主要包括两个步骤：
　　1> 找到与目标用户兴趣相似的用户集合；
　　2> 找到这个集合中用户喜欢的、且目标用户尚未点击/购买/观看的物品给目标用户。

　　对于步骤1>，要计算两个用户的兴趣相似度。从日志数据里，可以得到两个用户曾经有过正面反馈的物品集合，然后把这两个集合通过Jaccard公式（交集数除以并集数）或通过余弦夹角计算出其距离。

　　有了距离公式，求对于某个用户最相似的Top N用户，就成了一个典型的KNN算法。如果用双层循环，硬算用户两两之间的距离，其时间复杂度是平方级的。

　　但现实情况下，实际上很多用户之间是没有任何交集的，我们可以首先计算交集，只有不为零的用户对才除以分母的并集部分。这就节省了很大一部分计算量。具体算法里可以空间换时间，先创建“物品到用户”的倒排索引，再建立一个稀疏矩阵C用于存储两个用户之间的交集总数。只要扫描所有物品的倒排索引，将其中包含的所有用户之间的交集数加1（利用C），最终就可以得到所有用户之间不为零的交集（也就是C的内容）。

　　得到用户之间的兴趣相似度之后，就开始步骤2>，这就相对比较简单了，只要用一个双重循环，就可以把与目标用户最接近的Top N个用户涉及到的所有物品进行排列，然后再挑选出其中目标用户没有涉及过的前K个产品。

　　对于这个算法，还可以通过各种手段进行预处理，进一步提高效果。一个最常见的问题是“哈里波特现象”，也就是大热的畅销商品导致所有用户之间都有虚假的联系，既增加了运算量，也干扰了预测结果，降低了惊喜度。因此可以对畅销热门商品施加一个权重惩罚值。

4.1.2基于物品的协同过滤算法

　　基于用户的协同过滤算法，其时间复杂度是与用户数目相关的。在大多数电子商务网站上，物品数都是大大小于用户数的。因此亚马逊最早应用了基于物品的协同过滤算法。这个算法目前成了业界应用最多的算法。反过来，Digg、新浪微博等新闻类网站仍然坚持使用基于用户的协同过滤算法，是由于这些网站上的物品（新闻帖子）的数目都是大于用户数的,而且这些物品会的很快过时（几天甚至几个小时）。

　　基于物品的协同过滤算法主要分为两步：
　　1> 计算物品之间的相似度；
　　2> 根据物品的相似度和用户的数据给用户生成推荐结果。

　　与基于用户的协同过滤算法类似，基于物品的协同过滤算法的计算也可以首先建立“用户到物品”的倒排索引，然后对每个用户，将他物品列表中物品两两在矩阵C中加 1。然后将矩阵归一化就可以得到物品之间的余弦夹角。

　　除了前面提到的“哈里波特现象”，基于物品的协同过滤算法也会被“超级买家现象”干扰。如果有用户大量购买各种商品（例如职业出版人和评论家）则会导致算法性能下降，因此需要对过于活跃的用户进行权重惩罚。

　　另外，为了增加推荐的覆盖率和多样性，应该对前面的相似度矩阵C按最大值归一化。这样就能保证被推荐的商品不仅仅来自一个类型中心附近。

4.2. 利用用户对产品的个性化标签（UGC tags）

　　UGC标签系统是很多Web 2.0网站的重要组成部分。使用标签数据进行推荐的网站包括Delicious、Last.fm和豆瓣。

　　基本的利用用户标签个性化推荐算法包括以下几步：
　　1> 统计每个用户最常用的标签；
　　2> 对于每个标签，统计被打过这个标签最多的物品；
　　3> 对于目标用户通过他的常用标签，查找这些标签对应的热门物品，删重并推荐。

　　上面方法倾向于推荐热门标签和热门物品，降低了新颖性。可以借鉴搜索引擎TF/IDF的思路，对热门标签和热门物品进行适当惩罚。

　　进一步，可以适当对标签集合做聚类，计算标签之间的相似度，对标签进行拓展，从而对标签历史比较少的新用户或新物品提供更多推荐。对于相似度的度量，可以认为当两个标签同时出现在很多物品的标记中时，它们相似度较高。因此我们可以利用常规的余弦夹角来计算标签的相似度。

　　再进一步，可以通过清理一些区分性不好的标签，以便提高算法精度，例如词频很高的停止词。也可以让编辑和运营人员进行整理。

4.3. 利用上下文和社交网络数据

　　上下文信息和社交网络数据，均可以为主力推荐算法提供补充，作为参数输入到前面提到的经典算法当中去。

　　例如，利用时间上下文，可以给物品设定一个半衰期，让较新的物品排在前面，这种做法对新闻类的Web 2.0网站很常见。

　　再如，利用位置信息上下文，对很多LBS类应用很关键。具体计算时，可以先对目标用户进行个性化推荐，再利用他所在位置得到一个用户集合，利用这个集合的信息再给出另一个推荐结果，最后把两个推荐结果进行综合。

　　还有，如果能得到一个用户的社交网络信息，就可以获得他的熟人圈子和关注对象列表。基于友好用户的兴趣来推荐或解释推荐结果，对目标用户的感受而言会更加可信。尤其是对于信息流的推荐，更加适合使用社交网络的信息。

　　此外，社交网络的一个标准模块是好友推荐。最常规的方法是推荐“好友的好友”。

五、淘宝的推荐系统的特点

淘宝推荐系统

5.1. 业务场景

　　淘宝的推荐系统主要涉及以下这些业务场景：
　　1>Detail 浏览了还浏览
　　2>收藏夹弹出层推荐
　　3>购物车弹出层推荐
　　4>已买到宝贝你可能感兴趣
　　5>淘宝无线应用
　　6>EDM（重复购买提醒）
　　7>各个垂直频道
　　8>个性化list排序

5.2. 算法应用

　　淘宝推荐系统主要用到了聚类算法，预测算法，分类算法等基础算法产生基础知识库；利用协同过滤算法、基于标签的推荐算法和关联规则发现算法进行推荐。应用方式说明如下：

　　预测算法，例如logistic 回归，通过以点击率为目标，以商品，卖家等因素作为指标，建立预测模型构建淘宝优质宝贝库。

　　分类算法，例如朴素朴素贝叶斯算法，用于对商品和用户进行性别判断（男性、女性、中性）。

　　聚类算法，例如k-means算法，用于对人群进行细分，例如客户流失分析；也用于Big Data条件下的降维。

　　关联规则发现算法，用于发现类目、商品和用户的相关性。

　　协同过滤算法，提供长尾新奇商品的个性化推荐，遇到的问题主要是冷启动。

　　基于标签的推荐算法，优势是实现简单，且与搜索引擎容易配合，缺点是难以区分商品品质，无法照顾惊喜度。

5.3. 特点和需求

　　淘宝推荐系统的特点是用户、商品、类目和商铺的数量都很惊人（数百万店铺信息、4.4亿激活用户、8亿在线商品、数十亿收藏标签、每分钟销售商品4.8万件）。因此前文提到的多数单机内存算法，都面临大数据下的分布式化改写的问题。除此之外，淘宝TCIF团队还希望融入更多信息，例如支付信息，用户访问的第三方网站PV等等。

　　淘宝推荐系统的评价指标包括CTR、GMV和转化率。

　　略……

六、参考文献

　　《推荐系统实践》，2012年6月，项亮，人民邮电出版社
　　《推荐系统@淘宝》，2012 年 7月，空望，百度文库
　　《淘宝网TCIF案例分析：基于海量数据下的消费者研究》，2012年4月，必达，2012数据库技术大会
　　《淘宝海量数据技术》，2011年 11月，空无，百度文库

数据挖掘和哈姆雷特

1 Reply

　　关于推荐系统和数据挖掘想到点好玩的：电子书里的小说情节可以个性化。例如根据读者特点和所处位置修改男主角失恋后去的酒吧。再例如故事结局到底是黑色幽默或者苍凉离去呢，要根据读者是宅男还是文艺女青年来定制。真正实现一千个人眼里有一千个哈姆雷特。

　　好吧我承认，上面这个段子本来是另外一篇更长的文字里的点缀。最近因为工作需要，我在写一份与推荐系统有关的文档，技术和业务都会蜻蜓点水说说皮毛。其中的非涉密内容打算整理成独立一篇BLOG。忍不住先把这个小段子发布出来，也算给自己挖个坑，防止偷懒赖帐。

DNA检测需要多长时间

Leave a reply

　　有人在知乎上问：请教一下现在DNA比对需要多久时间？以前看过一篇文章说CSI剧情不合理，DNA比对需要几天时间，但是今天重庆警方击毙了周克华，晚上就公布了DNA比对的结果。现在做比对到底需要多少时间？

　　我是这么回答的。生物信息的同志们可以去补充更多。

首先对比一下， 2010年8月24日伊春空难遇难者DNA比对，用了20多个小时。2011年5月1日美军击毙本拉登，到第二天宣布DNA检测结果，也不足24小时。

从纯技术角度，最新一代快速测序技术，6-8小时是有可能的。考虑到重庆自己就有符合条件的实验室，而伊春估计是把样品送到省内其他城市的鉴定中心甚至北京，本拉登那次得等特种部队带着尸体从巴基斯坦飞回来，所以这次新闻里这么快还是有可能的。

也许重庆警方是综合各种证据，包括枪支和面容等信息，直接确认身份。而此条新闻中提到DNA确认，并不是从被击毙人的尸体上获得，而是前两天在山上发现的睡袋里的。当时也宣布找到了生物遗留物，进行了基因测序。

joyfire 王乐珩地雷

有事多Google，没事少上网

Category Archives: 科技评论

Across the Great Wall

华大基因收购Complete Genomics

软件研发和团队交流

赞一下豆瓣bubbler

各个公司的数据产品,“指数”里的“中国好声音”

大数据和互联网金融模式

阿里金融业务@ODPS

推荐系统业务调研

数据挖掘和哈姆雷特

DNA检测需要多长时间