数据挖掘技术谁最强?首次在中国大陆举办的CMKI CUP(国际数据挖掘竞赛)日前闭幕,盛大文学力克ebay等等国际强劲对手,以优异成绩摘得本次竞赛的桂冠。这不仅显示了盛大文学在用户需求挖掘方面的实力,也代表了 “大数据”时代,中国在数据挖掘和信息检索方面的国际领先地位。
CIKM的全称是International Conference on Information and Knowledge Management,是信息检索和知识管理领域的国际著名学术会议,堪称数据挖掘和信息检索方面技术的“奥林匹克”,今年首次在中国大陆举行,会议邀请到了Google的大神级人物Jeff Dean、微软的执行副总裁陆奇博士和德国Max Planck Institute for Informatics的Gerhard Weikum教授担任主讲人,盛况空前。
由盛大文学首席数据官陈运文博士带领的“TOPdata”团队,占据主场之利与全世界的数据挖掘科学家们一较高下——竞赛的目标是通过机器学习技术来识别用户查询意图(Query Intent Detection,QID)。主办方联合了百度公司,提供了百度线上的6千余万行用户的真实查询日志和点击行为数据,要求参赛队伍根据用户的行为数据,设计算法来自动判读出用户的需求意图。例如当用户在搜索“北京上海”时,同时还在查询“上海 天气”、“高铁车票”等信息时,计算机要能聪明地判断出用户的需求是“从北京到上海的出行”并返回相对应的各类高价值的信息。参赛队伍所开发的系统,对用户意图的识别既要全面又要准确。比赛一共吸引了全球遍布学术界和企业界的520支队伍参赛,盛大文学代表队所设计的算法,通过周密的用户行为特征分析,和多个机器学习算法的训练和融合技术,在比赛中不断超越,最终以优异的成绩一举夺魁。
据悉,参加此次竞赛的盛大文学数据团队承担了全公司大数据相关系统的研发工作,负责从海量的文学作品和用户数据中挖掘高价值的内容,不但读者们提供高质量的各类服务,也为文学作品版权的衍生如影视剧改编、游戏改编等业务提供了大量的数据指导和帮助。“盛大文学是全球最大的社区驱动型网络文学平台,在我们首创的网络文学模式下创造出来的内容,天生就带来了完整的覆盖了内容、社区、流量、用户属性和用户行为等全方位的海量数据”,陈运文表示:“我们的团队就是在这样的‘数据海洋’中天天锻炼,拿世界冠军,舍我其谁?!”