随着互联网的日益普及,安徽某大学科技园的各类信息和服务需求在很大程度上已经可以通过互联网数据的采集分析来完成。根据CNNIC今年的最新统计,中国现已有网民4.85亿,各类站点域名130余万个,据市场研究机构eMarketer估计,2013年中国网民将增会达到8.4亿人,互联网已经成为汇聚各类企事业组织动态和社情民意的最大平台。在国外,甚至包括CIA这样的情报机构已有70%的情报来源于互联网上的开放数据分析,但面对网上海量信息,单纯依靠人工进行处理已不可能,引入智能化的软件工具势在必行。
另一方面,云计算作为一种新兴的共享基础架构的方法,物理形态通常为大型的服务器集群,包括计算服务器、存储服务器、宽带资源等,它可以将大的系统池连接在一起以提供各种IT服务,并由软件实现自动管理,无需人为参与,用户在享用服务时犹如打开水龙头接水一样方便简洁的享受信息服务,而不必关心后台的技术有多复杂。由于云计算具有普适、方便、可用性强等一系列的优势,正在受到越来越多的关注,并呈现出广阔的市场前景。作为服务上百家企业的园区,通过云服务的方式为上百家在孵企业提供信息服务支持便成了一种必然的选择。
为了满足园区在招投标,行业资讯,竞争情报,最新政策等方面的信息需求,宝德设计并实现了情报云服务平台,初期要达到的技术指标有:
1.50,000以上重点网站(更新频率在5分钟以内)的采集和检索,普通网站支持在400,000以上,支持媒体包括新闻,论坛,博客,微博,图片和视频等。其中网页索引量不低于2亿(不含微博)。
2. 除了支持存储静态网页快照文件外,还应支持新闻和论坛中出现的图片存储和部分视频的存储,其中静态html文件存储量不低于2亿,图片存储量不低于1亿。
3 在10,000个并发用户的情况下,单次查询数据库响应时间小于0.1s,单次索引查询响应时间小于0.2s。
为实现上述技术指标,搭建云计算数据计算中心,实现海量信息的采集,存储,分析和检索。该数据中心是云服务平台运行的软硬件环境,数据中心的建设满足系统运行的基本要求。根据平台的业务和数据计算中心建设的一般规律,宝德从云设备选型特制定本方案。
一、业务需求分析
科技园互联网情报采集与智能分析系统架构
1.1 情报管理和规划
根据该大学科技园的实际情况,需要系统采用灵活的情报分类体系定义方式,以方便科技园灵活定义情报需求。为此,需要预先规划欲收集情报的行业,欲采集的主题。系统能根据园区诉求会生产网站采集频道,并确定信息采集源。
1.2 信息采集
由于园区采集的信息涉及面广,因而需要系统支持多种信息源的采集,除了包括论坛,博客,新闻,政府门户网站等静态网页信息,还应包含一些政策法规文件的电子文档(如pdf,doc,xls,ppt等),培训用视频和图片文件等。需要系统能够提供异构信息整合工具,将非结构化信息结构化,转换为统一的数据格式进行存储,对外能提供统一的查询和统计接口。
1.3 信息自动分类
大学科技园需加工和处理的信息类型多样,包括政策法规信息,竞争对手信息,园区内部信息,舆情口碑信息,创业培训资源,如何对这些资源进行分类管理,有序使用,是一个迫切需要解决的问题,为此平台应集成信息自动分类功能,能将自动归类后,形成不同频道,便于园区进行查询和归档。除此之外,系统还应该提供分类规则定义工具和自动训练器,用户可以自定义分类主题和分类规则,进行灵活分类;系统还集成分类训练器功能,用户指定类别和训练样本后,自动生成训练模型进行分类预测。
1.4 自动排重
互联网存在大量重复信息,如果能对这些重复信息进行自动判定,那么为情报人员节约大量时间,系统排重除了能够支持url的排重外,还能支持内容排重功能,能抽取文档的特征词,设定内容相似度阈值,来调整排重的召回率和准确率。
1.5 自动摘要
摘要是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。如果计算机程序能根据文章的外在特征抽取能够表达其中心意思的原文部分句子作为摘要,那么将会大大大幅情报人员的工作效率。系统能输出反映文章大意的静态摘要,基于用户查询输出反映查询意图的动态摘要。
1.6 主题跟踪
系统能够根据用户定义的主题进行相似主题的检测,并形成专题聚焦,能够自动发现新闻和帖子的源头,记录转载顺序,并跟踪,预测主题未来的发展趋势。
1.7 信息自动的发布
系统可以基于用户设置的模板自动生成简报,简报支持多种媒体信息,包括图片,表格,文字等。
通过手机客户端或PC能浏览系统自动生成的网站频道,查看竞争情报或舆情信息,对于危机舆情和敏感信息,系统能够自动预警。
用户也可以根据多种查询条件,查询感兴趣的信息。
二,配置方案
根据业务的分析主要选定的云设备包括服务器,存储设备,网络设备等。服务器的类型定为机架式服务器。机架式服务器被安装在标准的机柜中,占用的空间小,便于管理和维护。根据功能需要,需要配置以下几种服务器。
信息采集服务器
为了保证信息采集的及时性,需要进行多线程并发下载,同时要进行下载调度,反垃圾等,对网络带宽,网卡和CPU处理速度要求较高。考虑到该机器需要根据数据规模进行水平扩展,故选择成本较低,易扩展的PC 服务器。适合做下载服务器的机器PR1280R配置为:内存8G DDR3,CPU为至强E3 2.3Ghz 4核。网卡为千兆双网卡,硬盘为500G。
存储和分析服务器
主要用于构建分布式文件系统,实现对快照,图片的分布式存取。对硬盘容量和磁盘读取速度有要求。另外该集群也可以通过离线或在线分布式计算实现数据分析。根据业务情况,选择易扩展,容量扩充相对便宜的PC服务器。 适合做存储和分析服务器的机器PR1280R配置为:内存4G DDR3;CPU至强E3 2.3Ghz 4核;网卡选用千兆双网卡。硬盘容量2T。该机器配置同采集服务器基本相同,但硬盘容量为2T。
数据库服务器
主要用于存储用户设置信息,组信息,规则,使用记录,站点和监控词信息等。同时作为缓存服务器,缓存用户频繁访问的信息。适合做数据库服务器的服务器PR2310R配置为:内存16G DDR3,支持最大内存48G,CPU为Intel(R) Xeon(R) CPU E5 2.13GHz,网卡为千兆双网卡,硬盘为500G SATA。
检索服务器
用于存储索引文件,对外提供数据快速检索服务,对CPU,内存都有较高要求。适合做检索服务器PR2310R的配置为:内存24G DDR3,支持最大内存48G,CPU为2*Intel(R) Xeon(R) CPU E5 2.13GHz,网卡为双千兆网卡,硬盘为3T(3*1T)。
Web服务器
面向外部用户,提供web服务,包括面向用户的应用,包括信息门户,简报,查询和预警等。还能为管理提供后台管理的功能。适合做web服务器PR1310R的配置为:内存8G DDR3,支持最大内存48G,CPU为Intel(R) Xeon(R) CPU E5 2.13GHz,网卡为双千兆网卡,硬盘为1T SATA。