海量学术文献资源的知识挖掘技术与模式(2)
2.2 Web挖掘技术现在网络在技术应用、规模复杂程度等方面都有突飞猛进的发展,包括多行业的内容信息、广泛的超链接信息还有Web自身页面的访问及使用信息。Web挖掘指的是通过数据挖掘技术从Web文档以及Web活动中抽取出人们感兴趣的、对人们有帮助的信息。
Web挖掘分为3种类型[7]:⑴Web内容的挖掘。对Web自身页面的内容进行挖掘,主要通过对非结构化的数据,像文本、音频、视频以及图形图像等多种数据结合的信息进行挖掘。⑵Web结构的挖掘。通过对Web页面之间的结构来进行挖掘,通过对WWW之间的组织结构以及连接间的关系来推理知识,例如HITS算法即属于对Web结构的挖掘。⑶Web使用信息的挖掘。通过Web日志文件及相关数据,对用户查看Web时留下的记录进行挖掘,从而发现人们查找Web页面的规律及模式。
2.3 数据仓库技术
数据仓库是由面向主题的、集成的、稳定的、并且随时间变化而变化的数据组成的,对经营管理起决策性作用。一方面,数据仓库用来支持决策,对分析型数据进行处理,与现在数据库的操作模式不一样;另一方面,数据仓库对不同主题、不同来源的数据库进行重新组合。
数据仓库系统由4个方面组成:⑴数据源,是数据仓库系统的基本组成部分。⑵数据的存储与管理。是数据仓库系统的主要组成部分,对数据库的管理起到了关键性的作用。⑶OLAP服务器。通过对有用的数据进行分析,按照多维模型结构进行重组,有利于朝更广、更深层次的方向发展,从而发现未来的走向。⑷前端工具,是由各种报表工具、查询工具、数据分析工具、数据挖掘工具等组成 ......
您现在查看是摘要页,全文长 6116 字符。