Web挖掘概述

自Web2.0时代开始,网站提供的功能不在仅仅是页面信息的展示了。更多的是与用户的交互,而在与用户的交互的过程中,又会产生很多的数据。

因此,一些公司就针对Web的数据进行了数据挖掘和分析。

针对Web2.0时代的网站数据分析,主要有:内容挖掘,结构挖掘和日志挖掘三种挖掘方向。

其中,内容挖掘,包括文本挖掘和多媒体挖掘;Web结构挖掘,包括URL挖掘和内外结构挖掘;Web日志挖掘包括一般访问模式追踪和个性访问模式追踪。

Web挖掘的基本步骤主要包括:
数据预处理,包括数据的清洗、用户识别、会话识别和事务识别等过程,对原始Web日志文件中的数据进行提取、分解和合并,转化成合适Web挖掘的的数据格式。

模式识别,模式识别对预处理后的数据进行分析,从中挖掘出潜在的模式。

模式分析,主要任务是从预处理的数据集中过滤掉用户不感兴趣的模式,发现有价值的指示。

可视化技术呈现Web挖掘的结果。

Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各类型的数据。

这里的内容既包括网页,也包括搜索引擎的结果。对非结构化的文本进行Web挖掘,称为文本挖掘,是Web挖掘中比较重要的领域。

Web多媒体数据挖掘可以从多媒体数据中提取隐藏的知识、多媒体数据关联或者说其他没有直接存错在多媒体数据库中的模式,Web多媒体挖掘首先进行多媒体文件的特征选取,然后再用传统的数据挖掘方法进行下一步分析。

Web文本挖掘的方法主要包括文本概括、文本分类和文本聚类等。

文本概括是指从文本集中抽取关键信息,用简洁的形式总结文本集的主题内容。

文本分类是把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模式,然后利用这种关系模型来判断新文本的类别。情感分析是文本分类的热点应用领域,

文本聚类是指根据文本的不同特征划分为不同的类,目的是使属于同一类的文本之间的差别尽可能小,而不同类别的文本之间的差异尽可能大。

文本聚类和分类之间的区别是分类学习的样本有类别标记,二聚类的样本没有确定的类别。
此外,Web挖掘还包括从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。

关于聚类分析的使用,首先是需要进行分词和数据清洗,去掉停用词
而后再进行关联分析。

简要介绍典型的文档聚类的过程:首先利用网络爬虫搜索相关网站,下载数据并将其转换成文本数据,然后搜索其中的关键词,选择一定数量的关键词组成文档向量,利用聚类算法对这些文档进行聚类,对每一类文档也可以抽取其中的高频词汇。当用关键词查询的时候,就能够查询出相关主题的一组文档了。

TF-IDF算法(term frequence -inverse document frequence)
TF-IDF算法是文档特征项(关键词)权重计算的一种重要方法,用于计算每个词对文档的描述能力,其基本思想是某个词在文档中出现的频率越高,且在其他文档中很少出现,则该词对该文档的描述能力越强。该算法多用于信息检索、文本挖掘、文本分类等领域。

理解反转:
区分是表明差异性的,如果用( 某词在某文档中出现的次数/总文档数 )这一指标来衡量,只能发现,该数据越大,说明不能显示该词的特殊性和概括性,因此用起倒数,倒数的值越大,说明该词在所有文档中出现的次数不多,而且集中在该文档中,就更能显示出该词的特殊性了。
TF 计算词频
tf=某词的频数/文档中出现次数最多的词的词频

IDF
idf=log(总文档数/包含某词的文档数)