文本挖掘的两个方面应用:
(1)分类:
a.将词汇表中的字词按意思归类(比如将各种体育运动的名称都归成一类)
b.将文本按主题归类(比如将所有介绍足球的新闻归到体育类)
(2)检索:用户提出提问式(通常由若干个反映文本主题的词汇组成),然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。
文本分类中出现的问题:
(1)一词多义 比如bank 这个单词如果和mortgage, loans, rates 这些单词同时出现时,bank 很可能表示金融机构的意思。可是如果bank 这个单词和lures, casting, fish一起出现,那么很可能表示河岸的意思。 (2)一义多词 比如用户搜索“automobile”,即汽车,传统向量空间模型仅仅会返回包含“automobile”单词的页面,而实际上包含“car”单词的页面也可能是用户所需要的。
LSA原理: 通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。技术上通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。 流程: (1)分析文档集合,建立词汇-文本矩阵。 (2)对词汇-文本矩阵进行奇异值分解。 (3)对SVD分解后的矩阵进行降维 (4)使用降维后的矩阵构建潜在语义空间
LSA详细流程:
LSA初始矩阵的生成: (1)生成词汇库(以英文文本为例) a从文本中过滤非英文字母字符; b过滤禁用词; c相同词根单词归一; d词汇统计和排序: e生成词汇库 (2)生成词汇-文本矩阵 由各索引词在每篇文本中的出现频率生成词汇-文本矩阵 X 该矩阵中(第 i行第 j 列的元素数值aij 表示第 i个索引词在第 j 篇文本中出现的频率或者TF-IDF加权词频)
初始矩阵中每一行对应一个词,每列对应一篇文章,M个词和N篇文章可以表示为如下MX N的矩阵
(3)奇异值分解
如下图将一个大矩阵分成3个小矩阵相乘 的形式。
(1)第一个小矩阵X是对词进行分类的一个结果,它的每一行表示一个词,每一列表示一个语义相近的词类,这一行中每个非零元素表示每个词在每个语义类中的重要性(或者说相关性)
如X = [0.7 0.15;0.22 0.49;0.3 0.03]
则第一个词和第一个语义类比较相关,第二个词正好相反,第三个词与两个语义都不相关。
(2)第二个小矩阵B表示词的类和文章的类之间的相关性
如B = [0.7 0.21;0.18 0.63]
则第一个词的语义类和第一个主题相关,和第二个主题没有太多关系,第二个词的语义类则相反
(3)矩阵Y是对文本进行分类的一个结果,它的每一行表示一个主题,每一列表示一个文本,这一列每个元素表示这篇文本在不同主题中的相关性如Y =[0.7 0.15;0.22 0;0.92 0.08]
则第一篇文章属于第一个主题,第二篇文章和第二个主题非常相关,第三篇文章与两个主题都不相关
实例:
对一下九个标题进行分类以及对提问式human computer interaction进行检索
标题(人机互动和图形) c1: Human machine interface for Lab ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user-perceived response time to error measurement m1: The generation of random, binary, unordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey
(1)构建词汇-文本矩阵 (2)使用MATLAB进行奇异值分解然后对其进行降维:
(3)由 T和D得各个词汇和文本的二维坐标向量为:
根据以上结果可以分别实现对于单词和文本意思的分类
(4)检索: 提问式 human computer interaction 矩阵表示:Xq[1 0 1 0 0 0 0 0 0 0 0 0] 降维后语义空间向量Dq=Xq*T*S^-1=(0.138 -0.028) 计算向量间夹角后发现返回文章c1(h1-h9分别是提问式和原文本的向量间夹角,夹角为90度附近说明关联性很差)
参考文献:
a comparative study of TF-IDF,LSI and multi-words for text classfication-- Wen Zhang , Taketoshi Yoshida , Xijin Tang 数学之美(p137-142)--吴军 LSI潜在语义信息检索模型--何伟 潜在语义分析在文本信息检索中的应用研究--卢健 潜在语义分析理论研究及其应用--陈洁华
版权声明:本文为博主原创文章,未经博主允许不得转载。