深圳SEO设为首页收藏本站

深圳SEO|网站优化|网络推广|网络营销|网站排名-第六维网络

 找回密码
 立即注册

QQ登录

只需一步,快速开始

第六维SEO博主简介

第六维网络科技博主5年SEO大型网站优化经验,毕业于SEO搜外课堂,SEO研究协会网总群管理员,接手几十个装修,搬家,婚纱摄影,培训网站优化经验,

研究web超链分析算法、PageRank算法、HITS算法、SALSA算法、PHITS算法、贝叶斯算法、Reputation算法。基于随机漫游模型的,比如PageRank,Repution算法。精通数据统计、数据分析、产品分析、用户心理,数据挖掘,长尾关键字全覆盖战略,

优化过大型网站权重6的留学网站,权重4的教育网站,拥有大批外链资源,高权重友情链接资源,新闻源媒体资源,SEO排名的核心是用户需求点的挖掘,精通搜索引擎原理、链接策略、蜘蛛抓取规则、tf/idf、向量空间模型、关键词挖掘、关键词定位、关键词布局、用户需求、文本处理、数据分析、流量统计、工具使用、竞争对手分析,

主要业务有:为深圳中小企业提供SEO顾问,网站排名,网络推广,网络营销,SEO整站优化。电话:15173140967 联系QQ:784828177QQ咨询

搜索
热搜: 活动 交友 discuz
查看: 2877|回复: 0

向量空间模型(Vector space model)

[复制链接]

690

主题

713

帖子

3468

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3468

最佳新人活跃会员热心会员推广达人宣传达人灌水之王突出贡献优秀版主荣誉管理论坛元老

发表于 2015-2-22 21:32:40 | 显示全部楼层 |阅读模式
向量空间模型(Vector space model)
长沙SEO获悉到,Salton在上世纪60年代提出的向量空间模型进行特征表达;成功应用于SMART( System for the Manipulation and Retrieval of Text)文本检索系统;这一系统理论框架到现在仍然是信息检索技术研究的基础。
模型的描述
文档D(Document):泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。
索引项t(Term):指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指的检索词,这样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检索字的数量。
特征项权重Wk(Term Weight):指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。
相似度S(Similarity):指两个文档内容相关程度的大小
模型的特点
基于关键词(一个文本由一个关键词列表组成)
根据关键词的出现频率计算相似度
例如:文档的统计特性
用户规定一个词项(term)集合,可以给每个词项附加权重
未加权的词项: Q  = <database; text; information >
加权的词项: Q = <database 0.5; text 0.8; information 0.2 >
查询式中没有布尔条件
根据相似度对输出结果进行排序
支持自动的相关反馈
有用的词项被添加到原始的查询式中
例如:Q=> <database; text; information; document >
模型中的问题
怎样确定文档中哪些词是重要的词?(索引项)
怎样确定一个词在某个文档中或在整个文档集中的重要程度?(权重)
怎样确定一个文档和一个查询式之间的相似度?(内积、余弦值)
索引项的选择
若干独立的词项被选作索引项(index terms) or 词表vocabulary
索引项代表了一个应用中的重要词项
这些索引项是不相关的 (或者说是正交的) ,形成一个向量空间vector space
实际上,这些词项是相互关联的
当你在一个文档中看到 “计算机”, 非常有可能同时看到“科学”
当你在一个文档中看到 “电子”, 有中等的可能性同时看到 “商务”
当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”
词项的权重
根据词项在文档(tf)和文档集(idf)中的频率(frequency)计算词项的权重
tfij = 词项j在文档i中的频率
df j = 词项j的文档频率= 包含词项j的文档数量
idfj = 词项j的反文档频率= log2 (N/ df j)  
N: 文档集中文档总数
反文档频率用词项区别文档
查询式的词项权重
如果词项出现在查询式中,则该词项在查询式中的权重为1,否则为0
也可以用用户指定查询式中词项的权重
一个自然语言查询式可以被看成一个文档
查询式:“有没有周杰伦的歌?” 会被转换为:
<周杰伦, 歌>
查询式: “请帮我找关于俄罗斯和车臣之间的战争以及车臣恐怖主义首脑的资料” 会被转换为:
<俄罗斯 2, 车臣 2, 战争1, 恐怖主义1, 首脑 1>
过滤掉了:“请帮我找”,“和”,“之间的”,“以及”,“的资料”
两个文档之间的相似度可以同理计算
由索引项构成向量空间
2个索引项构成一个二维空间,一个文档可能包含0, 1 或2个索引项
di = <0, 0 > (一个索引项也不包含)
dj = < 0, 0.7 >  (包含其中一个索引项)
dk = < 1, 2 >  (包含两个索引项)
类似的,3个索引项构成一个三维空间,n个索引项构成n维空间
一个文档或查询式可以表示为n个元素的线性组合
文档集 – 一般表示
长沙网站优化了解到,向量空间中的N个文档可以用一个矩阵表示
矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中没有意义,或该词项不在文档中出现。
相似度计算
相似度是一个函数,它给出两个向量之间的相似程度,查询式和文档都是向量,各类相似度存在于:
两个文档之间(文本分类,聚类)
两个查询式之间(常问问题集)
一个查询式和一个文档之间(检索)
人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。
通过计算查询式和文档之间的相似度
可以根据预定的重要程度对检索出来的文档进行排序
可以通过强制设定某个阈值,控制被检索出来的文档的数量
检索结果可以被用于相关反馈中,以便对原始的查询式进行修正。 (例如:将文档向量和查询式向量进行结合)
相似度度量 – 内积(Inner Product)
文档D 和查询式Q 可以通过内积进行计算:
对于二值向量, 内积是查询式中的词项和文档中的词项相互匹配的数量
对于加权向量, 内积是查询式和文档中相互匹配的词项的权重乘积之和
内积的特点
内积值没有界限
不象概率值,要在(0,1)之间
对长文档有利
内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败
长文档包含大量独立词项,每个词项均多次出现,因此一般而言,和查询式中的词项匹配成功的可能性就会比短文档大。
向量空间优点
术语权重的算法提高了检索的性能
部分匹配的策略使得检索的结果文档集更接近用户的检索需求
可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序
不足
标引词之间被认为是相互独立
随着Web页面信息量的增大、Web格式的多样化,这种方法查询的结果往往会与用户真实的需求相差甚远,而且产生的无用信息量会非常大
隐含语义索引模型是向量空间模型的延伸

本文作者:长沙SEO
回复

使用道具 举报

*验证码:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

深圳SEO|网站优化|网络推广|网络营销|网站排名-第六维网络    

GMT+8, 2018-1-17 01:07 , Processed in 0.067342 second(s), 32 queries .

Powered by 长沙网站优化 X3.2

© 2001-2013 百度关键字排名优化 Templated By SEO谋士团

快速回复 返回顶部 返回列表