转贴:向量相似度的计算和向量夹角余旋的关系

向量相似度的计算和向量夹角余旋的关系作者:admin 日期:2006-10-11

字体大小: 小 中 大

  

  

在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1

其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1

在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10),则根据上式计算出来的文本D1与类目C1相关度是0.86

那个相关度0.86是怎么算出来的?

是这样的,抛开你的前面的赘述

在数学当中,n维向量是 V{v1, v2, v3, ..., vn}

他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )

两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn

相似度 = (m*n) /(|m|*|n|)

物理意义就是两个向量的空间夹角的余弦数值

对于你的例子

d1*c1 = 30*40 + 20*0 + 20*30 + 10*20 + 0*10 = 2000

|d1| = sqrt(30*30 +20*20 + 20*20 + 10*10 + 0*0) = sqrt(1800)

|c1| = sqrt(40*40 + 0*0 + 30*30 + 20*20 + 10*10) = sqrt(3000)

相似度 = d1*c1/(|d1|*|c1|)= 2000/sqrt(1800*3000)= 0.86066

向量相似度的计算和向量夹角余旋的关系作者:admin 日期:2006-10-11

字体大小: 小 中 大

  

  

在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1

其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1

在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10),则根据上式计算出来的文本D1与类目C1相关度是0.86

那个相关度0.86是怎么算出来的?

是这样的,抛开你的前面的赘述

在数学当中,n维向量是 V{v1, v2, v3, ..., vn}

他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )

两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn

相似度 = (m*n) /(|m|*|n|)

物理意义就是两个向量的空间夹角的余弦数值

对于你的例子

d1*c1 = 30*40 + 20*0 + 20*30 + 10*20 + 0*10 = 2000

|d1| = sqrt(30*30 +20*20 + 20*20 + 10*10 + 0*0) = sqrt(1800)

|c1| = sqrt(40*40 + 0*0 + 30*30 + 20*20 + 10*10) = sqrt(3000)

相似度 = d1*c1/(|d1|*|c1|)= 2000/sqrt(1800*3000)= 0.86066


相关内容

  • 向量相似度测度方法
  • I,)1( 第28卷第4期2009年8月 声学技术 TechnicalAcoustics V01.28,NO.4 Aug.,2009 向量相似度测度方法 张宇,刘雨东,计钊 (中国船舶重工集团公司第七六.研究所,大连116013) 摘要:判断阿个向量的相似程度,一般采用计算相似度的方法.首先对相似度 ...

  • TF-IDF与余弦相似性的应用(二):找出相似文章
  • 上一次,我用TF-IDF算法自动提取关键词. 今天,我们再来研究另一个相关的问题.有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章.比如,"Google新闻"在主新闻下方,还提供多条相似的新闻. 为了找出相似的文章,需要用到"余弦相似性"(cos ...

  • 高一数学 平面向量应用举例 教案
  • 高一数学 平面向量应用举例 教案 一.教学分析 1.本节的目的是让学生加深对向量的认识,更好地体会向量这个工具的优越性.对于向量方法,就思路而言,几何中的向量方法完全与几何中的代数方法一致,不同的只是用"向量和向量运算"来代替"数和数的运算".这就是把点.线. ...

  • 不变子空间.若当.最小多项式(简介)
  • §7 不变子空间 ◎ 本节重点:不变子空间的定义与"限制". 已知可对角化对应于对角矩阵,但是并不是每个都能对角化的.退一步,对应于准对角形也好:虽然比对角形复杂,但也算简单.这个问题的研究需要用到不变子空间的概念. 一.定义与例子 1.定义:σ∈L(Vn),W是σ的不变子空间⇔ ...

  • 中文文献的层次分类方法
  • 中 文 信 息 学 报 第13卷第6期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.13No.6 Ξ中文文献的层次分类方法 战学刚 林鸿飞 姚天顺 摘要 ,在对文献进行分类时,往往很难区,提出根据类别体系的层次结构,自顶向下,;并根据概念词典,将同义词或下位概念映 ...

  • 2016数学一大纲
  • 2016年数学一考试大纲 考试科目:高等数学.线性代数.概率论与数理统计 考试形式和试卷结构 一.试卷满分及考试时间 试卷满分为150分,考试时间为180分钟. 二.答题方式 答题方式为闭卷.笔试. 三.试卷内容结构 高等教学 约56% 线性代数 约22% 概率论与数理统计 约22% 四.试卷题型结 ...

  • 基于音频比对的声纹识别技术
  • 第26卷第4期 佛山科学技术学院学报(自然科学版) 2008年7月 Jou rnal of Fo shan U n iversity (N atu ral Science Editi on ) 文章编号:100820171(2008) 0420001205. 26N o . 4V o l . 200 ...

  • 初等数学研究期末复习要求
  • 初等数学研究期末复习要求 Chap5 1. 了解中学几何研究的内容与方法 了解欧式几何公理体系的基本要求 注:题型:填空与选择 见书本引言与第一节 2. 了解推理与证明思维形式与基本组成部分,掌握逻辑运算的基础知识 注 Chap5 第二节 Chap1 简言逻辑 3. 掌握常见平面图形的性质与有关计算 ...

  • 立体几何知识点总结
  • 1.棱柱.棱锥.棱(圆)台的本质特征 ⑴棱柱:①有两个互相平行的面(即底面平行且全等),②其余各面(即侧面)每相邻两个面的公共边都互相平行(即侧棱都平行且相等). ⑵棱锥:①有一个面(即底面)是多边形,②其余各面(即侧面)是有一个公共顶点的三角形. ⑶棱台:①每条侧棱延长后交于同一点,②两底面是平行 ...