sher 发表于 2018-9-21 09:29:27

simhash和minhash实现理解

1. 把文档A分词形成分词向量L,L中的每一个元素都包涵一个分词C以及一个分词的权重W  2. 对L中的每一个元素的分词C进行hash,得到C1,然后组成一个新的向量L1
  3. 初始化一个长度大于C1长度的向量V,所有元素初始化为0
  4. 分别判断L1中的每一个元素C1的第i位,如果C1i是1,那么Vi加上w,否则Vi减去w
  5. 最后判断V中的每一项,如果第i项大于0,那么第i项变成1,否则变成0
  6. 两篇文档a,b分别得到aV,bV
  6. 最后求出aV和bV的海明距离,一般距离不大于3的情况下说明两篇文档是相似的

页: [1]
查看完整版本: simhash和minhash实现理解