黄聪：Python+NLTK自然语言处理学习（二）：常用方法（similar、common_contexts、generate）

vivion32 发表于 2015-4-28 00:53:42

一、similar
　　用来识别文章中和搜索词相似的词语，可以用在搜索引擎中的相关度识别功能中。

text1.similar("monstrous")
　　查询出了text1中与monstrous相关的所有词语：

　　

二、common_contexts
　　用来识别2个关键词相似的词语。

text2.common_contexts(["monstrous","very"])

　　

三、generate
　　用来自动生成文章。

text3.generate()

　　

四、len
　　可以用于判断重复词密度

from __future__ import division
len(text3) / len(set(text3))

　　图中显示正文字数/不重复词语字数 = 16，说明有15/16是无效字符。
　　

五、count
　　可以用于判断关键词密度。

text3.count('smote') / len(text3)

页: [1]

运维网's Archiver

黄聪：Python+NLTK自然语言处理学习（二）：常用方法（similar、common_contexts、generate）