vivion32 发表于 2015-4-28 00:53:42

黄聪:Python+NLTK自然语言处理学习(二):常用方法(similar、common_contexts、generate)

一、similar
  用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中。



text1.similar("monstrous")
  查询出了text1中与monstrous相关的所有词语:

  

二、common_contexts
  用来识别2个关键词相似的词语。



text2.common_contexts(["monstrous","very"])

  

三、generate
  用来自动生成文章。



text3.generate()

  

四、len
  可以用于判断重复词密度



from __future__ import division
len(text3) / len(set(text3))

  图中显示 正文字数/不重复词语字数 = 16,说明有15/16是无效字符。
  

五、count
  可以用于判断关键词密度。



text3.count('smote') / len(text3)
页: [1]
查看完整版本: 黄聪:Python+NLTK自然语言处理学习(二):常用方法(similar、common_contexts、generate)