设为首页 收藏本站
查看: 833|回复: 0

[经验分享] Python自然语言处理读书笔记-第5章

[复制链接]

尚未签到

发表于 2015-4-25 09:59:45 | 显示全部楼层 |阅读模式
  前言:
  实习需要用到自然语言处理方面的知识。关于自然语言处理,说实话,打心眼里有抵触。
  我很喜欢AI的,但是我觉得语言的理解,特别是中文的不确定性,使得我个人认为语言理解与处理
  是一件非常棘手的问题,而且不会取得太好的效果。再加上编译原理留下的阴影。使得我虽然
  知道自然语言处理 以后必然 有用,但是还是没有选这门课。这不,还是要自学。
  这本《Python自然语言处理》是自己找到的,电子版的,虽然不知道好坏,但老外的书,我还是
  比较放心的。可惜老外的书就不会以汉语为例子了。我不打算全篇通读,我打算先读些,我认为最重要或最感兴趣的。
  喜欢感兴趣的朋友可以和我一起讨论,有讨论才有进步吗。
  目标:
  1.切词
  2.词性,组词
  3.同义词,反义词,词意理解
  4.数据组织与存放
  大致扫了一下,决定主要看第5章和第7章,其它的以后再说。
  第5章 分类和标注词汇
  词性标注,先看例子。



import nltk
text1 = ['I','love','you']
text2 = ['Love','is','good']
print nltk.pos_tag(text1)
print nltk.pos_tag(text2)
  运行结果如下:
  [('I', 'PRP'), ('love', 'VBP'), ('you', 'PRP')]
[('Love', 'NNP'), ('is', 'VBZ'), ('good', 'JJ')]
  同一个Love不同的结果。我很像知道这是怎么做到的。
  显然Love一般只可能是动词或名词。那么如何识别什么时候是动词,什么时候是名词呢。
  再看一个例子:



1 import nltk
2 from nltk.corpus import brown
3
4 #使pos成为某个特殊的dict数据结构,不用深究
5 pos = nltk.defaultdict(lambda: nltk.defaultdict(int))
6 #获得一个已经标注词性的语料库,每个词以元组 (词,词性)的形式出现
7 brown_news_tagged = brown.tagged_words(categories = 'news', simplify_tags = True)
8 for((w1,t1),(w2,t2)) in nltk.ibigrams(brown_news_tagged):
9     pos[(t1,w2)][t2] += 1
10 #查看当单词right前面单词词性是DET时,right的可能词性
11 print pos[('DET','right')]
  结果如下:
defaultdict(, {'ADV': 3, 'ADJ': 9, 'N': 4})
  难道是基于统计加概率的方法来计算一个词在具体语境中的词性,不会吧。
  终于到重点了,各位是不是一样都很激动呢。
  先从一元标注器1-gram说起,其意思应该是不考虑上下文,只考虑单词本身。
  1.默认标注器
  文中接着使用nltk.DefaultTagger('NN')定义了一个默认标注器,将所有词都标注成NN 即名词。
  并且指出大多数新词都是名词,所以默认标注器可以帮助我们提高语言处理系统的稳定性。
  2. 正则表达式标注器
  例如,以ed结尾的可能是动词过去分词。不过这些好像在中文里没用。
  3.查询标注器
  查询标注器就是事先将一些频繁词出现最多的词性记录下来。文中还指出对于那些没记录的词,可以
  结合默认标注器。随着频繁词的增加,这个标注器的准确率上升很快,但是达到一定量后趋于平衡。
  n-gram标注器:考虑待标记词前面n-1个词的词性。
  同样是记录在已知上下文中,当前词最有可能出现的词性。
  需要使用语料库进行训练。在实践中,当n越大,越容易出现数据稀疏问题。所以n的选取需要对精度和覆盖进行权衡。
  n-gram说白了就是对词性组合规律的一种模型学习,遗憾的是文中对于学习的方法没有细谈。
  或许可以训练得到一颗决策树。
  
  
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-60468-1-1.html 上篇帖子: Python中zip()函数用法举例 下篇帖子: 黄聪:使用 Python 登录网站
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表