设为首页 收藏本站
查看: 832|回复: 0

[经验分享] 【语言处理与Python】1.1文本和单词

[复制链接]

尚未签到

发表于 2015-4-23 06:29:28 | 显示全部楼层 |阅读模式
  【前言】
自然语言:日常交流使用的语言
NLP:Natural Language Processing
【第1章 语言处理与Python】
1.1语言计算:文本和单词
基本入门
-想要获得我们期望的小数除法,要输入from __future__ import division
-下载NLTK数据包
import nltk
nltk.download()
-加载要用的文本
from nltk.book import *
搜索文本
-concordance词汇索引,会显示词汇所处的上下文
text1.concordance("monstrous")
-similar,查找还有哪些词会出现在相似的上下文中
text1.similar("monstrous")
-common_contexts,允许我们研究两个或者两个以上的词共同的上下文
text2.common_contexts(["monstrous","very"])
-dispersion_plot,判断词汇在文本中的位置,使用离散图来表示位置。
text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])
-不同风格生成文本
text3.generate()
计数词汇
-len(text3)出现的词和标点符号的个数
-sorted(set(text3))所有文章出现的词汇,并且进行排序(词类型,一个词在一个文本中独一无二出现的形式或者拼写)
-from __future__ import division
len(text3)/len(set(text3))
丰富度测量,每个字平均被使用的次数
-text3.count("smote")特定次出现的次数
-100*text4.count('a')/len(text4)特定的词在文本中占据的百分比
-定义函数,进行重复运算。
def lexical_diversity(text):
    return len(text)/len(set(text))
def percentage(count,total):
    return 100*count/total

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-59720-1-1.html 上篇帖子: 如何使用Python为Hadoop编写一个简单的MapReduce程序 下篇帖子: Python入门笔记(1):Python概述
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表