设为首页 收藏本站
查看: 1037|回复: 0

[经验分享] perl Wordnet::QueryData

[复制链接]

尚未签到

发表于 2015-12-26 10:49:16 | 显示全部楼层 |阅读模式
Installing Wordnet::Similarity on Windows

Today I had the task of getting Wordnet::Similarity working for a project I'm involved in. Getting it to work on Windows is not straight forward, there appears to be a makefile issue Wordnet::QueryData.
Here's a quick guide for those of you who don't have a linux box sitting around, on which the install will work perfectly.

Prerequisites
Wordnet 2.0
http://wordnet.princeton.edu/oldversions

Wordnet::QueryData 0.15
http://search.cpan.org/~jrennie/WordNet-QueryData-1.39/QueryData.pm

Text::Similarity 0.02
http://search.cpan.org/dist/Text-Similarity/lib/Text/Similarity.pm
Wordnet::Similarity 1.39
http://search.cpan.org/dist/WordNet-Similarity/
Currently there are no PPM packages for Wordnet::QueryData or Text-Similarity, I created PPD's for this install which I will publish on my website as soon as my host adds a MIME type for .ppd. There's nothing special about them though, just follow the instructions in Activstate's manual on the "Perl Package Manager" page.
Wordnet::Similarity creates indexes when the makefile is put together, I'm not sure how to integrate this into a PPD so have left it alone for the time being. I like to use PPM to manages modules so I ran make on Wordnet::Similarity then created a PPD and installed through PPM.
At the present time Wordnet 2.1 will not work with Wordnet::Similarity due to changes in the structure of Wordnet's files. The best place for up-to-date information is Ted Pedersen's homepage:http://www.d.umn.edu/~tpederse/similarity.html

Installing on Windows

  • Install Wordnet
Instructions are available from the INSTALL file within the distribution.  WNHOME environement variable must be set. Generally it will be assumed to be in the default location but if you're like me and have Wordnet 2.1 also installed it's best to specify so you know if you hit a problem it's not because of Wordnet incompatability.

  • Install Wordnet::QueryData

The Problem with Wordnet::QueryData
Wordnet::QueryData has a bug when installed on Windows which doesn't amend the filenames for index files of Wordnet. It doesn't seem to effect the general running of Wordnet::QueryData, normal queries seem to work fine without this change.
The following block is correct and should be pasted into QueryData.pm.  You'll find the file in "C:\Perl\site\lib\WordNet\".  Starting at line 165: -
my @excFile = ("", "noun.exc", "verb.exc", "adj.exc", "adv.exc");
my @indexFile = ("", noun.idx", "index.verb", "index.adj", "index.adv");
my @dataFile = ("", "data.noun", "data.verb", "data.adj", "data.adv");

After this running make for Wordnet::Similarity should be a breeze.

  • Install Text::Similarity
  • Install Wordnet::Similarity, this takes a little while because it has to build some extra files.
Now you should be able to enjoy Wordnet::Similarity.
出处:http://outside-world.spaces.live.com/Blog/cns!5066DA883B03DEDA!106.entry

一 WordNet发展概况
· 关于WordNet的不成熟的想法可以追溯到20多年前,而这一想法开始逐渐具体化和清晰化则是1985年后才开始的。从85年开始,WordNet作为一个知识工程全面展开。不过,当时的WordNet和经过10多年后今天的WordNet还是很不一样的。
· 这一工程最初的前提之一是“可分离性假设”(Separability hypothesis),即语言的词汇成分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们,在词语水平上可以得到有用的研究成果。词库(词典,lexicon)当然不是完全独立于其他语言成分的,但它的确是可以从其他成分中分离出来的。例如,尽管语音和语法知识在一个人的早年生活中就成型了,但词汇量却可以随着智力活动的不断积累而增加。这表明语言的不同成分涉及不同的认知过程。
· 另一个前提是“模式假设”(patterning hypothesis):一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行推测的学问,现代语言学研究开始在自然语言的语义结构中识别这样的模式。但许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提出一种语义理论,并以20到50个英语单词为例来展示他的理论,而留下另外10万个单词让读者去做练习。
· 第三个前提就是所谓的“广泛性假设”(comprehensiveness hypothesis):计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。
· 建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析的词汇语义学(componential lexical semantics)的方法(也可译为义素分析法)。这种方式把一个词的意义分析为更小的概念原子的组合。不过,定义一套概念原子却非易事。事实上,WordNet主帅George.A.Miller在1976年他与Philip N. Johnson-Laird合作的《Language and Perception》一书中还踌躇满志地探索义素分析的语义描写方法,但直到1985年,仍然没有能够出笼一个完整的定义清晰的清单,在上面列举出所有的概念原子。
· 到1985年,许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比如:“桌子”(table)和“家具”(furniture)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:桌子是一种家具(a table is a kind of furniture),即“Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多,越来越多的人自觉地意识到:除了利用语义成分(义素分析法)表示语义,还可以利用关系来表示语义(基于关系的词汇语义学relational lexical semantics),而且后者有可能替代前者。
· 在WordNet的早期阶段,研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用,而不是仅仅停留在玩具式的演示水平上。到了研究人员确信这是可行的的时候,他们就编制了应用软件来把想法变成现实。实际上,在早期,Miller并没有关于构建一个大词库的完整想法。初步设想是识别由字符串组成的最重要的词节点,并探索其中的语义关系模式。当时的想法是,如果得到了正确的语义关系模式,词语的定义就能从中推理出来,因此,对于一个有关词义的关系网来说,词义的定义是多余的。
· 在1978年的时候,Miller描述了一种“自动化词典”(automated dictionary)的想法。不过那时候他完全不知道该如何实现这种想法。由于Sloan基金会,Spencer基金会,IBM公司沃盛研究中心(Watson Research Center)的支持,Miller得以一直保持着他的想法,而没有中途放弃。到1984年的时候,Miller甚至在IBM PC机上做出了45个名词的小型语义网,他把这个小网叫做“word net”。Miller在IBM和Bellcore演示了这个示例成果。他在Bellcore的一帮好友,Lance Miller, Roy Byrd, Michael Lesk, Donald Walker, Robert Amsler, 以及Stephen Hanson都鼓励他继续下去,并在技术上给予许多实际指导。
· Lesk邀请Miller参加了1985年11月在加拿大沃太卢(Waterloo)大学新牛津英语词典中心的第一次会议。Miller提交了一篇论文。Miller在那篇论文中解释这样的思想: 我们可以使用同义词集合(synset)来代表词汇概念,并描述词汇矩阵,即在词的形式和意义之间建立起映射关系(mapping)。实际上,这正是在WordNet的发展中指导研究工作的主要思想。
· 不过,也许Miller在那次会议上的报告所介绍的思想尚在其次,报告的标题反而意义更大。那个标题是由Lesk提议的,叫做:WordNet: A Dictionary Browser。(WordNet:一个词典浏览器)。在这里,WordNet被看作(设想为)是一个词典浏览器,是一个机器可读词典的辅助工具。而这样一个机器词典不是传统地按字母排序的,是基于意义的。
· 也就是在WordNet开始成形的时候,Miller和他的一些志同道合的同事在普林斯顿合作发起了一个认知研究的计划(Program for Cognitive Studies)。Richard Cullingford从1983年到1985年在普林斯顿访问,他,Gilbert Herman,加上Miller说服Provost Neil Rudenstine提供了一台微型计算机。那台计算机也就成了普林斯顿认知科学实验室的心脏。有了设备在手,Miller又去说服海军研究办公室的Susan Chipman跟他们签合同来开发WordNet。Cullingford和Miller一起收到了军队研究所(Army Research Institute)的一个合同,开发一个词汇语义学的计算理论。1986年3月,James S.McDonnell基金向普林斯顿慷慨解囊,支持认知科学的研究工作。Marie BienKowski(Cullingford的研究生)和一个熟练的计算机专家,从1985年开始跟我们一道工作,不久就拿出了我们需要的软件。由此,WordNet真正成为普林斯顿新成立的认知科学实验室几项研究计划中的一个,并开始实际运作。
· 用来创建WordNet的最重要的程序是所谓的Grinder(磨床)程序。Bienkowski在1986年用LISP语言写了Grinder的第一个版本。Dan Teibel在1987年用C语言重写了这个程序。Antonio Romero在1989年又重写了一次。Randee Tengi从1991年开始负责管理该程序的所有这些版本。
· WordNet中的词来自不同的地方。Brown语料库、Laurence Urdang的同义反义小词典(1978)、Urdang修订的Rodale同义词词典(1978)、以及Robert Chapmand的第4版罗杰斯同义词词林(1977)等。1986年下半年,Miller得到海军研究与发展中心的Fred Chang的一个词表,Miller将Chang的词表跟WordNet已有的词表进行了比较,令人沮丧的结果是只有15%的重合词语,于是Miller把Chang的词表加入到WordNet中。1993年,Miller得到了Ralph Grishman和他在纽约大学的同事的一个词表,39143个词,这个词表实际上包含在著名的COMLEX词典中。这一次比较的结果是,WordNet中只包含了COMLEX中74%的词。于是Miller又把这个词表加入到WordNet中。
· 随着词表长度的增加,组织工作的压力开始增加。第一步区分是通过句法范畴来进行的。我们创建了不同的文件用于存放名词、动词、形容词(1992年后加入副词)。但在每个句法范畴内,仍有太多的词语,如果没有进一步分类就难以把握。名词由于是开放的词类,因而问题最严重。
· 1987年春,Philip N. Johnson-Laird从英国剑桥应用心理学研究所来到普林斯顿大学访问。他发现WordNet中缺乏手段来区分形容词的意义在修饰不同名词时所发生的变化。他利用266对反义形容词(当时WordNet包含了这些反义形容词对),根据它们修饰名词的适合度来分出名词的次类。结果大约得到名词的25个次类。这些次类构成了名词的基础分类。而且这些不同次类的名词也相应地被分成不同的个别文件交给不同的研究人员去分头加工,从而从工程上推动了WordNet的进展。
· 1987年夏,Christiane Fellbaum加入到研究队伍中来,承担了对动词进行次分类的工作。
· 只有Kitty Miller负责的描写性形容词(descriptive adjective),从一开始就一直保持是一个大类,没有次范畴化,所有的这些形容词也保存在一个巨大的文件中。
· WordNet从一个简单的“词典浏览器”(dictionary browser)发展成一个自足的词汇数据库(self-contained lexical database),主要的进步是从1989年年初开始的。当时SusanChipman不满于WordNet仅仅作为一个词汇浏览器而存在,要求研究小组开发一个工具。该工具可以在WordNet的基础上阅读一个文本,并报告文本中词语的各种信息。这一工具即所谓的“Word Filter”(词过滤器)。罕用的或不符合需要的词能够从小说文档中被过滤出去,而同时更常见的词语可以用来替代这些词。这个工作很快使我们意识到必须对词形的曲折变化进行处理。这使得我们处理了有关词形方面的一些问题,WordNet中仅包含词语的基本形式,如果文本中出现“ships”,WordNet就无法识别它。Richard Beckwith和Miceael Colon写了一个程序,叫做Morphy,可以识别出文本中的“ships”的词形式“ship”。到1989年9月,WordNet就可以处理文本中的词形变化,并在词库中找到相应的词语基本形式。
· 上述工作导致另一个重要的进展,就是在文本中将词语跟WordNet中的相应意义关联起来。Claudia Leacock(1991年11月加入)和Brian Gustafson开发了一个界面-- ConText,可以对文本进行预处理(实例化、词汇化、自动句法标注等),并跟WordNet一道显示目标词语(即对目标词语进行了语义标注)。1993年6月,Shari Landes负责把一整套的标注工具汇编到一起(包含一组标记),利用这样一套工具,可以尽最大可能产生一个无歧义的文本作为输出结果。对文本进行语义标注显著地提高了WordNet的覆盖面,即包括词汇覆盖面,也包括词义的覆盖面。
· WordNet的另一个重要变化是1989年春发生的,Antonio Romero修改了Grinder程序,使得它可以接受插入语定义(或理解为“注释”)作为同义词集合(synset)的一部分。随着WordNet中词语数量的增加,既要尽可能清楚地区别词义,同时又要保持同义词集合的纯粹性,就越来越困难了。换句话说,仅靠同义来定义词义是不够的。一开始,WordNet保持注释尽量得短。但一年后,注释就开始变得越来越长。注释数量也开始稳步增长。1989年4月,WordNet中有37409个同义词集合,没有注释;到1991年7月,WordNet包含44983个同义词集合, 13688个注释(30%);到1992年1月,WordNet包含49771个同义词集合,19382个注释(39%);到1993年1月,WordNet包含61023个同义词集合,36880个注释(60%);到1994年1月,WordNet中包含79542个同义词集合,58705个注释(74%);到1995年1月,WordNet包括了91050个同义词集合,同时包含了75389个注释(占同义词集合数量的83%)。
· WordNet的研究人员一直把WordNet视作一个试验,而不是一个产品。因此当WordNet中的词语足够多的时候,他们就把WordNet向学术界免费公开了。Randee Tengi监督了WordNet一系列版本的发行。WordNet 1.0版是1991年7月公布的;1.1版是在1991年8月公布的;1.2版是在1992年4月公布的;1.3版是在1992年12月公布的;1.4版是在1993年8月公布的;1.5版是在1995年3月公布的。目前加入WordNet邮件列表的个人和单位超过1000个。诸多研究人员下载了WordNet,并在各个不同的方面使用它。
· 对WordNet提供过资金支持的包括:海军研究室(Office of Naval Research),高级研究计划署(Advanced Research Projects Agency),James S. McDonnell基金,以及最近的语言学数据协作会(Linguistic Data Consortium)。

https://www.ibm.com/developerworks/cn/aix/library/au-perltkmodule/


新便笺 12
下坡时,不准熄火或用空挡。如果下坡空档滑行,只靠刹车来控制车速,遇到连续下坡的时候可能会造成刹车负担过重,刹车片过热而失灵
未购置交强险的车辆上路行驶,不按规定投保机动车第三者责任险的,扣留车辆,购置交强险,处依照规定投保交强险保费二倍罚款;上道路行驶的机动车未放置保险标志的,扣留车辆,罚款200元,记1分
发生交通事故造成人员受伤时,要保护现场并立即报警。造成人员受伤了,不能私了,要保护现场,并报警和叫救护车。
正确,这个没问题,左侧的开关是管灯光的,右侧的开关是管雨刷的。
造成重伤,没有死亡,且没有跑的,是三年以下。直接撞死逃逸的,是三年以上七年以下。没撞死跑了,但是耽搁救疗时间致死的是七年以上十五年以下。
此为控制左右转向灯。顺便回忆一下转向灯操作:上右下左。
此为后风窗玻璃刮水器及洗涤器。关于如何区分前风窗玻璃刮水器及洗涤器和后风窗玻璃刮水器及洗涤器,你只需记住一点半弧形的图标是前风窗,四四方方的图标就是后风窗。
越快越好,只要是交钱的事情一般都不会让你超过一个月。
变速器操纵杆也就是换挡的,当我们速度越开越快的时候也要对应上相应的档位,故此为变速器操纵杆。
像茶壶一样的就是机油的标志,各位记住就是啦。 该指示灯用来显示发动机内机油的压力状况。打开钥匙门,车辆开始自检时,指示灯点亮,启动后熄灭。该指示灯常亮,说明该车发动机机油压力低于规定标准,需要维修
表示一切车辆向左单向行驶。此标志设在单行路的路口和入口处的适当位置。
服务如此之多肯定是服务区,还是在高速上的
个坡是 高突, 一个坑是低洼, 一个凸中间有空间是驼峰桥 ,两个凸肯定是不平;哈哈,容易让人意淫的图标
这个是休息区,服务区是有加油,通车,吃饭的组合标志,停车场就是一个P,图中没有加油站和吃饭的,所以它只是一个休息区。
∧表示俩侧通行,/这个方向的表示左侧通行,\\\\这个方向表示右侧通行。
路过没有路灯和信号灯的路口,应该交替使用远近光灯,提示周围的车辆,以免发生事故。
一个X加上一个右转,加一起就是禁止右转,爆弱了
新便笺 12
下坡时,不准熄火或用空挡。如果下坡空档滑行,只靠刹车来控制车速,遇到连续下坡的时候可能会造成刹车负担过重,刹车片过热而失灵
未购置交强险的车辆上路行驶,不按规定投保机动车第三者责任险的,扣留车辆,购置交强险,处依照规定投保交强险保费二倍罚款;上道路行驶的机动车未放置保险标志的,扣留车辆,罚款200元,记1分
发生交通事故造成人员受伤时,要保护现场并立即报警。造成人员受伤了,不能私了,要保护现场,并报警和叫救护车。
正确,这个没问题,左侧的开关是管灯光的,右侧的开关是管雨刷的。
造成重伤,没有死亡,且没有跑的,是三年以下。直接撞死逃逸的,是三年以上七年以下。没撞死跑了,但是耽搁救疗时间致死的是七年以上十五年以下。
此为控制左右转向灯。顺便回忆一下转向灯操作:上右下左。
此为后风窗玻璃刮水器及洗涤器。关于如何区分前风窗玻璃刮水器及洗涤器和后风窗玻璃刮水器及洗涤器,你只需记住一点半弧形的图标是前风窗,四四方方的图标就是后风窗。
越快越好,只要是交钱的事情一般都不会让你超过一个月。
变速器操纵杆也就是换挡的,当我们速度越开越快的时候也要对应上相应的档位,故此为变速器操纵杆。
像茶壶一样的就是机油的标志,各位记住就是啦。 该指示灯用来显示发动机内机油的压力状况。打开钥匙门,车辆开始自检时,指示灯点亮,启动后熄灭。该指示灯常亮,说明该车发动机机油压力低于规定标准,需要维修
表示一切车辆向左单向行驶。此标志设在单行路的路口和入口处的适当位置。
服务如此之多肯定是服务区,还是在高速上的
个坡是 高突, 一个坑是低洼, 一个凸中间有空间是驼峰桥 ,两个凸肯定是不平;哈哈,容易让人意淫的图标
这个是休息区,服务区是有加油,通车,吃饭的组合标志,停车场就是一个P,图中没有加油站和吃饭的,所以它只是一个休息区。
∧表示俩侧通行,/这个方向的表示左侧通行,\\\\这个方向表示右侧通行。
路过没有路灯和信号灯的路口,应该交替使用远近光灯,提示周围的车辆,以免发生事故。
一个X加上一个右转,加一起就是禁止右转,爆弱了

机动车仪表板上(如图所示)亮,提示行李舱开启(前为发动机,后为行李)
点火开关在START位置起动机起动
将点火开关转到ACC位置起动机工作()
按下这个开关,后风窗玻璃除霜器开始工作
当前按下的这个图标即亮灯的这个表示的是前窗玻璃除霜器开始工作。核心的意思是这两个图标,一个表示前窗玻璃除霜器,一个表示后窗玻璃除霜器。带扇形的那个是前窗标识,下面那个长方形的是后窗标识。
驾驶人在道路上驾驶机动车追逐竞驶,情节恶劣的处3年以下有期徒刑。
遇到这种情况的路段,可以进入网状线区域内停车等候。
驾驶人因服兵役、出国(境)等原因延期审验期间不得驾驶机动车
机动车仪表板上(如图所示)亮表示什么
驾驶人因服兵役、出国(境)等原因无法办理审验时,延期审验期限最长不超过多长时间
图中圈内的锯齿状白色实线是什么标线
驾驶车辆通过无人看守的铁路道口时,应怎样做
个地面标记是什么标线
白色的是最低限速,黄色的是最高限速
LOCK:切断电源,锁定方向盘;
ACC:接通附件电源(比如收音机等附件)
ON:接通除起动机外的全车全部电源;
START:接通起动机电源,起动发动机。
驾驶人驾驶有达到报废标准嫌疑机动车上路的,.对人是处二百元以上二千元以下罚款,并吊销机动车驾驶证。
请注意,这是山区公路,又是连续降雨天气,如果开外侧,容易掉下悬崖,如果开内侧容易被塌方和落实砸到,这些都是不可控的,你不知道什么时候会发生。而选择在道路中间行驶,对面有车过来时,你是有预警时间的。
动车驾驶人因服兵役、出国(境)等原因,无法在规定时间内办理驾驶证期满换证、审验、提交身体条件证明的,可以向机动车驾驶证核发地车辆管理所申请延期办理。申请时应当填写申请表,并提交机动车驾驶人的身份证明、机动车驾驶证和延期事由证明。延期期限最长不超过三年。延期期间机动车驾驶人不得驾驶机动车
实线是港湾,虚线是公交车
车行道纵向减速标线为一组平行于车行道分界线的菱形块虚线。通常设在上下桥位、转弯位,它的主要作用是通过车道视觉上变窄形成压迫感,使驾驶员在需要减速的弯道、坡道等位置自动减速。
中心圈,设置在交叉路口中心的白色圆形或菱形区域,用以区分车辆大、小转弯,及交叉路口车辆左右转弯的指示,车辆不得压线行驶。 机动车向左转弯时,必须紧靠中心圈小转弯。
一个红杠代表50米  铁轨代表有人守  火车代表没人守
横向的就是跟停止线一样横在车前的一条条的,纵向的减速标线是顺着车道两边画的。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-156482-1-1.html 上篇帖子: Perl资料 下篇帖子: Ubhuntu下安装配置Apache2 Perl cgi-bin
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表