单词类别对概率上下文无关语法句法分析的影响

日期：2023-01-24 阅读量：0次所属栏目：计算机应用

摘　要：本文论述了基于概率上下文无关语法的句法分析原理，用实例说明概率上下文无关语法是消解句子歧义的有力手段。讨论了概率上下文无关语法本身存在的结构依存和词汇依存问题。通过分析基于概率上下文无关语法的句法分析研究的新进展，对进一步的研究提出了一些建议。

关键词：单词类别；上下文无关语法；语法分析

　　1 引言
　　任何句子都是按照一定的语法规则组织起来的。计算机理解自然语言需要建立起自己的一套知识体系，如文法规则、符号集、知识库等。由于计算机只能对有限符号集上的有限长度的符号序列进行决定性的计算，构建形式体系，即规定所用的各种符号，规定把符号连成合法序列的句法，规定合法的符号串如何表示特定问题领域的语义，该过程常面临语法结构分析方面的歧义。利用规则与统计结合起来的句法分析方法可以解决计算机理解自然语言过程中存在的一部分歧义问题,比如:词性歧义、生词引起的歧义、并列结构歧义、介词短语的附着对象歧义、代词的指代歧义、句子连词歧义等。歧义的解决无疑可以对进一步的自然语言理解提供强有利的帮助。而概率上下文无关语法是消解句子歧义的有力手段。
　　2 概率上下文无关语法的语法分析
　　概率上下文无关语法是上下文无关语法的一种扩展，一个概率上下文无关语法是一个四元组：
PCFG G=(S，V_n，V_t，P)
　　其中V_n是非终结符的集合；V_t是终结符的集合；S是语法的开始符号；P是一组带有概率信息的产生式的集合，每条产生式形如[Nⁱ →ξⁱ，P(Nⁱ →ξⁱ)], ξⁱ是终结符号和非终结符号组成的符号串，P(Nⁱ →ξⁱ)是产生式的概率^［2］，并且概率分布满足概率一致性限制：
公式2.1
　　文法中的每条规则的概率，可以用下面的公式估计：
公式2.2
　　其中A→ξ是一特定规则，γ是任意结构，（.）表示规则的使用次数。例如计算下面规则中的P(A→ξ)
　　S→NP VP
　　VP→V NP
　　NP→N
　　NP→NP的NP
　　NP→VP的NP
　　在此例中，NP →N的概率计算方法如下：

　　规则使用次数的获取最简单的途径是使用句子已得到刨析的语料库，这样的语料库叫做树库^［3］。例如从树库中统计出NP→N使用次数为1000，而NP→N，NP→NP的NP，NP→VP的使用次数之和为6000，则可以指派NP→N的概率为1/6。
　　在分析句子有歧义情况下，概率上下文无关语法可给句子每个树形图一个概率。概率公式如下：
P(T)=∏p(r(n)) n∈T 公式2.3
　　其中n表示非终极符号的结点，r表示由该非终极符号扩充的规则，p表示规则r的概率，T表示树形图，P表示整个树形图的概率。比较不同树形图的概率，合法的句子赋以较大的概率，不合法句子赋以较小的概率，从而进行歧义的消解。
　　例子 sentence=” John sold the fish bones.”
　　S→NP VP 1.0 V→sold 1.0
　　VP→V NP 0.8 DT→the 0.6
　　VP→V NP NP 0.2 DT→my 0.4
　　NP→DT N 0.5 N→bones 0.18
　　NP→N 0.3 N→star 0.04
　　NP→DT N N 0.15 N→fish 0.18
　　NP→NP NP 0.05 N→ girl 0.5
　　 N→John 0.1
　　由于该句子具有二义性，因此得到三棵结构不同的语法树。

　　观察这三棵语法树，具有这三个树形图结构的句子意思完全不同，T1 中的the fish bones为一个名词短语，具有树形图T1 的句子大意为John出售鱼骨头具有树形图T2的句子大意为 John把骨头出售给鱼，具有树形图T1 的句子则把bones分析成鱼的种类或者名字，整句大意为John出售名为骨的鱼。同样的一个英语句子得到了三种不同的分析结果，像T3这样的分析结果是毫无意义的,而采取概率分析法计算各个树形图的概率后，我们得到的句法分析将会是有效的。

P(T₁)=1.0×0.3×0.1×0.8×1.0×0.15×0.6×0.18×0.18

=0.000069984

P(T₂)=1.0×0.3×0.1×0.2×1.0×0.5×0.6×0.18×0.3×0.18

=0.000017496

P(T₃)=1.0×0.3×0.1×0.8×1.0×0.05×0.5×0.6×0.18×0.3×0.18

=0.0000034992

　　比较概率我们有P(T₁)>P(T₂)>P(T₃)，因此句子sentence=” John sold the fish bone.”最可能的结构是树形图T₁ 。这个结论恰好与我们的直觉是一致的。该方法也可称消解歧义的“选优法”，形式地说，概率最大的树形图T (S)=maxP（T）,即这种歧义消解的实质是：从句子分析所得若干个树形图选出概率最大的那一个作为正确分析结果。概率上下文无关语法是歧义消解的有力手段。
　　3 单词类别引入语法分析
　　概率上下文无关语法在分析句子时有三个假设前提条件：位置无关性假设(子结点的概率与该子结点所直接管辖的字符串在句子中的位置无关)上下文无关性假设（子结点的概率与不受该子结点直接管辖的其他符号串无关）和祖先结点无关性假设（子结点的概率与支配该结点的所有祖先结点的概率无关）。然而自然语言具有创造性，自动学习的语料库难以保证获取的语法规则没有例外，语料库中总会有新的语法现象超过已经确定的语法系统的规定。短语的搭配很大程度上由短语的词汇成分决定^［4］。概率上下文无关语法本身存在着结构依存和词汇依存的问题。下面是动词词汇明显影响使用规则的概率分布例子。　　

Local tree come take think want

VP→V 9.5% 2.6% 4.6% 5.7%

VP→V NP 1.1% 32.1% 0.2% 13.9%

VP→V PP 34.5% 3.1% 7.1% 0.3%

VP→V SBAR 6.6% 0.3% 73.0% 0.2%

VP→V S 2.2% 1.3% 4.8% 70.8%

VP→V NP S 0.1% 5.7% 0.0% 0.3%

VP→V PRT NP 0.3% 5.8% 0.0% 0.0%

VP→V PRT PP 6.1% 1.5% 0.2% 0.0%

　　这些语言事实是对概率上下文无关语法分析句子的巨大挑战。需要解决这个问题最有效的途径是在概率上下文无关语法中引入词汇信息，即采取词汇中心词表示概率上下文无关语法。
　　4 PP-附着判定
　　中心词的确定影响剖析树的分析效率。例如一个名词短语中心词是最主要的名词。如：“the August merchandise trade deficit”中心词就是deficit，如果剖析树某一结点使用了规则S→NP VP，那么该结点的中心词就是VP。词汇统计分析一般采用两种统计方式，分别如下：
　　P(r∣h):中心词给定情况下规则的概率公式3.1
　　P(h∣f):父亲结点中心词给定情况下，结点中心词的概率公式3.2
　　把公式2.1稍作变换得到词汇化的树形图概率计算方法：
　　P(T)=∏p(r(n) ∣h(n))* p(h(n) ∣f(n)) 公式3.3
　　例如在句子“Moscow sent more than 100,000 soldiers into Afghanistan.”中，介词短语（PP）“into Afghanistan”或者附着于名词短语（NP）“more than 100,000 soldiers”，或者附着于动词短语（VP）“sent”（单独的动词也可以看成一个动词短语），这里存在PP-附着问题。
　　在概率上下文无关语法中，这种PP-附着的判定要在这两个规则之间选择：NP→NP PP （PP附着于NP）和VP→VP PP（PP附着于VP）。这两个规则的概率依赖于训练语料库。在训练语料库中，NP附着和VP附着的统计结果如下：
　　语料库 PP 附着于NP PP附着于VP
　　Switchboard 63% 37%
　　AP Newswire (13 00 万词) 67% 33%
　　Wall Street Journal & IBM manuals 52% 48%
　　可以看出，在三个训练语料库中，“PP附着于NP”都处于优先地位。根据这样的统计结果，我们应该选择PP附着于NP，也就是选择PP“into Afghanistan”附着于NP“more than 10,000 soldiers”这个结果。但是，在我们上面的句子中，介词短语“into Afghanistan”的正确附着却应该是动词短语VP( sent)，这是因为这个VP“sent”往往要求一个表示方向的介词短语PP，而介词短语“into Afghanistan”正好满足了这个要求。概率上下文无关语法显然不能处理这样的词汇依存问题。在引入词汇化信息后，可以通过公式3.1计算PP(into)分别修饰父结点VP( sent)和父结点NP（soldiers）的概率。

　　同样利用公式3.2和公式3.3可以计算带有中心词规则的概率和整个树形图的概率。引入词汇化信息后，上下文无关语法的句法歧义消除的功能变得更加强大。
　　5 结束语
　　影响自然语言的理解的因素是全方面的综合性因素，目前基于概率上下文无关语法的句法分析研究虽取得一定的成果，但这种句法分析在实际应用中受到很多的限制，因此目前的上下文无关语法有两大方面需要突破：一是考虑如何结合上下文作为语境的提示。很多时候句子所处的语境会影响自然语言理解的方向和深度，句子的上下文所提示的内容就是一种语境，离开了句子所处的语境，孤立地理解自然语言就显得含混或模棱两可，上下文的语境以某种方式引导着自然语言理解的方向。二是按照句法分析和语义分析相结合的原则，采用扩展的上下文无关文法分析句子，句法和语义都是句子分析排歧中不可缺少的，在句法分析时可以将语义手段紧密结合起来共同作用于歧义消解，增强上下文无关语法的削歧能力，从而更高效地实现其句法分析。　　　　
参考文献：
祝庚。一种自然语言理解语法分析其的算法及实现［J］.东莞理工学院学报，2006，13（3）：21～25.

本文链接：http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/241494.html

上一篇：PowerPoint在中职学校课堂教学中的注意事项和使用

下一篇：浅谈中职计算机基础课程的教学

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

单词类别对概率上下文无关语法句法分析的影响

相关文章

期刊推荐

论文中心 更多

计算机应用排行