欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 计算机应用 > 单词类别对概率上下文无关语法句法分析的影响

单词类别对概率上下文无关语法句法分析的影响

日期:2023-01-24 阅读量:0 所属栏目:计算机应用


摘 要:本文论述了基于概率上下文无关语法的句法分析原理,用实例说明概率上下文无关语法是消解句子歧义的有力手段。讨论了概率上下文无关语法本身存在的结构依存和词汇依存问题。通过分析基于概率上下文无关语法的句法分析研究的新进展,对进一步的研究提出了一些建议。

关键词:单词类别;上下文无关语法;语法分析

  1 引言
  任何句子都是按照一定的语法规则组织起来的。计算机理解自然语言需要建立起自己的一套知识体系,如文法规则、符号集、知识库等。由于计算机只能对有限符号集上的有限长度的符号序列进行决定性的计算,构建形式体系,即规定所用的各种符号,规定把符号连成合法序列的句法,规定合法的符号串如何表示特定问题领域的语义,该过程常面临语法结构分析方面的歧义。利用规则与统计结合起来的句法分析方法可以解决计算机理解自然语言过程中存在的一部分歧义问题,比如:词性歧义、生词引起的歧义、并列结构歧义、介词短语的附着对象歧义、代词的指代歧义、句子连词歧义等。歧义的解决无疑可以对进一步的自然语言理解提供强有利的帮助。而概率上下文无关语法是消解句子歧义的有力手段。
  2 概率上下文无关语法的语法分析
  概率上下文无关语法是上下文无关语法的一种扩展,一个概率上下文无关语法是一个四元组:
PCFG G=(S,Vn,Vt,P)
  其中Vn是非终结符的集合;Vt是终结符的集合;S是语法的开始符号;P是一组带有概率信息的产生式的集合,每条产生式形如[Ni →ξi,P(Ni →ξi)], ξi是终结符号和非终结符号组成的符号串,P(Ni →ξi)是产生式的概率[2],并且概率分布满足概率一致性限制:
公式2.1
  文法中的每条规则的概率,可以用下面的公式估计:
公式2.2
  其中A→ξ是一特定规则,γ是任意结构,(.)表示规则的使用次数。例如计算下面规则中的P(A→ξ)
  S→NP VP
  VP→V NP
  NP→N
  NP→NP的NP
  NP→VP的NP
  在此例中,NP →N的概率计算方法如下:

  规则使用次数的获取最简单的途径是使用句子已得到刨析的语料库,这样的语料库叫做树库[3]。例如从树库中统计出NP→N使用次数为1000,而NP→N,NP→NP的NP,NP→VP的使用次数之和为6000,则可以指派NP→N的概率为1/6。
  在分析句子有歧义情况下,概率上下文无关语法可给句子每个树形图一个概率。概率公式如下:
P(T)=∏p(r(n))  n∈T    公式2.3
  其中n表示非终极符号的结点,r表示由该非终极符号扩充的规则,p表示规则r的概率,T表示树形图,P表示整个树形图的概率。比较不同树形图的概率,合法的句子赋以较大的概率,不合法句子赋以较小的概率,从而进行歧义的消解。
  例子 sentence=” John sold the fish bones.”
  S→NP VP      1.0              V→sold            1.0
  VP→V NP      0.8              DT→the            0.6       
  VP→V NP NP  0.2              DT→my            0.4
  NP→DT N      0.5              N→bones          0.18
  NP→N        0.3              N→star            0.04
  NP→DT N  N  0.15            N→fish            0.18
  NP→NP NP    0.05            N→ girl            0.5   
                                N→John            0.1
  由于该句子具有二义性,因此得到三棵结构不同的语法树。

  观察这三棵语法树,具有这三个树形图结构的句子意思完全不同,T1 中的the fish bones为一个名词短语,具有树形图T1 的句子大意为John出售鱼骨头具有树形图T2的句子大意为 John把骨头出售给鱼,具有树形图T1 的句子则把bones分析成鱼的种类或者名字,整句大意为John出售名为骨的鱼。同样的一个英语句子得到了三种不同的分析结果,像T3这样的分析结果是毫无意义的,而采取概率分析法计算各个树形图的概率后,我们得到的句法分析将会是有效的。

P(T1)=1.0×0.3×0.1×0.8×1.0×0.15×0.6×0.18×0.18

     =0.000069984

P(T2)=1.0×0.3×0.1×0.2×1.0×0.5×0.6×0.18×0.3×0.18

     =0.000017496

P(T3)=1.0×0.3×0.1×0.8×1.0×0.05×0.5×0.6×0.18×0.3×0.18

     =0.0000034992

  比较概率我们有P(T1)>P(T2)>P(T3),因此句子sentence=” John sold the fish bone.”最可能的结构是树形图T1  。这个结论恰好与我们的直觉是一致的。该方法也可称消解歧义的“选优法”,形式地说,概率最大的树形图T (S)=maxP(T),即这种歧义消解的实质是:从句子分析所得若干个树形图选出概率最大的那一个作为正确分析结果。概率上下文无关语法是歧义消解的有力手段。
  3 单词类别引入语法分析
  概率上下文无关语法在分析句子时有三个假设前提条件:位置无关性假设(子结点的概率与该子结点所直接管辖的字符串在句子中的位置无关)上下文无关性假设(子结点的概率与不受该子结点直接管辖的其他符号串无关)和祖先结点无关性假设(子结点的概率与支配该结点的所有祖先结点的概率无关)。然而自然语言具有创造性,自动学习的语料库难以保证获取的语法规则没有例外,语料库中总会有新的语法现象超过已经确定的语法系统的规定。短语的搭配很大程度上由短语的词汇成分决定[4]。概率上下文无关语法本身存在着结构依存和词汇依存的问题。下面是动词词汇明显影响使用规则的概率分布例子。  

Local tree             come       take       think       want

VP→V                  9.5%      2.6%      4.6%       5.7%

VP→V NP               1.1%     32.1%      0.2%      13.9%

VP→V PP              34.5%      3.1%      7.1%       0.3%

VP→V SBAR             6.6%      0.3%     73.0%       0.2%

VP→V S                2.2%      1.3%      4.8%      70.8%

VP→V NP S             0.1%      5.7%      0.0%       0.3%

VP→V PRT NP           0.3%      5.8%      0.0%       0.0%

VP→V PRT PP           6.1%      1.5%      0.2%       0.0%

  这些语言事实是对概率上下文无关语法分析句子的巨大挑战。需要解决这个问题最有效的途径是在概率上下文无关语法中引入词汇信息,即采取词汇中心词表示概率上下文无关语法。
  4 PP-附着判定
  中心词的确定影响剖析树的分析效率。例如一个名词短语中心词是最主要的名词。如:“the August merchandise trade deficit”中心词就是deficit,如果剖析树某一结点使用了规则S→NP VP,那么该结点的中心词就是VP。词汇统计分析一般采用两种统计方式,分别如下:
  P(r∣h):中心词给定情况下规则的概率                    公式3.1
  P(h∣f):父亲结点中心词给定情况下,结点中心词的概率    公式3.2
  把公式2.1稍作变换得到词汇化的树形图概率计算方法:
  P(T)=∏p(r(n) ∣h(n))* p(h(n) ∣f(n))               公式3.3
  例如在句子“Moscow sent more than 100,000 soldiers into Afghanistan.”中,介词短语(PP)“into Afghanistan”或者附着于名词短语(NP)“more than 100,000 soldiers”,或者附着于动词短语(VP)“sent”(单独的动词也可以看成一个动词短语),这里存在PP-附着问题。
  在概率上下文无关语法中,这种PP-附着的判定要在这两个规则之间选择:NP→NP PP (PP附着于NP)和VP→VP PP(PP附着于VP)。这两个规则的概率依赖于训练语料库。在训练语料库中,NP附着和VP附着的统计结果如下:
  语料库                              PP 附着于NP      PP附着于VP
  Switchboard                              63%              37%
  AP Newswire (13 00 万词)                  67%              33%
  Wall Street Journal & IBM manuals        52%              48%
  可以看出,在三个训练语料库中,“PP附着于NP”都处于优先地位。根据这样的统计结果,我们应该选择PP附着于NP,也就是选择PP“into Afghanistan”附着于NP“more than 10,000 soldiers”这个结果。但是,在我们上面的句子中,介词短语“into Afghanistan”的正确附着却应该是动词短语VP( sent),这是因为这个VP“sent”往往要求一个表示方向的介词短语PP,而介词短语“into Afghanistan”正好满足了这个要求。概率上下文无关语法显然不能处理这样的词汇依存问题。在引入词汇化信息后,可以通过公式3.1计算PP(into)分别修饰父结点VP( sent)和父结点NP(soldiers)的概率。

   同样利用公式3.2和公式3.3可以计算带有中心词规则的概率和整个树形图的概率。引入词汇化信息后,上下文无关语法的句法歧义消除的功能变得更加强大。
  5 结束语
  影响自然语言的理解的因素是全方面的综合性因素,目前基于概率上下文无关语法的句法分析研究虽取得一定的成果,但这种句法分析在实际应用中受到很多的限制,因此目前的上下文无关语法有两大方面需要突破:一是考虑如何结合上下文作为语境的提示。很多时候句子所处的语境会影响自然语言理解的方向和深度,句子的上下文所提示的内容就是一种语境,离开了句子所处的语境,孤立地理解自然语言就显得含混或模棱两可,上下文的语境以某种方式引导着自然语言理解的方向。二是按照句法分析和语义分析相结合的原则,采用扩展的上下文无关文法分析句子,句法和语义都是句子分析排歧中不可缺少的,在句法分析时可以将语义手段紧密结合起来共同作用于歧义消解,增强上下文无关语法的削歧能力,从而更高效地实现其句法分析。    
参考文献:
祝庚。一种自然语言理解语法分析其的算法及实现[J].东莞理工学院学报,2006,13(3):21~25.

本文链接:http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/241494.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学