统计自然语言处理的基本概念

NLP的几个层次

以下是学习宗成庆著作中相关内容整理,详细内容可参考其著作《统计自然语言处理》。自然语言的处理包含语音、形态、语法、语义、语用几个层面,若暂不考虑语音和语用,以下三个概念非常重要:

形态学(Morphology)

词汇形态学(或词法)研究词的内部结构。

语法学(Syntax)

研究句子结构元素之间的关系与规则。主要关注一句话该怎么讲。

语义学(Semantics)

研究语言各级单位(词素、词、词组、句子、句子群、整段整篇、甚至整个著作)的意义,重点是研究符号与符号所指对象之间的关系。

NLP的基本方法

自然语言处理真的很困难,词汇形态歧义消解并不容易。有研究结论称,歧义结构分析结果的数量随介词短语数目的增加呈指数上升的,其歧义组合的复杂程度随着介词短语个数的增加而不断加深,这个歧义结构的组合数目称为开塔兰数(Catalan numbers),下式中,n为介词短语个数:

c_{n}=left( begin{matrix} 2n\ nend{matrix} right) dfrac {1} {n+1}

上面讲的是英文情况,中文自然语言里,各种歧义、指代等,也是相当的复杂。对于这些复杂问题的理解,存在两种不同的“主义”,即理性主义方法和经验主义方法。

理性主义方法

理性主义方法的代表是著名的乔姆斯基理论,认为人的语言能力是与生俱来的。因此对于NLP的难题,需要首先由词法分析器按照人工编写的词法规则对输入的句子的单词进行词法分析,然后根据人工设计的语法规则对输入的句子进行句法结构分析,最后再根据一套变换规则将语法结构映射到语义符号(如逻辑表达式、语义网络、中间语言等)。

经验主义方法

经验主义认为,人(孩子)的大脑一开始具有一些基本的处理能力(联想、模式识别、通用化),因此可以在后期通过感官输入来不断学习和掌握自然语言的结构。因此在实践层面,经验主义方法主张通过建立数学模型来学习语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。从方法上看,经验主义的思路是很明确的统计自然语言处理(SNLP)方法。

统计方法中的基本概念

统计方法中,概率论和信息论是最基本的部分,必须掌握地相当靠谱才行:

  1. 概率论基本概念:概率、条件概率、贝叶斯法则、贝叶斯决策理论、随机变量、参数估计方法、二项式分布、联合概率分布和条件概率分布、期望和方差等。
  2. 信息论基本概念:熵、联合熵、条件熵、相对熵、交叉熵、互信息、困惑度、噪声信道模型等。

 

2 thoughts on “统计自然语言处理的基本概念

  1. I just want to tell you that I’m very new to weblog and definitely enjoyed you’re web page. Most likely I’m going to bookmark your blog post . You definitely have outstanding articles. Cheers for sharing your web-site.

  2. suba me说道:

    RJbMWP Say, you got a nice article post.Much thanks again. Fantastic.

发表评论

电子邮件地址不会被公开。