计算语言学


计算语言学 ≈ 自然语言处理 = 语言信息处理 ≠ 计量语言学

PPT:

  • 2.语言学基础
    • 语言学研究的系统性和层次性
    • 词汇系统
    • 句法系统
    • 语法系统
    • 语用系统
  • 3.语料库和语言知识库
    • 语料库就是存放语言材料的仓库
    • 语料库是以电子计算机为载体的承载语言的基础资源

四、数学基础

自然语言处理的两种基本方法
  • 基于规则的分析方法(理论基础:Chomsky文法理论)
    • 规则库开发
    • 推导算法设计
  • 基于语料库的统计方法(理论基础:数理统计、信息论)
    • 语料库建设
    • 统计模型建立

概率论基础(1)

试验:一个可观察的人工或自然的过程

样本空间:是一个试验的全部可能出现的结果的集合。

事件:一个试验的一些可能结果的集合

基本事件复合事件:含有一个、多个样本点的随记事件。

三个公理:

  • $P(A) \ge 0$
  • $P(\Omega)=1$
  • $P(A\cup B)=P(A)+P(B) \quad if \quad A\cap B=\varnothing$

概率论基础(2)
  • 联合概率
    • 表示为:$P(A,B)$, $P(AB)$, $P(A\cap B)$
    • $P(A,B) = P(A) × P(B|A) = P(B) × P(A|B)$
  • 条件概率
  • 概率的乘法原理
    • $P(A,B,C)=P(A) \times P(B|A) \times P(C|A,B)$
  • 事件独立
    • $P(A|B) = P(A), P(B|A) = P(B)${}
    • $P(A,B) = P(A) × P(B)$
  • 事件A与B在条件C下相互独立:
    • $P(A,B|C) = P(A|C) × P(B|C)$
    • $P(A|B,C) = P(A|C)$
    • $P(B|A,C) = P(B|C)$

概率论基础(3)
  • 全概率公式:$$P(A) = \sum_{i=1}^n P(B_i)P(A|B_i)$$

  • 贝叶斯公式: $$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$

  • $P(B)$ 为 先验概率

    • 不考虑先决条件而得到的该事件的概率
  • $P(A|B)$ 为似然估计

  • 求出 后验概率 $P(B|A)$

    • 在具备该事件出现的信息的条件下得到该事件的概率

关于熵、自信息等:请参考信息学中的熵

词内互信息

$w = c_1, c_2$($c_1$, $c_2$ 为组成w的汉字),$f(w)$为词频,$f(c_1)$、$f(c_2)$分别为 $c_1$, $c_2$ 在语料库 $C$ 中的出现次数(字频)。且 $C$ 的总词数为 $N_w$,总字数为 $N_c$,则 $w$ 的词内互信息为:

$$mi(w)=log_2(\frac{N_c^2×f(w)}{N_w × f(c1) × f(c2)})$$


  • 数据分类
    • 训练集、测试集、验证集
    • 封闭测试与开放测试
      • 开放测试指的是测试样本不属于训练样本集合,否则称为封闭测试
  • 性能评价
    • 准确率 Precision,判为对的中有多少个正例。$$P=\frac{tp}{tp+fp}$$
    • 召回率 Recall,正例有多少个被判为对了。$$R=\frac{tp}{tp+fn}$$
    • F1 值 $$F1=\frac{2 \times P \times R}{P+R}$$
    • 正确率 Accurary $$Accuracy=\frac{tp+tn}{all}$$
    • 错误率 Error $$Error=\frac{fn+fp}{all}$$

注:
tp: true positive,判断为正例,判断对了。
fn: false negative, 判断为负例,判断错了

五、统计语言模型

  • 语言模型
    • 用来计算一个句子的概率的概率模型
  • 噪声信道模型 $$\hat{I}=\arg\max_I(p(I|O))=\arg\max_Ip(I)p(O|I)$$
    • I:语言文本
    • O:声音信号、字符图像信号、拼音输入等
    • P(I):语言模型
    • P(O|I):声学、图像、翻译等模型
  • 平滑
    • 加1平滑
    • 小于1平滑
    • Good Turing平滑
      • $p_0=n_1/N$
      • $r^*=(r+1)n_{r+1}/n_r$
      • 样本中出现 r 次的事件的概率:

$$P_r=\frac{r^*}{N}=\frac{r+1}{N}\frac{n_{r+1}}{n_r}$$

六、汉语自动分词

  • 曲折语(英语、德语、俄语等)
    • 分词(词语识别)
    • 形态还原
    • POS-Tagging 词性标注
  • 分析语(汉语)
    • 分词
    • POS-Tagging 词性标注
  • 黏着语(日语)
    • 分词
    • 形态还原
    • POS-Tagging 词性标注

汉语自动分词:通过计算机把组成汉语文本的字串自动转换为词串的过程(Segmentation)

:由语素构成的、最小的、能够独立运用的、有意义的语言单位。

  • 3.分词原则:
    • 合并原则
    • 切分原则
  • 4.分词主要难题
    • 分词规范
    • 分词起义
    • 未登录词识别
  • 5.自动分词的基本方法
    • 最大匹配分词
      • 正向最大匹配
      • 逆向最大匹配
      • 双向最大匹配
    • 基于语言模型的最大概率法分词
      • $P(Seg)=p(w_1,w_2,…,w_i)\approx p(w_1) \times p(w_2) \times … \times p(w_i)$
      • 词图构造
    • 最短路径分词
    • 半词法分词
    • 基于字标注的方法

七、隐马尔科夫模型

参考资料:HMM模型基础

向前算法、向后算法、最大可能路径

作业参考

(1)词语搭配统计,代码参考

(2)正向最大匹配分词,代码参考

(3)贝叶斯垃圾邮件分类,代码参考

other:


文章作者: ╯晓~
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ╯晓~ !
评论
  目录