《Python自然语言处理实战：核心技术与算法》

CRF++的使用

2020-12-09 17:04 工具评论 0 更多详情

训练
命令行：

% crf_learn template train.data model

这个训练过程的时间、迭代次数等信息会输出到控制台上（感觉上是crf_learn程序的输出信息到标准输出流上了），如果想保存这些信息，我们可以将这些标准输出流到文件上，命令格式如下：

% crf_learn template_file train_file model_file >> train_info_file
有四个主要的参数可以调整：

-a CRF-L2 or CRF-L1

规范化算法选择。默认是CRF-L2。一般来说L2算法效果要比L1算法稍微好一点，虽然L1算法中非零特征的数值要比L2中大幅度的小。

-c float

这个参数设置CRF的hyper-parameter。c的数值越大，CRF拟合训练数据的程度越高。这个参数可以调整过度拟合和不拟合之间的平衡度。这个参数可以通过交叉验证等方法寻找较优的参数。

-f NUM

这个参数设置特征的cut-off threshold。CRF++使用训练数据中至少NUM次出现的特征。默认值为1。当使用CRF++到大规模数据时，只出现一次的特征可能会有几百万，这个选项就会在这样的情况下起到作用。

-p NUM

如果电脑有多个CPU，那么那么可以通过多线程提升训练速度。NUM是线程数量。
带两个参数的命令行例子：

% crf_learn -f 3 -c 1.5 template_file train_file model_file

测试
命令行：

% crf_test -m model test.data

有两个参数-v和-n都是显示一些信息的，-v可以显示预测标签的概率值，-n可以显示不同可能序列的概率值，对于准确率，召回率，运行效率，没有影响，这里不说明了。

与crf_learn类似，输出的结果放到了标准输出流上，而这个输出结果是最重要的预测结果信息（测试文件的内容+预测标注），同样可以使用重定向，将结果保存下来，命令行如下。

% crf_test -m model_file test_files > result_file

............

马尔可夫性质

2020-12-04 18:58 概念评论 0 更多详情

马尔可夫性质（英语：Markov property）是概率论中的一个概念。
当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态；
换句话说，在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
簡言之：隨機過程中某事件的發生只取決與它的上一事件、是「無記憶」過程。

可分为：
成对马尔科夫性
局部马尔科夫性
全局马尔科夫性

............

链式法则(Chain Rule)

2020-11-04 10:40 概念评论 0 更多详情

这里是指条件概率乘法的链式法则，求多个关联事件并存时的概率，不要和微积分的链式法则混为一谈。公式：

读作：既A1又A2并且…并且An的概率。

举个词性标注的简单例子：假如一句话只有3个词，有可能这3个词刚好分别是A1(动词)、A2(形容词)和A3(名词)，例如“喝(动) 热(形) 咖啡(名)”。我们想知道这种可能性有多大，按照公式：P(A1,A2,A3) = P(动词,形容词,名词) = P(动词) * P(形容词|动词) * P(名词|动词,形容词)。

从公式中可以看出，越到后面，An关联的元素就越多，如果可能性多了，处理起来非常麻烦，于是就有了它的简化版——马尔可夫链。

............

语言模型

2020-11-04 00:28 概念评论 0 更多详情

语言模型就是用来计算一个句子的概率的模型，也就是判断一句话是否是人话的概率？

............

Noisy Channel Model

2020-11-04 00:08 概念评论 0 更多详情

公式：
应用场景：语音识别、机器翻译、拼写纠错、OCR、密码破解...（信号到文本）

............

倒排表

2020-11-03 23:57 概念评论 0 更多详情

倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

............

词向量

2020-11-03 23:55 概念评论 0 更多详情

词向量技术是将词转化成为稠密向量，并且对于相似的词，其对应的词向量也相近。

............

前向最大匹配算法

2020-10-31 11:19 算法评论 0 更多详情

依赖于词典匹配
# 前提条件
语句已经去掉特殊标点符号

需要预先设置一个字典，然后根据字典进行匹配
# 算法原理
首先我们可以规定一个词的最大长度，每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配，

如果没有找到，就缩短长度继续寻找，直到找到或者成为单字。如果最后词典没找到变成了单字，那就把单字单独切分，从头开始重新循环下一个最大长度的词组。如果剩余长度不足为最大长度，那就取剩余长度。
从左向右扫描寻找词的最大匹配，和字符串匹配算法类似。

............

笔记关键词检索?

《Python自然语言处理实战：核心技术与算法》