《Python自然语言处理实战：核心技术与算法》

CRF++的使用

2020-12-09 17:04 工具评论 0 更多详情

训练
命令行：

% crf_learn template train.data model

这个训练过程的时间、迭代次数等信息会输出到控制台上（感觉上是crf_learn程序的输出信息到标准输出流上了），如果想保存这些信息，我们可以将这些标准输出流到文件上，命令格式如下：

% crf_learn template_file train_file model_file >> train_info_file
有四个主要的参数可以调整：

-a CRF-L2 or CRF-L1

规范化算法选择。默认是CRF-L2。一般来说L2算法效果要比L1算法稍微好一点，虽然L1算法中非零特征的数值要比L2中大幅度的小。

-c float

这个参数设置CRF的hyper-parameter。c的数值越大，CRF拟合训练数据的程度越高。这个参数可以调整过度拟合和不拟合之间的平衡度。这个参数可以通过交叉验证等方法寻找较优的参数。

-f NUM

这个参数设置特征的cut-off threshold。CRF++使用训练数据中至少NUM次出现的特征。默认值为1。当使用CRF++到大规模数据时，只出现一次的特征可能会有几百万，这个选项就会在这样的情况下起到作用。

-p NUM

如果电脑有多个CPU，那么那么可以通过多线程提升训练速度。NUM是线程数量。
带两个参数的命令行例子：

% crf_learn -f 3 -c 1.5 template_file train_file model_file

测试
命令行：

% crf_test -m model test.data

有两个参数-v和-n都是显示一些信息的，-v可以显示预测标签的概率值，-n可以显示不同可能序列的概率值，对于准确率，召回率，运行效率，没有影响，这里不说明了。

与crf_learn类似，输出的结果放到了标准输出流上，而这个输出结果是最重要的预测结果信息（测试文件的内容+预测标注），同样可以使用重定向，将结果保存下来，命令行如下。

% crf_test -m model_file test_files > result_file

............

笔记关键词检索?

知识点类型：【工具】

CRF++的使用