《Python自然语言处理实战:核心技术与算法》
作者:涂铭,刘祥,刘树春 著
在所有笔记中搜索你感兴趣的关键词!
作者:涂铭,刘祥,刘树春 著
依赖于词典匹配
# 前提条件
语句已经去掉特殊标点符号
需要预先设置一个字典,然后根据字典进行匹配
# 算法原理
首先我们可以规定一个词的最大长度,每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配,
如果没有找到,就缩短长度继续寻找,直到找到或者成为单字。如果最后词典没找到变成了单字,那就把单字单独切分,从头开始重新循环下一个最大长度的词组。如果剩余长度不足为最大长度,那就取剩余长度。
从左向右扫描寻找词的最大匹配,和字符串匹配算法类似。
评论 (0)