兰州网站建设-兰州网站优化-优化网站标题设置如何利用百度索引擎中文分词技

阅读  ·  发布日期 2019-01-02 20:16  ·  admin

兰州网站建设-兰州网站优化-优化网站标题设置如何利用百度索引擎中文分词技术,网站建设,网站优化排名,网站标题设置如何利用百度索引擎中文分词技术。搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。

分词例子:我/是/一个/学生
搜索引擎分词技术简述
1.基于字符串匹配的分词方法
按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。
常用分词的方法:
正向最大匹配法(由左到右的方向)
分词测试例子:我/有意/见/分歧
反向最大匹配法(由右到左的方向)
分词测试例子:我/有/意见/分歧
据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反
向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。
2.基于统计的分词方法
相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。
3.基于理解的分词方法
在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。
分词技术归纳:少于等于3个中文字不切割,对于大于等于4个汉字的词将被分词,分词结论:百度识别人名、影视、戏剧名等专用词,转用词库分词时优先。