百度切词算法(新篇) 我所了解的百度切词算法,和大家看到的以前所看到的切词算法在本质上有比较大的区别,我 主推的百度切词算法来自于“用户搜索”,而不是简单的程序计算。
百度切词第一条规则:最高级别专用词汇。如“中国”、“制造”等,作为最高级别不允许分割。这样防止出现别人利用程序切词搞非法内容。
百度切词第二条规则:完全匹配,大家可以搜索“钢木室内门”就可以看到,排前面的全是 title或者描述中完全匹配,紧跟着的是切词匹配的网站。
百度切词第三条规则:基于搜索查询量的“权切词”技术,根据最近一个星期或者最近一天有效搜索量的总和,来给每个关键词加权,权重高的优先切词。这应该就是百度切词技术中最厉 害的一点,这样可以保证大部分请求都可以正确的返回用户想要的结果,比任何程序判断更准 确,同时也符合用户体验。
百度切词第四条规则:基于词典的普通词汇分词技术,实在没有什么搜索量的词,用词典分词 来实现。这个大家说过很多次了我就不多讲了。 大家可以尝试搜索“中国家务实”等你可以想到的词汇去查询。以验证我的理论。