seo中搜索词处理、文件匹配、初始子集选择是什么?

小芳seo 2019-04-14 阅读:366

seo中搜索词处理、文件匹配、初始子集选择是什么?

如何理解seo中搜索词处理、文件匹配、初始子集选择是什么,经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入查询词后,排名程序调用索引程序数据,计算排名显示给用户,排名过程是直接跟用户互动的。

东莞网络公司

搜索词处理

搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理在下面几个方面:

1、中文分词,与页面索引一样,搜索词也必须进行中文分词,将查询字符串转换为以词为基础的关键词组合。分词原理与页面分词相同。

2、去停止词。和索引一样,搜索引擎也需要把搜索词中的停止词去掉,最大限度地提高排名相关性及效率。

3、指令处理。查询词完成分词后,搜索引擎的默认处理方式在关键词之间使用“与”逻辑。

另外用户输入的查询词还可能包含一些高级搜索指令,如加号、减号等,搜索引擎都是需要作出识别和相应处理。有关高级搜索指令,后面还有详细说明。

4、拼写错误矫正。用户如果输入了明显错误的字或英文单词拼错,搜索引擎会提示用户正确的用字或拼法。

5、整合搜索触发,某些搜索词会触发整合搜索。

6、搜索框提示,用户在搜索框填写过程中,搜索引擎就根据热门搜索数据结合给出多组可能的查询词,减少用户输入时间。

文件匹配

搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能够快速完成。

初始子集的选择,找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是太长。

实际上用户并不需要知道所匹配的几十万、几百万个页面,绝大部分用户只会查看前两页,也就是前20个结果。搜索引擎也并不需要计算这么多页面的相关性,而只是计算出最重要的一部分页面就可以了。搜索引擎结果页面通常最多显示100个。用户点击搜索结果页面底部的下一页链接,最多看到第100页,也就是1000个结果。

以上内容均来源于东莞网络公司,由东莞培恋网科技整合。东莞市培恋网科技为企业网页建设排名优化,提供企业、个人模板网站制作,国外域名注册和服务器提供商。


评论(0)

">