谈谈搜索引擎是如何判别重复页面的标准是什么


    在搜索引擎的网页索引库里重复网页有多种类型,这些重复网页有的是没有点儿改动的副本,有的在内容形式上稍做修改,还有是出现的时间早晚,有的则仅是网页的。我们将这些归类得出不同内容重复可以归结为以下4种类型。
 
1: 如果两篇文档内容和布局格式毫无别则这种重复可以同做完全重复页面。
2: 如果两篇文档内容相,们是布局格式不同,则叫内容重复页面。
3: 如果两篇文档有部分重要的内容相同,并布局格式相同,则称为布局重复页面。
4: 如果两篇文档有部分重要的内容相,是布局格式不同,则称为部分重复页面。
 
    所谓近似重复网页发现,是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之。
    发现完全相同或者近似重复网页对于搜索引擎有很多好处。
    首先,如果我们能够找出这些重复网页并从数据库中去掉,能够节省部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索引擎的搜索质量和用户体验。
    其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。
    另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的种间接体现,也预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋了它较高的权值。
    从另外个角度看,如果用户点击了个死链接,那么可以将用户引导到个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时又现有利于改善搜索引擎系统的服务质量。
 

本文由SEO优化整理,本文不代表本站观点

本文地址:谈谈搜索引擎是如何判别重复页面的标准是什么:/news/latest/156.html

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处: 谈谈搜索引擎是如何判别重复页面的标准是什么