为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

什么是网页去重原理

2017-11-15 2页 doc 11KB 10阅读

用户头像

is_215732

暂无简介

举报
什么是网页去重原理什么是网页去重原理 什么是网页去重原理, 由:军情观察室 www.worldmil.net 收集整理jns发布 注明:来之痞子瑞《SEO深度解析》书本知识,非常感谢作者给我们写了这么好SEO知识。 【导读】在互联网如此发达的今天,同一个资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定程度上就是对搜索引擎自身资源的浪费,因此去除重复内容...
什么是网页去重原理
什么是网页去重原理 什么是网页去重原理, 由:军情观察室 www.worldmil.net 收集整理jns发布 注明:来之痞子瑞《SEO深度解析》书本知识,非常感谢作者给我们写了这么好SEO知识。 【导读】在互联网如此发达的今天,同一个资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定程度上就是对搜索引擎自身资源的浪费,因此去除重复内容的网站也成为了搜索引擎所面临的一大问题。 去重”步骤 在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,“在整个搜索引擎架构中实施得越早,越可以节约后续处理系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。 去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。 实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割的方式提取关键词,并进行指纹计算,连切割就是以单个字向后移动的方式进行切割就是单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。
/
本文档为【什么是网页去重原理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索