为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于用户浏览记录的网页rank思路tanke.cc

2012-09-14 2页 doc 25KB 9阅读

用户头像

is_169060

暂无简介

举报
基于用户浏览记录的网页rank思路tanke.cc Google的pagerank就不多介绍了,一个能衡量网页重要程度的算法,本质上是网页相互投票的结果,基于这个 特性,我们可以通过使用sitemap让搜索引擎尽可能浏览到多的网站内容,也可以通过多做外链来提高网站的PR值,达到SEO的目的。   市场上大多数搜索引擎都在使用pagerank类似的方法,且为了保证公正性,都采用纯机器运行的方式,通过网页爬虫来遍历网站,这就出现了一些有趣的问题:   1、一个网页的内容是很棒的,但是由于外链太少,爬虫在设定的深度阈值下可能无法爬到它,成为了少人问津的“暗内容”   2、部分...
基于用户浏览记录的网页rank思路tanke.cc
 Google的pagerank就不多介绍了,一个能衡量网页重要程度的算法,本质上是网页相互投票的结果,基于这个 特性,我们可以通过使用sitemap让搜索引擎尽可能浏览到多的网站内容,也可以通过多做外链来提高网站的PR值,达到SEO的目的。   市场上大多数搜索引擎都在使用pagerank类似的方法,且为了保证公正性,都采用纯机器运行的方式,通过网页爬虫来遍历网站,这就出现了一些有趣的问题:   1、一个网页的内容是很棒的,但是由于外链太少,爬虫在设定的深度阈值下可能无法爬到它,成为了少人问津的“暗内容”   2、部分网站因为PR值很高,即使转载的内容或是价值不高的内容,也可能有很好的检索排名,即使技术领先的搜索引擎采用语义网络的方法识别优质内容,效果依然不够好   为了规避以上问题,引入用户数据来评判网页内容的重要性及质量,是一个可研究方向,怎么做呢?   假设:浏览行为及时长是对网页质量的最好评判,相当于用户标注,在大规模数据的情况下,效果应优于机器   原理:   1、通过浏览器或其他客户端软件,最好的防火墙或其他安全软件,获取用户浏览日志,上传给搜索引擎的爬虫数据库,即是得到用户浏览数据   2、爬虫匹配已有索引库,找到未索引内容,爬之   3、利用用户日志给网页投票,浏览时间越长权重越高,计算出网页的rank   缺陷:   1、依赖客户端   2、有用户隐私问题   规避:   1、提出云杀毒、云防御、云安全,让用户同意上传浏览   2、偷偷上传,将浏览记录(其他文件也可以)加密并分拆上传,在服务器端组合还原   好了,思路说完了,来给它起个响亮高深名字:peoplerank
/
本文档为【基于用户浏览记录的网页rank思路tanke.cc】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索