为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

搜索工具看真点

2012-05-15 3页 doc 25KB 14阅读

用户头像

is_556812

暂无简介

举报
搜索工具看真点搜索工具看真点 提起Internet,套用以前的老话说,那真是“地大物博、资源众多”,可是要在千万个页面中找到你需要的内容并不是一件轻松的事。 于是,搜索引擎出现了,但是它的信息系统的表达方式和组织方式并不准确,而且,它并没有一个数据库可以按照字母顺序插入一个新站点,相反,这些信息的挖掘工作是由数字机器人或者人工通过搜寻上千个页面完成的,然后再将这些信息按照页面的标题进行分类。这些搜索引擎根据自身的非常复杂的算法选择出与用户所输入的关键字最匹配的页面。 一、关于robot 搜索引擎包含三个部分:一个自动的站点搜索器...
搜索工具看真点
搜索工具看真点 提起Internet,套用以前的老话说,那真是“地大物博、资源众多”,可是要在千万个页面中找到你需要的内容并不是一件轻松的事。 于是,搜索引擎出现了,但是它的信息系统的表达方式和组织方式并不准确,而且,它并没有一个数据库可以按照字母顺序插入一个新站点,相反,这些信息的挖掘工作是由数字机器人或者人工通过搜寻上千个页面完成的,然后再将这些信息按照页面的标题进行分类。这些搜索引擎根据自身的非常复杂的算法选择出与用户所输入的关键字最匹配的页面。 一、关于robot 搜索引擎包含三个部分:一个自动的站点搜索器(也经常叫做robot、bot、spider或者crawler)、索引和一个将搜索结果分类呈现给用户的软件。 一些站点会提供关于网站内容的目录列表,这个列表也经常叫做搜索引擎,但是和自动站点搜索器robot不同,它们并不能自动搜集数据,这一项工作是由人工完成的,他们从提交上来的站点名单中提取URL和相关页面数据。然后编辑成列表,而一些站点如Yahoo!(http://www.yahoo.com)、OpenDirectoryProject(http://www.dmoz.com)的目录列表被按照层次组织在一起,以便指导用户找到他们需要的内容。而在很多网站内部,也有类似搜索引擎的功能,可以根据关键字对网站内部的内容进行搜索。由于Yahoo!受到的普遍欢迎,很多搜索引擎如Lycos(http://www.lycos.com)和GONetwork(http://www.go.com),都在引擎的主页提供了这种方式的目录列表。 和纯粹的网站目录列表不同,综合类的引擎使用的数据搜集程序rebots或者bots可以覆盖到更广泛的网站,并不是只限制在本网站内,而Robots或者bots,正如一般对它们的称呼,是通过对成千上万网页的搜索来收集数据的,这些程序可以自动地执行搜索任务,从一个web服务器中的所有站点到另一个web服务器的所有站点,为搜索引擎收集各种URL和其他信息,以便用户在搜索引擎中能够按照关键字进行搜索。 Bots一般是从预定的URL列表开始工作的,而URL一般包含几个连接,Bots就根据这些连接进入到这些站点,在连接站点的过程中向列表中添加更多的URL。 每一个搜索引擎的Bot使用的和完成的过程都不同,尽管bots在连续不断地收集数据,但对于突然出现在搜索结果列表中的新网页也许还要花费1到4个星期的时间。相对于一些bots只搜集地址连接,另外一些bots还会收集页面标题,有一些甚至收集页面中的所有文本。 robots在internet上搜索信息的程度又有不同,一些更深入一些,它们根据页面的连接找到一些没有被提交上来或者没有被引擎索引的URL,例如在AltaVista(http://www.altavista.com)、HotBot(http://www.hotbot.com)和NorthernLight(http://www.northernlight.com)中使用的那一种bots,对连接页面的搜索就做非常彻底,而另一些,例如在Google(http://www.google.com)和GONetwork中的bots,在按连接路径收集数据的过程中没有非常彻底,因此它们对一个URL的搜索就可以很快提交出结果。 所连接网站的声望对于robots的搜索结果也有一些影响。网页的声誉越高,被bots加入索引的可能性也就越大。对于Excite(http://www.excite.com)、HotBot和Lycos使用的bots会根据连接网站的声望来确定bots的路由。一些用户对这种方法提出批评,然而,在搜索引擎的索引中一般并没有那些标明“本页面包含很重要的信息”的页面。 二、关于索引 不管网页信息的搜集工作是由bots完成还是由人工完成,所有的网页信息都被放置在目录或索引之中,当人们用手工更新目录时,搜索引擎依靠bot软件记录新的信息并刷新旧的数据。在bot从站点搜索中“归来”的时候,便将由预先编程决定的网页内容如标题、URL、文本和其他信息下载到引擎的索引之中,更新的信息会取代旧的内容,新的站点关键字也会加入到索引之中以便完成将来的搜索任务。 在信息被索引之后,这些站点便会出现在搜索结果之中,但是如果没有访问的路径、分类,这些搜索结果就和那些随机搜索的站点列表没有什么区别,失去了搜索的意义。 三、站点分类软件 一些搜索引擎使用了相当复杂的算法,以便在被搜索引擎索引的众多数据中根据关键字进行搜索,而搜索结果按相关的顺序显示出来。一旦你输入了关键字、按下了“搜索”按纽,软件便会在关键字索引中将你搜索的内容显示出来。 还有一些使用自然语言的搜索工具,如AskJeeves(http://www.askjeeves.com),在搜索结果方面采用了和其他搜索工具一样的工作原理,然而它们允许你将你的搜索要求用一般的英文表示出来。举例来说,你可以问“我到哪里可以买到扫描仪”,软件就会在数据库中进行搜索,寻找符合你询问内容的网页。 现在的很多搜索引擎在搜索方面使用了其他搜索服务的技术,如DirectHit(http://www.directhit.com)和OpenDirectoryProject,但是采用了自己的数据库提交搜索结果。 举例来说,LookSmart(http://www.looksmart.com),提供了Excite和MSN方式的目录列表,但是当在它自己的数据库中找不到相关的站点时使用了Alta-Vista算法返回搜索结果;HotBot和Lycos使用了DirectHit的队列技术提炼搜索结果,而AltaVista、NetscapeSearch(http://www.netscape.com)和AOLSearch都使用了来自OpenDirectoryProject(http://www.aol.com)的目录列表。 对于用户而言,可能更为重要的是搜索结果的排序方式,而各种引擎和目录所使用的软件和相关的排序方式都有所不同,例如AltaVista、GONetwork和Excite这几个引擎所使用的软件,在对数据库进行搜索的时候,都会对每一个单独的页面的每一个单词做彻底的检查,计算关键字在每一个页面出现的次数;HotBot的软件则是对于那些访问比较频繁的站点给予优先权,GONetwork和其他站点则是根据对工作人员提出的站点予以优先。 Metatags(页面上用来包含页面信息的特殊标签)通常对页面搜索很有帮助,尽管在metatags中包含的关键字对于浏览网页的人而言是不可见的,但是它所包含的页面内容对于搜索很有帮助。举例来说,一个关于老式汽车的页面可能在metatag中包含“classic”、“car”、“1950”和“Chevrolet”一类的词语,而搜索引擎软件就会注意在metatag中包含的关键字,在搜索结果中将该页面更加突出。 四、后记 虽然搜索引擎仍然是在INTERNET上搜索信息的最佳工具,但是要确切找到你需要的内容还需要花费一些工夫。就像你不可能一走进图书馆,就马上能够找到你需要的内容的相关书籍。 尽管如此,随着这些搜索引擎的改进,它们将仍然在网络搜索中扮演重要的角色。
/
本文档为【搜索工具看真点】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索