为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

4-2检索技术与检索策略1

2019-07-09 9页 doc 26KB 38阅读

用户头像

is_212655

暂无简介

举报
4-2检索技术与检索策略1授课内容:第四章  检索技术与检索的策略 4.6计算机检索的主要技术: ⑴逻辑组配检索:将多个检索词用布尔运算符组合在一起来进行检索,我们称之为布尔逻辑检索。 是为处理多个不同的检索项,根据布尔逻辑代数的原理,使用特定的运算符将多个检索词、短语、代码进行合并处理,制定所需检索结果的命中条件与组配次序的技术方法。布尔逻辑有三种方式: 类型方式 意思 运算符 检索表达式 检索结果 逻辑与 并且、和 *、AND A*B 提高查准率 逻辑或 或者 +、OR A+B 提高查全率 逻辑非 不包含、...
4-2检索技术与检索策略1
授课内容:第四章  检索技术与检索的策略 4.6计算机检索的主要技术: ⑴逻辑组配检索:将多个检索词用布尔运算符组合在一起来进行检索,我们称之为布尔逻辑检索。 是为处理多个不同的检索项,根据布尔逻辑代数的原理,使用特定的运算符将多个检索词、短语、代码进行合并处理,制定所需检索结果的命中条件与组配次序的技术。布尔逻辑有三种方式: 类型方式 意思 运算符 检索表达式 检索结果 逻辑与 并且、和 *、AND A*B 提高查准率 逻辑或 或者 +、OR A+B 提高查全率 逻辑非 不包含、排除 —、NOT A-B 排除无关文献           逻辑与: “A*B”表达式,假设A和B是两个检索词,则表示检索结果的文献中A与B的检索词必须同时存在。有助于明确限定检索范围,提高查准率,增强专指性,又能防止漏检。。 逻辑或:“A+B” 表达式,表示检索结果中A或B中任何一个词存在都可以, A和B同时存在也可以。有助于提高查全率,同一关系词相关关系词宜采用。 逻辑非:“A-B” 表达式,表示检索结果中必定不包含某一检索词,排除包含特定检索词的信息。表示检索的文献中A词必须存在,但不能有B。“逻辑非”表达式,主要用于排除那些与检索意图无关的文献。 ⑵截词检索:在词干的不同位置添加截词符,减少相同词干的检索词的输入数量,提高检索率。截词符常用:外文中用“*”或“?”,中文信息检索系统采用“前方一致、后方一致、前向匹配”等表示。 划为四种:右有限截词、右截词、左截词、中间截词。 ⑶位置运算符检索:因逻辑算符未对检索词之间的位置作出具体规定,造成检索系统在识别、理解检索式时有可能产生歧义,则用位置运算符来弥补,将检索词归于相同的字段子字段并体现限制它们之间的连接关系。常用于外文数据库。 ⑷限制检索: A.年代时间 B.期刊范围:重要期刊、全部期刊、核心期刊 C.词义:同义词选择可提高检索概念的准确度。 4.7.辅助性检索技术方法 ①加权检索与聚类检索 加权检索是某些检索系统中提供的一种定量的检索技术,对检索词给处权值以其大小体现重要程度。 聚类检索是通过一定的聚类方法,将相似度较高的文献集中在一起提供检索的技术。如数据库中的引文检索、相关文献、跨库检索都属于聚类检索。 具体地讲“引文”就是从一部著作引用某一章节,对于该著作的或对于一项陈述或主张作为权威依据的某些来源资料的参考注释”。这是一种简短的参考性的记载,用以指明引用的文字,公式,结论等的来源,或指明含有类似资料的出版物章、节。由于科学劳动的继续性和科技论文的整体性,所以引文是普遍存在的。通过对引文的研究能找到文献之间的内在联系,通过对引文的检索能获取同一问题的更多文献。 ②二次检索:可反复进行,选择二次检索功能,改选检索词再次检索。被检文献范围是在上一次检索出的结果中进行,起到了筛选文献缩小范围的作用。 ③题录标记检索:是对检索出的文献题录进行筛选,再批量的阅读文摘选择所需文献的过程。 ④匹配检索:前向检索,精确检索,模糊检索 不同的数据库,检索途径设定的检索规则有所不同,有的检索途径允许用户用“任意一致”的方式检索,有的只允许用“完全一致”或“前方一致”的方式检索。 “完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。如要查找作者“罗章”的文献,则必须准确输入“罗章”二字,如输入“罗”或“章罗”,则不能命中。 “前方一致”属于模糊检索的一种。如以关键词为检索途径,输入“建筑?”,便可查到“建筑”、“建筑环境”、“建筑设计”、“建筑材料”、“建筑施工”等等。(注意,匹配符通常用“?”,但也有的数据库用“*”) “任意一致”是模糊检索中的最为自由者。如用篇名作为检索途径,输入“出版”,则可检出篇名中任一处含有“出版”一词的文献,如《出版系统探讨》、《广东出版史概述》、《商务印书馆与近代教科书的出版》等。同义词库的使用:该库把关键词中具有同义、近义关系以及中英文、大小写等不同形式的词,归并成同义词组。检索时,只以同义词组中的任一词作为检索词,即可查出该库中此概念下的所有同义词,对同义词筛选后检索,以获得较高的命中率。 首先将辅助功能区的"同义词库"打钩选中,选择检索入口为"关键词",输入检索词(如"CAD"),点击"检索"按钮后系统自动打开同义词库选择所要的同义词后单击"确定"按钮即可得检索结果 ⑤利用索引工具:索引是检索工具中的辅助性工具,利用各种专题索引,寻找到文摘或全文的线索去向。 4.8、数据库的检索方式检索举例 不同数据库的检索方式是不同的,  简单检索(快速检索),传统检索(专业分类导航检索),高级检索,分类检索,期刊检索,字段检索,全文检索,。 确定检索途径后,就可以在检索式输入窗口中输入检索表达式。检索表达式可以是一个检索词或者是一个逻辑表达式。简单的检索只要输入一个检索词即可,复杂的检索则需要输入检索表达式。将多个检索词用布尔运算符组合在一起来进行检索,我们称之为布尔逻辑检索。 检索举例:检索题为“检索有关新闻美学的文献”。出检索词:新闻,美学,新闻美学 1.单条件检索:检索途径----题名,输入“新闻”或“美学”------命中文献太多,且有许多不是自己所要的。 2. 逻辑组配检索 逻辑与,检索表达式:A*B 输入“新闻*美学”-------检索出题名中同时含有“新闻”和“美学”的文献,检索结果大大缩小。 输入“新闻美学”,只命中《戈公振的新闻美学实践》这样的文献,但漏检了《新闻的美学属性》、《新闻标题中的美学》这些文献。如果用“新闻*美学”来进行检索,则三篇文献都检中。 逻辑或,检索表达式:A+B 举例:查找“研究杜甫的文献”。分析检索词:杜甫,杜诗,李杜 检索途径:题名, 输入“杜甫”-------命中540篇。 但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中608篇。 逻辑非,检索表达式:A-B 举例:检索题“合资企业的财务管理” 检索词:企业管理,合资企业,财务管理,国营企业管理,民营企业 检索途径:关键词 检索式: K=合资企业+财务管理—(国营企业管理+民营企业) 怎样做检索式: 举例1:查找有关高校文检课改革的文章,写出简要检索过程 高级检索 任意字段:(高校+大学)*(文检+文献检索)*改革 查询结果:共找到 387条 举例2:查找有关“企业资产重组中的财务或会计问题“的资料 高级检索: 企业*资产重组*财务 或者 企业*资产重组*会计 关键词 命中[4]篇  ,题名 命中[2]篇, 中文摘要 命中[932]篇, 全文途径 命中[60291]篇。 举例3:第一部有声电影是什么时候第一次放映的? 百度高级搜索 输入 世界*第一部*有声电影 结果《唐璜》 1926年8月6日上映 4.9、关于逻辑算符的“优先级”问题 当布尔运算符在一个检索式中连续出现时,它们的“级别”是不同的。大部分数据库是这样规定的:- 优先级最高,* 次之,+ 最低,括号内优先。 例如要查找研究唐宋诗歌的文献,可以用“(唐+宋)*诗”、“唐*诗+宋*诗”,而不能用“唐+宋*诗”。“唐+宋*诗”查找的是含有“唐”的文献或者同时含有“宋”和“诗”的文献,这样就把涉及到的唐代、唐姓的文献都找出来了。 4.10常用的评价指标: 查全率是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。可用下式表示: 查全率=检出的相关文献量/检索系统中相关文献总量 检准率是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。可用下式表示: 查准率=检出的相关文献量/检出文献总量 然而,由于许多因素的影响,在实际检索中,检全率和检准率是不可能达到100%的,实践表明:查全率和查准率之间存在互逆关系,即提高查全率会降低查准率,反之亦然。 例如:数据库中有10万篇记录,其中有100篇相关文献记录,查到20篇文献记录,其中只有10篇记录是相关文献, 即  查全率=10:100 =10% 查准率=10:20=50% 信息检索效果就是利用检索系统进行检索服务时所获得的有效结果。评价信息检索效果,目的是为了准确掌握检索系统的各种性能水平,分析影响检索效果的因素,调节检索策略,改进检索系统的性能,提高检索效果,满足用户信息检索的需求。 六.影响检索效果的主要原因 1. 检索语言不能全面地显示文献主题概念之间的等级和相关关系,没有排除检索语言中的同义现象,造成同一主题文献分散而致漏检; ⑴检索系统收录文献不全,检索途径不齐全; ⑵文献的标引深度不够,前后不一致或遗漏了原文的重要概念或选词不当等; ⑶检索人员不具备选择检索词以表达文献主题的能力以及把选出的检索词逻辑地完整地组合在一起的能力等等。 我们可以把产生漏检和误检的原因分成主观和客观两个方面,客观方面是指检索工具,主观方面是指标引人员和检索人员,因此,从这两方面人手才能降低漏检率和误检率。 七.调整检索策略,提高检索效果的措施 1.检索策略:是为实现检索目标而制定的全盘,是对查找文献所作出的科学安排。 如何制定和调整检索策略?其主要措施有: 1.选择质量好的检索工具或检索系统。既要注意选择质量较高的检索工具,又要选用适合检索课题需要的检索工具。 2.准确使用检索语言。所用检索语言应能准确表达情报需求,灵活运用泛指性较强和专指性较强的检索语言。 使用泛指性较强的检索语言(如上位类号、上位主题词)能提高检全率,但检准率下降。 使用专指性较强的检索语言(如下位类、下位主题词)能提高检准率,但检全率下降。 3.善于利用各种辅助索引。一种检索工具通常有许多辅助索引,提供多种检索途径,应根据检索需要综合运用,选用相应的索引进行检索。 4.通过扩检与缩检提高查准率与查全率。根据检索课题的需要,适当调整对查全率和查准率的要求。如申请专利、科技查新、立项等要求查全率高,不遗漏任何一篇重要文献,应选用泛指性的检索词来提高查全率。而检索新的课题,要求查准率高,则要选用专指性的检索词提高查准率,特别是若干个检索词组配而成的专指概念的检索式查准率更高。
/
本文档为【4-2检索技术与检索策略1】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索