检索是指从文献资料、网络信息等信息集合中查找到自己需要的信息或资料的过程。相关检索是指使用关键词检索时,除得到相应的检索结果之外,还会得到一些检索词有关的关键词,一般具有较高的检索效率相关检索技术是网络信息检索系统所特有的技术之一。。
定义
相关检索是大多数
搜索引擎提供的一种检索技术。当使用关键词检索时,除得到相应的检索结果之外,在结果页面的上方或者下方会出现与检索词相关的一些关键词,单击这些关键词,就可以得到相应的搜索结果。例如,直接输入汉语拼音,搜索引擎“百度”会返回最相符的关键词供参考。,如“xigua”,将提示“西瓜”。相关检索可以避免重复输入搜索关键词,并给出选择的范围,使用户更容易地找到真正想得到的信息,能大大提高搜索效率,减少找到有效信息所花费的时间。
有关检索系统
信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询(Information Search)。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织部存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储于检索。一般情况下,信息检索指的就是广义的信息检索。
信息检索系统
网络信息检索系统是以Internet上的信息资源作为检索对象而形成的检索系统,系统采取客户机、服务器结构,彼此之间的关系相等,这样可以相互访问和利用对方的资源。由于Internet上的信息资源丰富、类型繁多,因此作为检索这些资源的网络信息检索系统也会呈现多样化。早期的网络信息检索工具有Archie(针对FTP资源)、WAIS(网上文本信息资源)、Veronica(针对Gopher资源)等。目前针对www资源的检索系统是网络信息检索系统的主力,搜索引擎、门户网站、网络资源指南等都是我们检索网络信息的主要检索工具。相关检索技术是网络信息检索系统所特有的技术之一。
关联检索系统
关联检索系统又称“结合检索系统”、“相关检索系统”。一种计算机情报检索系统。它利用统计算法对同一文献中共同出现的词的频率进行统计,然后在此基础上确定索引词典中每个词的关联值。在检索过程中,检索系统根据检索词的关联值,自动判定与选择其他有关联的词,从而扩大检索的范围。这种检索系统有较高的查全率。
检索策略
检索策略,就是在分析检索提问的基础上,确定检索的数据库、检索的用词,并明确检索词之间的逻辑关系和查找步骤的科学安排。检索式(即检索用词与各运算符的组配成的表达式)仅仅是狭义上的检索策略。
内容
(1)确定检索系统:根据课题选择合适的检索系统,它必须包括检索者检索需求的学科范围和熟悉的检索途径。在
计算机检索中还需要确定检索所
需要的文档名称或代码。
(2)确定检索途径:各检索系统一般都具有许多索引体系(即检索途径),应根据课题需要选择自己熟悉的检索途径。可多途径配合使用。
(3)选定检索词:各种检索途径均须有相应检索词(亦称入口词)方可进行检索。如分类途径以分类号作为检索词,主题途径以标题词、关键词等作为检索词等等。计算机检索还须选定检索词编制布尔逻辑提问式。
(4)调整检索方案:根据检索过程中出现的各种问题及时调整方案,扩大或缩小检索范围。
构造
1、分析用户信息需求,明确检索目的
2、构造与优化检索提问式
3、灵活运用各种运算符号
4、准确构造检索提问式
基本检索技术
字段限定检索
字段限定检索是把检索词限定在某个/些字段中,达到优化检索结果的方法。用户有两种方式进行字段限定检索。第一,可以利用索引检索或高级检索模式下的关键字检索下拉菜单将检索词限定在特定的字段。第二,可用字段标识符进行检索词字段限定检索。格式为:字段标识符缩写后空一格接检索词(即:字段标识符缩写 检索词),例如,TI hypertension表示检索标题中含hypertension字段的文献;AU Zuo X表示检索作者Zuo X的文章。
布尔逻辑检索
CINAHL数据库支持布尔逻辑检索,也是该库最基本、最重要的运算方式,利用布尔逻辑运算符对若干个检索词进行组合以表达检索要求的方法。布尔逻辑运算符包括“逻辑与”(AND)、“逻辑或”(OR)、“逻辑非”(NOT)3种(表1),输入大小写均可。上述3种布尔逻辑运算符可以单用,也可组合使用。布尔逻辑运算优先顺序为:( )>NOT>AND>OR。即先算括号内的,再依次算NOT,其次AND,最后OR。括号( )可改变运算顺序,将需要优先运算者置于圆括号中。例如:查找“维生素C或维生素E对糖尿病患者肾脏的保护作用”,检索提问式为:(维生素C or 维生素E)and 糖尿病 and 肾。
截词检索
截词检索(truncation searching)是指利用检索词的词干或不完整的词形进行检索,也称通配符检索、词干检索或字符屏蔽检索。截词检索隐含着布尔逻辑检索的“逻辑或”运算,因此,使用截词检索可扩大检索范围,避免漏检,且减少输入多次的麻烦。但采用截词检索既要灵活又要谨慎,截词部位要适当,若截太短(输入字符不得少于3个),将增加检索噪声,影响查准率。常用截词方式包括有限截词和无限截词2种。有限截词:指允许截去有限个字符。截断符常用“?”表示,代表1个字符,也可连续使用多个。词干后面连续的数个问号是截断符,最后一个是终止符,终止符与截断符之间有一个空格,输入时定要切记。无限截词:又称任意截词/开放式截词,指允许截去的字符数量不限。截词符常用“*”表示,代表零个或多个字符或一个字符串。按照截词部位不同,无限截词常包括右截词(截去词尾部,词前方一致)、左截词(截去词前部,词后方一致)、中间截词(截去词的中间部分,词两边较一致)和复合截词(同时采用两种以上的截断方式)。
位置检索
位置算符表示两个检索词之间的位置邻近关系,用于表示词与词之间的相互关系和前后次序,通过对检索词之间位置关系的限定,可增强选词指令的灵活性,提高检索的查全率和查准率。常见的位置算符包括“N”算符和“W算符”。
短语检索
短语检索又称精确检索/词组检索,是将一个词组或短语用双引号“”引起作为一个独立运算单元,进行严格匹配,以提高查准率。这种方法与模糊检索/概念检索相区别,要求检索结果必须含有与检索表达式完全相同(包括次序)的字串,需完全匹配。倘若含有停用词(stopword)则可能检索不出结果。
相关检索实现
构建过程
为了具体实现楚辞古籍实体款目之间的相关性,我们利用本体论思想和本体建模工具构建楚辞书目本体。Perez 等人按分类法组织和归纳出了本体包含的 5 个基本的建模元语( modeling primitive) , 这些元语分别为类( classes) 、 关系( relations) 、 函数( functions) 、
公理( axioms) 和实例( instances) 。楚辞书目本体的构建基于上文对楚辞书目相关性的详尽分析,并参照了FRBR 概念关系模型、Perez 的五元组分类法,以《楚辞书目五种》对楚辞相关文献的归纳与划分的书目结构为素材,利用本体建模元语构建的楚辞书目本体共包括 35个本体类,24个对象属性,20个数据类型属性,约5300个实例。
创建楚辞书目本体的类
本体类是一种特殊的资源, 它描述了具有共同特征或者在某方面相似的资源的集合。楚辞书目本体的类基于《楚辞书目五种》 以及表 1 对楚辞等古籍实例间的关联分析,划分出了35个基本本体类。
定义楚辞书目本体的对象属性
对象属性是实体间的联系,在资源描述中充当谓语作用。依据《楚辞书目五种》及其涉及的楚辞相关古籍的背景和内容,构建了24个楚辞书目本体的对象属性。定义域指定了使用当前待描述属性的陈述中充当主语的所有个体的类型。值域指定了所有个体的类型或者所有文字的数据类型,并且这些个体或文字在使用当前待描述属性的陈述中充当宾语。
确定楚辞书目本体的数据类型属性
数据类型属性用来连接实体的一些文字值,它不可以作为陈述的主语,只能做为宾语。比如人名的字、号、笔名、官职等,书目的出版地、内容等,馆藏图书的版本、版本类型、版本注释、版本形态、版本评论等, 音乐作品的曾用名、作url 地址等。例如描述人名实体用 string 类型,描述年龄实体int类型等。
用 protégé 工具实现楚辞书目本体
本文采用protégé 软件来实现楚辞书目本体的可视化,该软件提供了很好的可视化界面操作, 可以很方便地添加类和属性, 可以生成 xml、 turtl、 rdf 或 owl 格式的本体文件, 并提供有 Sparql 查询接口、 pellet 推理机和 SWRL规则语言编辑添加接口等大量插件。将类和属性添加到本体中后, 可在 ontoGraf 标签下看到加入对象属性之后类之间完整的关联关系图。在书目各实体款目类间出现了可能的多种关联关系, 这为古籍目录相关性的深入研究和关联检索的实现提供了可能性。
通过 “创作关联 ” 、“年代关联” 以及“地名关联” 三个实例具体分析楚辞书目本体类之间的属性关系: ①创作关联。作者与作品通过一对相反属性 owl:isCreatorOf 与 owl: isCreatedBy 构成了楚辞文献类或参见作品类与人名类之间的创作关联。在 protégé 工具的预览图中, 可以看到创作关联的关联效果。②年代关联。年代关联通过一对相反对象属性 owl: isHap-penedTimeAt 与 owl: isHappenTimeOf 或其他表示时间相关的对象属性对来关联。③地名关联。楚辞相关古籍文献中很多事件都与地点相关, 通过一对相反的对象属性 owl: isHappenedPlaceAt 与 owl: isHappen-PlaceOf 或其他表示地点相关的对象属性对来关联。
各种简单关联合并之后使楚辞书目本体形成了复杂的关联关系, 也正是由于存在这些复杂的关联才使得本文对古籍书目相关性研究具有很重要的意义, 并且为楚辞书目语义关系查询提供了可能。
具有推理功能
语义关系查询是一个发现楚辞书目关联信息的过程,本文采用 Sparql 查询语言。SparqL( simple protocol and RDF query language) ,是专门为 RDF 开发的一种查询语言和数据获取协议,用于任何可以用 RDF 来表示的信息资源。
直接关联查询
直接关联是指查询的两个实例通过某种关系直接关联起来。
间接关联查询
间接关联查询是指两个实例在通常情况下并不相干, 但由于某些中间关系的存在使得本不相干的两个实例建立了某种关系。
智能推理查询
智能推理是指在知识库中并未明确指出两者之间的相互关系, 而是通过与其他实体间关联而潜在蕴含的知识。