站内搜索

百度学术:大数据时代的图书馆变革

来源:发布时间:2015-06-04编辑:浏览次数:

  

知识因发现而更加美丽,图书馆因发现系统而更加绚丽

自20世纪90年代中期美国开始实施信息高速公路计划以来,数字图书馆就已经成为席卷全球的图书馆发展大势。中国数字图书馆建设与发展的里程碑与划时代标志是1998年国家正式批准实施的中国高等教育文献保障系统(China Academic Library Information System,简称CALIS)。1999年CALIS项目开始全面启动,迄今已是16年。在这短暂的16年中,引领中国图书馆发展方向的高校图书馆已经实现了华丽转身,完成了质的飞跃。

图书馆不再是纸本的世界,目前,“985”高校图书馆拥有的外文数字资源更是已经可以与国际一流大学图书馆的数字资源媲美,各高校图书馆的中文数字资源数量早已远远超越其纸质资源。

随着数字资源的迅速增长,面对纷繁复杂的海量信息,科研用户的需求已不仅仅是获取大量间接信息资源,更重要的是直接获取能够解决问题的精准知识。为了向高校师生、学科建设与发展提供一流的服务,作为各种资源和信息汇集中心的高校数字图书馆,必须改变传统只能提供文献资源的信息服务模式,转入到能够提供问题解决方案的知识服务模式。

知识发现服务的理念在图书馆界的应用可谓是源远流长。著名的图书馆学家阮冈纳赞在对图书馆五定律的阐述中早已明确了图书馆资源发现服务的实质,是图书馆界最早、最真实的发现服务。如今,网络和现代技术多维度地深入到了图书馆的各项服务工作中,信息、情报以及智能转换发现贯穿于现代图书馆服务的整个过程。资源发现、情报发现、用户发现的压力使图书馆发现服务被赋予更深更广的内涵,知识发现服务越来越多地被图书馆高度重视。

知识发现服务是数字图书馆信息服务的高级阶段,是信息服务发展的必然趋势。在面向高校学科用户知识需求解决过程中,针对高校用户在知识获取、知识选择、知识吸收、知识利用、知识创新过程中的需求实施深层次服务。对相关学科专业知识进行搜寻、组织、分析、重组,为学科用户提供所需专业知识的服务。

基于对知识发现服务的重视,高校图书馆通过建立期刊导航和数据库导航、提供SFX链接服务、建设集成检索系统、包括引入众多国内外的知识发现系统。知识发现系统平台的确很好的实现了知识发现的深层次服务,一定程度地提高图书馆数字资源的使用率。

可以看到,近几年,各高校图书馆纷纷引入Summon、Primo、Encore、超星等统一资源发现系统,为读者用户提供集成资源检索与发现服务。主要解决图书馆只能对其本馆资源揭示数据库名称或期刊刊名,但无法揭示更细粒度的论文。其原理是:系统提供商通过与出版社等内容提供商的合作,对海量的元数据进行预加工与存储;另一方面,系统提供商获取到高校图书馆所购买的数据库信息和自建数据库的元数据。将两者对接起来,实现高校图书馆购买资源或本地资源的统一检索。

所以,统一资源发现系统有以下几个优势:

•统一的检索入口,用户不必在各个数据库之间切换跳转;

•元数据集成存储,检索速度较快,并且检索结果呈现相对规范;

•针对各图书馆资源进行索引,原文链接与获取的服务可以得到更好的保障;

•各图书馆可以针对性地提出一些个性化功能和服务,以更好地满足读者需求。

但在实践中,同图书馆的各类软件相比,用户更加习惯使用百度学术、谷歌学术等互联网产品进行资料查询,锁定所需材料,进而再到图书馆获得全文资源。更为甚者,很多学生都不知道他所获得的全文服务是由图书馆提供的!这是什么原因?

目前的知识发现系统对数据资源的整合远远不够,统一资源发现系统主要进行了元数据题录层面的揭示,但没有做引文层面的揭示,而用户在检索时往往会通过引文信息来判断文献的质量。另外,检索的召回准确效果一般。对于一个搜索引擎来说,检索相关性做到及格分很容易,但如果想做到优秀还是非常难的,想达到满分那是几乎不可能。平台的响应速度和稳定性。相比用户青睐的互联网产品,统一资源发现系统响应仍旧过慢,而且服务不够稳定。

图书馆在被动提供知识的空间向主动推送精准服务转型的过程中,需要充分利用先进的搜索引擎技术才能在知识服务方面充分发挥知识服务优势。

去年,百度学术悄然上线,向各高校铺开免费的统一资源发现服务,图书馆与互联网的紧密结合,是不是能够更好的连接与用户的服务?这是值得尝试和推敲的。

在对海量资源的高度集成及深度加工、大数据计算能力、稳定的检索服务及优质的检索效果保障都是作为互联网产品的佼佼者,是有较为明显的优势的。其成熟的统计平台及用户行为分析技术还能更好帮助图书馆分析用户行为,优化用户体验。

优势一:对海量资源的高度集成及深度加工

百度学术的元数据获取方式主要有三种:

①与世界知名内容提供商进行一对一合作,授权获取到最为全面、稳定、优质的题录数据;

②对于部分开放资源,采用如OAI-PMH协议等的元数据收割技术进行数据收集;

③对于长尾站点,充分发挥搜索引擎的技术优势,利用爬虫进行数据的收录、解析、加工处理。基于以上方式构建出最为全面的元数据库。

优势二:大数据计算能力

百度学术充分发挥大数据计算优势,对亿级别的海量资源进行实时计算和更新,并深度加工形成高质量的学者库、期刊库、会议库、机构库等知识库,以期为用户提供更为优质的信息揭示服务。

优势三:稳定的检索服务及优质的检索效果保障

百度学术基于百度的检索技术,可保证每天上亿次检索请求,并将响应时间控制在亚秒级别。此外,百度学术除了引入相关性计算外,还会综合考虑文献被他人引用情况、文献的作者影响力、文献的出版来源影响因子、时间等等因素综合给出优质的排序效果。

优势四:成熟的统计平台及用户行为分析技术

百度拥有较为成熟的统计平台,可以对用户使用行为日志进行实时存储、统计、可视化。帮助站长分析用户行为,优化用户体验;同时也可以帮助站长更好地监控到系统问题,保障用户的稳定使用。

本文选自:学术中国

http://www.aiweibang.com/yuedu/29035786.html