快好知 kuaihz

关于数据库种数统计的思考

    种种原因,数据库种数统计是图书馆实践中令人困惑的问题。近期,图谋参与了“高校图书馆信息化”QQ群中的交流,稍事梳理。

    高校馆同行杨老师问“各高校图书馆分别购买了多少种数据库的统计数据没呀?  纯研究用,谢谢。”多少种数据库的统计数据,这个概念本身也令人困惑。Web of science平台,N种子库,具体一种子库(比如SCIE),有的只买了6年回溯数据。各家对“种”的理解是不一样的。比如清华大学web of sicence平台,数据库列表显示为一种,实际上他们家基本将子库及回溯数据买全了,但别人家可能只买了一种且没有买全。中国知网,大大小小的高校似乎不陌生,但各自购买的内容大不同。因为统计口径不一,实际是不知道差距有多大。具体到一个学校,“一种数据库”的使用价格,可能是几千元,也可能是几百万元。各高校图书馆购买的数据库,通常在图书馆网站会有揭示,但计算“种数”会存在种种困难。

    杨老师说:“按‘CNKI’算1个这样来数的,可以认为是数不同资源的主域名数量。去各高校网站数也是一个办法,如果能纳入图工委的事实数据库的统计范围就更好了。”那样数没有问题,但“误差”可能会非常大。CNKI系列资源,实际是数十种,甚至可以说是数百种(https://www.cnki.net/subpages/webmap.html)。“事实数据库”为什么没统计种?部分原因是因为实在是不好数。

    张馆长提议“按照花钱的合同数”,按合同数也是一种方法。包括中国知网系列资源在内,有的学校可能是与其签了多份合同。有的资源与服务,实际是一家的,但分化出许多独立的“销售单元”。仍以中国知网系列资源为例,有的属于其合作资源,乙方实际是多家。作为甲方的高校,图书馆只是甲方的一个二级机构,还可能有其它二级机构购买乙方资源与服务。实践中,还有更多头大的问题,资源、服务、软件、平台……确实很难“划清界限”。中国知网的“学术不端文献检测系统”,它是软件产品范畴,但域名也是CNKI,而且实际上是N个软件产品。

    图谋实际做数字资源采访工作多年,也兼做参考咨询、学科服务等工作。各种各样需求的统计与评估,图书馆方面需要填报相关数据,需要或直接或间接参与。多年来,试图将若干相关问题弄清楚,迄今为止存在诸多困惑,且随着业态环境变化,困惑愈来愈多。大大小小的图书馆,有着或多或少的数字资源,少则数种数十种,多则上百种,甚至更多。各家图书馆网站通常会对数字资源进行揭示,便于用户利用。实际上这块工作做好非常不容易,因为存在许多“变量”及不确定性因素,比如数字资源通常是在“与时俱进”的,内容再不断变化,利用方式方法也在变化。大大小小的数据库,面向不同的用户需求,确实是需要有的放矢进行“导航”的,这样的导航通常需要进行信息分类与组织,且通常会顾此失彼。

    关于数据库种数统计,可以说是常做常新,不同场合采取不同的方法,自圆其说就好。每个馆可以采用自身的分类与组织形式(或者说“统计口径”),若是进一步进行馆际交流,或其它需求的对比分析,则需要进一步调整统计口径。若欲较为准确的了解情况,按主域名计数、合同计数、采购单元计数、应用功能计数等等方式均是不够全面的,需要进一步综合考量。比如“按照花钱的合同数”,有的数字资源产品服务实际是有合同的,但可能因为是面向特定用户或特定需求的,比如科研评价工具、学科分析工具、科技查新专用等,很可能不在图书馆数据库导航中揭示,还有一些是揭示的效果不大好(比如针对移动终端的“移动图书馆”等),有部分图书馆有些资源是自建的特色库、机构库等。除此之外,可能还存在一种类型,有部分资源是上级机构统一花钱买断,自身所在图书馆“没花钱”,这样的资源种数,有的图书馆存在很多种。 

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:关于数据库种数统计的思考  种数  种数词条  思考  思考词条  统计  统计词条  数据库  数据库词条  关于  关于词条  
观点

 情理之中,意料之外

由于疫情的原因,上学期的课程采用线上上课。与往年不同,课程的期末考试,没有在课程结束之后进行,而是留在下学期开学之后进行。为了给学生尽快适应学校生活,在学生返校...(展开)