文献计量学数据处理中,要尽量尊重数据的原始记录状况
武夷山
我曾应邀担任联合国大学国际软件技术研究所(在澳门办公)一个大学科研业绩定标比对研究项目之国际顾问委员会的成员。2011年7月29日,我在电子邮件中向项目负责人谈了自己对文献计量学研究分析单位的一点看法,内容如下:
I agree with the rationales as described in the document as a whole, but I think the most important principle should be “following the habit of the owner”.
For example, a person is the owner of his or her name. In China, the pronunciation of a surname character is very often different from the usual pronunciation of that character when used in other context. According to the principle of following the habit of the owner, other people have to pronounce those surnames in the same way as those families concerned. Therefore, there appeared a lot of polyphone characters in Chinese partly due to the above reason.
Similarly, the owner of a paper is the author. So we have to follow the author’s habit in deciding the basic unit for benchmarking. I believe that all the authors working in University of California—Berkeley would denote their affiliations as “University of California—Berkeley” when they publish anything. Then it is natural to define University of California—Berkeley as a relatively independent institution.
In other words, statistics will tell us what the appropriate entities should be. If the rules in the document produce an entity which is not frequently used by the authors, then we should follow the habit of the authors rather than follow the rules.
我为什么提这个问题?因为我发现,该项目组提出了一些对作者单位的归并规则,而我认为,那些规则过于任性。我认为,尊重论文发表时作者单位的写法是最重要的,否则会出现信息误导。
举一个例子。文献计量学研究人员可能自行规定:只统计到作者单位的“一级机构”。那么,北大物理系和北大化学系的一级机构都是“北京大学”;中科院物理所和中科院化学所的一级机构都是“中科院”。在实际统计工作中,将北大所有院系的论文都归于北大,毫无问题,因为北大是个法人机构;而将中科院所有下属研究所的论文都归于中科院显然是不合适的,因为每个所都是一个独立的法人机构。中科院物理所的研究人员投稿时,绝不会署名“中科院”,一定是署“中科院物理所”。那么,为什么文献计量学研究人员要强行将这样署名的论文归并到一级机构“中科院”去?同理,美国加大伯克利分校和戴维斯分校发表的论文是不能归到“加利福尼亚大学”去的,因为加利福尼亚大学体系包括了很多分校,每个分校都是独立运作的大学。
日前,媒体纷纷报道说,中科院连续七年位列自然指数排行榜首位。自然指数的统计就是按照“一级机构”来的。在2019年自然指数中,中科院名列第一,北大名列第10,是中国第二强的单位。但我们中国人都知道,将中科院与北大并列比较是不合适的。北大在2016年有2100多名正高教师;我不知道中科院总共有多少正高研究人员,但中科院物理所2017年就有140多名正高,而中科院总共有115个所级机构!在自然指数2019 的前100名中,加大伯克利分校排在第14位,洛杉矶分校排在第21位,圣迭戈分校第22位,旧金山分校第44位,圣芭芭拉分校第61位,欧文分校第72位。若所有这些分校的数据合并,加大的排位就要冲天了吧。不过那是不合适的,正如将中科院所有研究所的论文归并为中科院一家单位是不合适的。
尊重原始的署名记录是非常重要的。再举一个小例子。2000年,北京医科大学并入北大。自此以后,由于北京医科大学不再存在,其相关的论文、引文数据似乎也只好并入北大了。且慢!比如,北京医科大学若在1999年发表了一篇高被引论文,假定被引1000次吧,那么,按照归并统计法,北大的总被引次数自然就增加了1000次。但这1000次被引与北大有关系吗?
过去,曾有某些CD播放机厂家鼓吹自己的播放机有“超强纠错”机制,指的是,碰到盗版盘,播放机照样往下走,而不是停止播放。我国的某些文献数据库制作商也搞过“超强纠错”----纠正期刊上的录入错误。看上去,这是好事啊。且慢,要具体分析。比如,某位作者叫“邢XX”,期刊编辑部误将其名字录为“刑XX”,文章发表后存在这么一个错误。于是,数据库制作商好心地将错误改正了,恢复为“邢XX”。可是,某读者在阅读中,发现一个参考文献清单中有“刑XX”的文章,很感兴趣,就去经过“超强纠错”的那个文献数据库中去查找,却反而找不到原文了,因为只有用“邢XX”这个正确名字去检索才能找到那篇文章。这位读者怎么知道“刑XX”的“刑”是别字呢?确实有姓“刑”的呀。另外,若某人想专门研究期刊中的姓名录入错误,也无法研究了----原始错误被数据库制作商“超强纠错”了。国外有学者正是通过某一姓名错误不断重复出现的事实得出结论说:很多作者并未读过自己列出的参考文献中的文献,而是将别人参考文献清单中的文献直接纳入自己的参考文献清单,否则就无法解释为什么同样的姓名拼写错误一再出现,因为,正确的写法只有一种,而错误的写法本应是五花八门的。
以上事例表明,在文献计量学研究和文献数据库生产过程中,有好多细节必须注意,一不小心就会掉入陷阱。比如,某人想研究“科学数据”问题,就用“科学数据”作为检索词去检索,看起来没有任何问题啊。可是,如此检索,含有“气象科学数据库”“农业科学数据库”之类字样的文章也会被检出,而这些文章与检索者想研究的“科学数据”没有多少关系。