HistCite介绍

Author: Huan Li Date : Sep 16, 2013 Updated On : May 31, 2018
Categories: 科研笔记
1,864 words in total, 7 minutes required.

对于科研工作者来说,除了掌握快速的收集信息和有效管理信息的能力之外,还需要有一定的信息分析能力。譬如,检索某个研究方向,结果文献有上千篇,此时我们该如何对待这些文献?精炼检索条件很可能会导致有价值的文献被排除在外。在交叉科学盛行的今天,如果想了解其它领域的进展情况,由于缺乏相应的专业知识,如何判断哪些文献是有重要参考价值的文献?这些问题的解决都需要我们具备一定的文献信息分析能力。

有人说,在WOS里按照引用次数排序,引用次数最多的必定参加价值更大,其实不然,后面会有解释。

我所知的文献信息分析软件有基于引文的分析软件histcite,基于内容分析的refviz. omniviz. Tda等,还有分析研究前沿的citespace等。

这里先简要介绍一下引文分析软件histcite它的功能和用法。

histcite=history of cite,意味引文历史,或者叫引文图谱分析软件。该软件系sci的发明人加菲尔德开发,能够用图示的方式展示某一领域不同文献之间的关系。可以快速帮助我们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。

软件的试用非常简单,但如何从软件给出的图谱中得出有价值的信息,以及不同图谱展示的内在含义,需要我们不断揣摩和理解。

下面先介绍一下如何使用软件;然后介绍一下软件里涉及的一些概念。

1. 软件使用

  1. 从histcite网站下载软件,安装之后,点击histcite图标即可开启软件;软件打开后的窗口类似IE的界面;

  2. 数据的获取;histcite目前用于分析的文献信息只能来源于web of science数据库;在wos 数据库进行检索后,在页面的底端选择需要导出的数据记录,由于wos目前只支持每次导出500条记录,如果检索结果超过500条需要分多次导出。选择导出的文献记录之后,第二步,一定要选择输出全记录,并且要包含引文信息;第三步将需要的文献保存成文本文件。一般来说,如果文献记录少于500条,分析的意义不是很大。合适的数据量个人认为在几百到几千条记录之间比较合适。

  3. 从file菜单下点击add file,导入上述保存的数据;如果有多个文本文件,可以重复执行导入;

  4. 数据导入后,软件会自动进行分析。初学者可以不去追究各种按钮的含义。在tool菜单下,选择graph maker,然后在新的界面点击左上角的make graph 按钮。软件会根据默认的条件作出一张引文关系图来,来展示当前数据库中重要文献之间的关联。

  5. 作出图之后,理解图谱才是关键。一般默认会画出30篇文献之间的关联。图上有30个圆圈,每个圆圈表示一片文献,中间有个数字,是这篇文献在数据库中的需要。圆圈的大小表示引用次数的多少,圆圈越大表示受关注越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作。

2. 软件功能和基本概念

将数据导入到软件之后,文献会自动排列在软件的主界面。文献的排序方式可以按日期,可以按杂志或按作者进行排序。

文献记录的上方还有一些蓝色字体的按钮。这些词都是可以点击的,并进行相应分析。如点击authors,软件会列出所有作者,并将每位作者的文献数. 引用次数等信息列出来。这些命令较容易理解,不多做介绍。

在默认窗口的右侧,有LCS、GCS、LCR、CR。下面分别解释一下这几个功能。

  • GCS是global citation score,即引用次数,也就是你咋web of science网站上看到的引用次数。如果你点击GCS,软件会按照GCS进行排序,此时的结果与你在wos网站按被引频次排序的结果是一样的。
  • CR是cited references,即文章引用的参考文献数量。如果某篇文献引用了50篇参考文献,则CR为50。这个数据通常能帮我们初步判断一下某篇文献是一般论文还是综述。
  • LCSLCR是histcite里比较重要的两个参数。LCS是local citation score的简写,即本地引用次数。
  • 与gcs相对应,LCS是某篇文章在当前数据库中被应用的次数。所以LCS一定是小于或等于GCS的。

一篇文章GCS很高,说明被全球科学家关注较多。但是如果一篇GCS很高,而LCS很小,说明这种关注主要来自与你不是同一领域的科学家。此时,这篇文献对你的参考意义可能不大。举个离子,2003年发表在nature上的两篇文章P1 (GCS:580,LCS:12) 和 P2 (GCS:36,LCS:24)。第一篇文章gcs很高,lcs很低,说明关注这篇文章的绝大部分作者与你关注的方向不同。而第二篇文章经gcs较低,但LCS比第一批要高,即很多引用p2的文章都在当前数据库,也即与你的研究方向相关。所以,p1、p2相比,p2应该更贴近你的研究方向,参考价值更大。

在第一部分的介绍中,make graph时,默认是按LCS排序的,也可以选择按gcs排序。你可以比较一下这两者的差异,一般LCS作图,得到的关联较丰富,而gcs作图往往文献之间没什么关联。这就回答了上面开始提出的一个问题,为什么按引用频次排序往往不是很有参考价值的原因。

LCR与CR对应是local cited references,是指某篇文献引用的所有文献中,有多少篇文献在当前数据库中。如果最近有两篇文章,p1 p2都引用了30篇参考文献,其中p1引用的30篇文献中有20篇在当前数据库,p2只有2篇文献在当前数据库。此时,p1相对更有参考价值,因为它引用了大量和你的研究相关的文献。

根据LCS可以快速定位一个领域的经典文献,LCR可以快速找出最新的文献中哪些是和自己研究方向最相关的文章。

引文有些不规范导致引文分析结果偏差,这里暂不做讨论。感兴趣的朋友可以参考引文相关的理论文献或书籍。