第一部分 Citespace软件介绍
Citespace是一款文献梳理软件,软件作者是美国德雷塞大学计算机与情报学教授陈超美教授,是基于共引分析理论和寻径网络算法对特定领域的文献进行计量分析。
支持从主要来源(如Web of Science,Scopus,Dimensions,CNKI,CSSCI和其他一些来源)检索的书目和引文数据。
Citespace能够把文件之间的关系,用科学知识图谱的方式可视化地展现在我们面前。
Citespace的设计理念是改变看世界的方式。设计者希望通过制作知识图谱的方式帮助研究者从另一个角度认识特定领域。借助CiteSpace做定量分析,可以协助我们进行学位论文综述撰写、课题申报的学术史和发展脉络梳理。
(吉大-Citespace使用教程截图)
一、Citespace可以帮助研究者了解的内容
- 某特定领域中有标志性和开创性的文献
- 某特定领域的发展历程中起着关键作用的文献
- 整个研究领域相互关联的主题
- 不同研究领域如何相互关联
- 基于一定知识基础的研究领域如何演变
二、Citespace的理论基础
库恩:科学结构的演进
普赖斯:科学前沿理论
社会网络分许的结构洞理论
科学传播的信息觅食理论
三、Citespace能展现什么
(一)学科基础
通过引文分析展现学科基础,引文分析包括被引分析和共被引分析。
被引分析:分析文献是否被引用、文献何时被引用、文献的引用周期和峰值
共被引分析:同时被其他文献的引用,分析两个文献的关系
(二)技术基础
- 对施引文献分析→探究该领域的知识前沿(施引文献代表了近些年的成果)
- 对共被引聚类的分析→探究该领域的知识基础(共被引文献代表了沉淀下来的经典成果)
第二部分 简要介绍
数据解读的基本逻辑:经历三个步骤包括数据收集、数据分析和数据解读。(详见下图)
关键词共现图
时间线图
时区图
突现词谱
作者合作网络
机构合作网络
国家合作网络
文献共被引分析
根据被引文献同时被施引文献引用的情况绘制,两篇文献同时被一篇文献引用即视为一次共被引,主要依据文献共被引频次矩阵。
作者共被引分析
根据被引文献作者同时被施引文献引用的情况绘制,两位作者的两篇文献同时被一篇文献引用即视为一次共被引,主要依据作者共被引频次矩阵。
期刊共被引分析
根据被引文献出版期刊同时被施引文献引用的情况绘制,两本期刊的两篇文献同时被一篇文献引用即视为一次共被引,主要依据期刊共被引频次矩阵。
第三部分 界面功能区域介绍
一、整体界面
二、菜单栏
File:打开日志文件;保存当前项目的参数设置;删除当前项目的关键词别名设置;退出。
Projects:下载Scopus、CSSCI、CNKI、CSCD的演示项目;显示导入项目的格式信息;导入项目;项目列表。
Data:数据输入/输出;将文本拆分为句子。
Network:对网络文件的可视化,支持Pajek、GraphML和Adjacency List格式。
Visualization:打开保存的可视化文件;打开切片图像文件。
Geographical:对数据中的地理信息进行可视化分析。
Overlay Maps:期刊的双图叠加。
Analytics:作者、文件、期刊共被引分析;结构变异分析等。
Text:对文本文件的处理,包括术语的提取和排序、构造概念树等。
Nodes
Visual Encoding 节点视觉编码
(提供不同节点类型的选择,包括Tree Ring History引文年轮、Centrality节点中心性、Eigenvector Centrality特征向量中心性、Sigma、PageRank Scores PageRank得分、Uniform Size统一尺寸、Cluster Membership、WOS TC、WOS U1、WOS U2等。)
节点视觉编码(Node Visual Encoding)是一种数据可视化技术,它通常用于展示网络结构或图数据。在这种技术中,数据中的每个元素(或称为节点)通过视觉属性进行编码,以传达信息或数据的特定特征。节点视觉编码的关键特点包括颜色编码、大小编码、形状编码、纹理编码、标签编码、交互性等。
颜色编码:使用不同的颜色来区分节点的类型或属性值。
大小编码:节点的大小可以表示数据的大小、重要性或频率等属性。
形状编码:不同的形状可以用来区分不同类型的节点或数据特征。
纹理编码:节点的表面纹理可以传达额外的信息,如粗糙度或模式。
标签编码:节点上的文本标签可以提供节点的名称或其他关键信息。
交互性:在某些情况下,节点可以通过用户交互(如点击、悬停)来展示更多信息或进行数据探索。
三、项目区
用于创建、修改、清空、删除项目内容。
New:新建项目。
More Actions:项目的修改和删除等操作。
Project Home:项目所在的文件夹位置。
Data Directory:数据所在的文件目录。
GO!:开始运行项目。
Stop:停止运行项目。
Reset:重置项目的参数设置。
JVM Memory:JVM的运行内存情况。
ps: JYM
四、时间切片区(Time Slicing)
对原始数据进行时间切片,Years Per Slice正常会选择1, 但是有些学者也使用2、5。
From To:选择数据中时间范围在XXXX年XX月到YYYY年YY月内的数据分析,所选时间跨度不能大于所有数据的跨度。
最早不早于最早文献的时间,最晚不晚于最晚文献的时间
Years Per Slice:对所选中的数据以Z年为一分割(即Z年为一个时间片,在每个时间片内进行分析),Z默认为1。
五、文本处理区
Term Source:用于选取Term提取的位置,包括标题、摘要、作者关键词和增补关键词。
Term Type:用于对共词分析类型的补充选择,进行基础的自然语言处理。包括名词性短语和突显术语。(在中文数据库中使用较少)
Term Type用于提取名词术语,进行突现词检测;运用Noun Phrases生成共词网络后,也可以可查看熵值。???????
六、节点类型区
提供了13种节点类型,能够进行
作者、机构和国家的合作网络分析,分别对应微观、中观、宏观的合作网络分析。;(换句话说,使用蓝色部分,我们可以看出哪些作者、国家或机构的发文量较多,哪些作者之间的合作较多。)
术语、关键词、来源和学科的共现分析,对象可以是关键词(Keywords)、来源(Source)、主题词(Term) 、WOS(Web of Science)的分类等。
主题词和关键词回答的是:哪些主题词或关键词出现的次数比较多以及哪些词常常在同一篇文章中出现,反映了研究领域的热点词。
主题词的范围较广泛,包括关键词、系统补充的关键词、文章摘要中体现的一些名词术语。
文献、作者、期刊的共被引分析;
文章、专利和声明的耦合分析。
蓝色区域:合作网络分析,Co-authorship分析,对象为作者、机构、国家;
绿色区域:共现分析。
Term和Keyword: 进行文本主题的共词分析,对象可以是主题、关键词
Category:对文献中标注的科学领域的共词分析。
红色区域:被引分析,对象为参考文献及其作者、期刊;
Reference文献的共被引、Cited Author作者的共被引、Cited Journal期刊的共被引
Article:耦合分析(不常用,有兴趣的同学可自行研究)
Grant: 研究基金的分析
名词解释
合作网络分析(Collaboration Network Analysis):合作网络分析是一种研究个体或组织之间合作关系的网络方法。它通过分析合作者之间的连接模式,揭示合作结构、合作强度、合作模式以及合作网络的演变等特征。这种分析有助于理解知识创造、技术发展和创新过程中的合作动态。
共现分析(Co-occurrence Analysis):共现分析是一种文本分析方法,用于研究词汇、概念或实体在文本中的共同出现情况。通过识别和分析这些共现模式,可以揭示主题、概念之间的关系,以及它们在特定领域或语境中的关联性。共现分析在文本挖掘、自然语言处理和社会科学研究中广泛应用。
共被引分析(Co-citation Analysis):共被引分析是一种文献计量学方法,用于研究文献之间的引用关系。当两篇文献在其他文献中被同时引用时,这表明它们之间可能存在某种关联或共同的研究主题。共被引分析有助于识别研究领域中的研究集群、核心文献和研究趋势。
耦合分析(Coupling Analysis):耦合分析通常用于软件工程和系统设计中,指的是分析系统中不同组件或模块之间的依赖关系。在更广泛的语境中,耦合可以指任何两个实体之间的相互连接或相互作用。耦合分析有助于理解系统的复杂性、模块化程度以及潜在的改进点。
七、连接设置区
关于网络节点的链接强度和链接范围。
链接强度主要对节点间的连线进行筛选,并提供了Cosine、PMI、Dice、Jaccard四种方法,
链接范围包括Within Slices切片内和Across Slices切片间,由于基础版限制了节点数不超过300,所以不同设置间的结果影响不大,保持默认设置即可。
八、阈值设置区
选择阈值是对数据进行精炼,提取最具影响力的数据进行可视化。
九、网络修剪区
对于节点间链接比较复杂的网络,我们可以通过网络裁剪对网络图谱进行优化,使节点的分布和节点间的链接更直观明了。
一般情况下,首先点击go生成一次图谱,如果生成的图谱符合需求则不需要进行剪枝。而当生成的图谱节点和连线过多,图谱的可读性极差时,才选择进行图谱剪枝。
Pruning:网络修剪设置
包括
两种网络裁剪算法
Pathfinder 寻径网络方法:优点是唯一解,但有时会在剪枝过程中丢失相对重要的节点。
Minimum Spanning Tree 最小关键树算法:优点是运算简捷,能很快得到结果,但并非生成唯一解。
???????????????????????唯一解是什么意思???????????
两种修剪网络的类型
Pruning sliced networks 修剪时间片网络
对每一时间段网络进行剪枝,适合复杂程度高的网络;
Pruning the merged network 修剪合并网络
对整体网络进行剪枝,适合复杂程度不高的网络。
十、网络可视化区
Visualization:网络可视化设置,
包括两种可视化状态(Cluster View - Static和Cluster View - Animated:动态和静态)
和两种可视化方式(Show Networks by Time Slices和Show Merged Network:时间片和合并)
十一、可视化界面
注意一下术语表述~
Control Panel功能介绍
1与2 都是调节节点标签大小的,1主要调Keyword,2主要调合作图谱和References;
3是避免聚类标签与节点标签重合;
Colormap可以调节线条颜
分析结果参数信息
1.CiteSpace软件版本
2.数据的分析时间
3.数据的所在位置
4.数据的时间范围和时间切片
5.阈值的设置
6.网络的参数,N表示节点数量,E表
示边的数量
7.节点标签的显示阈值
8.网络采用的裁剪方式
9.Modularity聚类模块值(Q值)
10.Silhouette聚类平均轮廓值(S值)
Citespace中的术语介绍
(一)引文空间
CiteSpace是把我们整个研究的现状放在一个三维的引文空间里面来看待的。
CiteSpace是在科学的计量学数据可视化背景下,逐渐发展起来的一个引文可视化的分析软件。我们可以用CiteSpace来干什么?我们CiteSpace的工具或者这个手段是可以用来呈现科学知识的结构,结构性的东西,这是CiteSpace的一个特征。因为如果我们用一些传统的文献综述的方法,虽然也可以把我们某一研究领域的主体结构,或者说主干规律做出来,但是肯定也是要进行一个比较大量的阅读,但是我们很难把这个研究领域很细分的,或者说很细节性的结构和规律来给它分析出来。但计算机有算法的支撑,而且它可以同时处理好几千个文献,因为我们人工去做一个结构的话,我们是需要同步性要求比较强的,如果你一篇一篇地去处理的话,很难将结构生成起来。因此我们就是将通过CiteSpace这种方法得到的可视化图形,称之为是科学的知识图谱。
(二)中介中心性(Betweenness centrality)
简而言之就是重要性。
在数据可视化和科学计量学的背景下提出来的一个概念。
中介中心性是测度节点在网络中重要性的一个指标。
中介中心性指的是在特定年份内,我们这个领域的一个文献,最核心的一个文献,我们研究领域或者研究范围,最核心的文献或者说最核心的研究作者是谁,这个和被引用量与被引用的次数是不一样的概念。中介中心性是一个基于Citespace自身科学计量学的理论基础提出来的这样的概念,如果不用科学计量学,中介中心性也是很难进行测量的。
(三)Burst检测
简而言之就是突变检测,凸显性。
比如说我去研究时间的片段,在2015年到2022年语言学或者说教育学的发展时间片段中,到底是什么时候出现了什么样的文章,改变了我研究领域的方向,或改变了原来的发展方向,或者说极大地促进了接下来的研究发展,这些都是可以通过计量学的方法去做Burst检测,Burst检测能够找到这样的突变文献或作者。
做Citespace关键词凸显之前,可以先进行标签清洗,比如说合并类词或者通常在关键词出现图谱形成后,在知识突破界面会出现一个叫“Control Panel”,点击Burstness,然后点击“Refresh”,就可以进行关键词凸显的界面。
(四)引用年轮(Citation tree-rings)
- 年轮颜色表示该引文中包含文献发表的时间年限。
- 年轮的厚度和相对应的分区与它的引文数量成正比。节点的年轮越厚,就代表这个时间区内引文数量越多,这是正相关的关系。
(五)科学知识图谱
Science Mapping
Knowledge Visualization
Knowledge Domain Visualization(知识领域的可视化)
方法: 可视化、测绘、绘图
科学知识图谱:以表达上述目标为主的可视化分析过程。(把原来不可度量的抽象的东西变具体)
目的:传递信息、再现过程(用图谱讲述一个故事)、找出原因
(六)突现词(Burst term)
通过词频,将某段时间内其中频次变化率高的词从大量的主题词中探测出来。CiteSpace可以检测出突现词以了解研究的前沿情况、研究焦点的转变和最新的研究热点动态,并帮助预测该领域后续的发展趋势。
(七)被引
被引是指一篇论文发表后,被其他论文在参考文献中引用。假设有文献A、文献B;若文献A被文献B引用,则文献A叫做被引文献,文献B叫做施引文献,文献A和B是引证关系。
(八)共引
共引是指两篇文献同时被别的文献引用。如果文献B和C都被文献A引用,那么B、C就被称为是相关文献,它们之间存在着共引关系,B和C的作者则被称为是共引作者。
(九)共词分析
共词分析通过分析在同一个文本主体中的款目(单词或名词短语对)共同出现的形式,以发现科学领域的学科结构的一种分析方法。
共词分析可以根据某时期文献中出现频率较高的词汇对来确定研究领域的主题和热点,对了解文献内容和研究趋势有重要意义。
共词分析可以发现词对之间的关系,如同属于某一类别、同属于某一领域、同属于某一事件等。这有助于深入理解文献内容和词对之间的联系。在一系列的时间区间里进行比较,可以发现学科的发展和变化趋势。
Citespace的重要调整参数
(g-index Top N和 Top N% 三个参数均为:想要更多的数据,就把他们的值调高)
G-Index (g指数)
通过调整g指数,纳入和排除更多节点。g-index是软件的知识单元提取方式,该算法是在增加规模因子k的基础上,按照修正后的g指数排名抽取知识单元。
Top N和Top N%
Top N::每个时间切片内频次排名前n个
Top N%:每个时间切片内频次排名前n%
Threshold
调整阈值。
Q值和S值:
Q值(Modularity 聚类模块值):(内部连线越多,则Q值越大):图谱的信息模块性,Q>0.3
S值(Silhouette 聚类平均轮廓值):图谱的轮廓函数, S>0.5
满足上列条件时,一般认为数据是合理的。
第六部分 实操-准备工作
四个文件夹功能如下:
处理过程
一、CNKI数据库的操作
注:CNKI导出的数据中不包含reference选项,即不含参考文献数据(不包含引文字段),因此不能做引文分析;同时,由于CNKI上只有国内文献,不能进行国家合作网络分析。
数据导出
- 只选择”学术辑刊“,点击高级检索。
- 可从不同角度进行检索,勾选“来源类别“选择特定学术期刊。
- 最多选500篇,依次点击”导出与分析-导出文献-Refworks”,加到预先创建好的Citespace文件夹中的“input”中,命名为downloads_1(网上都这么说,但是实操最新版本的Citespace感觉不重命名也没有影响,还是老实照做吧www)
- 进行格式转换。CiteSpace分析的数据以Web of Science数据为基础,其他数据库下载的数据需转换为Web of Science的数据格式才能分析。
第一步:返回Citespace软件界面,依次点击data-Input/Output
第二步:选中CNKI,依次选择文件夹中的input和output子文件夹,选中use Chinese,点击CNKI Format Conversion(一定要看一下左下角的“Records Processed”不能为0,如出现这种情况可重新转换一遍)
- 复制一份output中的文件,粘贴到data文件中
- 点击New,新建一个项目
如图,在Project Home中选择在准备阶段建立好的project文件,Data Directory选择data,命名一下项目,其他选项和我一样选就可以~数据导入就结束啦!
1. 作者合作网络分析
‣
- 在Node Type中只选Author,点击Go
如果显示节点数超过300,无法进行可视化,不用调整年份,直接把k值调小就行。
- 作者合作图谱: • 节点及标签大小代表作者发表论文的数量; • 节点以年轮形式显示时,某一年的年轮宽度代表作者在当年发表论文的多少; • 节点之间的连线代表作者之间存在合作关系,连线宽度代表合作强度; • 连线颜色代表首次合作的时间;
(如果外圈出现了紫色,说明该作者具有很强的中介中心性,有很强的信息控制能力)
解读的建议:
1)高端人才引进:哪些国家的哪些机构的哪些研究人员在XX学科领域具有很高造诣,通过人才引进渠道有针对性的进行人才引进,或者将自己国家学校的人员有目标性的输送派遣到相应的高端机构/知名学者门下进行交流学习。
2)学科核心带头人的变化和更新。
作者合作网络仍然可以聚类,并且可以使用K提取聚类标签,从而看到该群落的作者主要关注哪些研究领域。
- Control Panel的colormap选择彩虹色条(这张截图中的第二个,对比效果最明显);Transparency(透明度上方的四个)依次调到100,100,255,40-60效果最佳
ps: 如果只显示一个研究合作类团,点击Filters-点掉Show the Largest k Connected Components即可
再点上,会出现下图,选择想要的研究合作类团数量(排序为类团大小)
看左侧的表格,Count代表作者在所研究时间段内的发文频次,Centrality是作者作为桥梁的中介能力(如果都是0,根据下图进行操作计算),Year为作者的首次发文时间。
然后,我们就可以开始调整网络图谱啦~
调整可视化图谱的原则:保证网络的形状基本不变,也就是说原来是三角形就还是三角形。
查看作者的细节信息,先左键选中节点,接着点击右键,选择Node Details
就会出现折线图啦~
点到第二栏,就可以看对应的具体文章
点击文章,下面就会出现详细的信息,可以大致了解该研究类团的研究方向。
2. 机构合作网络分析
和作者合作网络分析同理,Node Type中只选择Institution
- 两个作者机构出现在同一篇文章中即视为一次合作。
- 节点(及标签)的大小代表机构发表论文的数量,节点越大则发表的论文越多。
3. 关键词共现分析
词频是指所分析的文献中词语出现的次数。
词频分析就是在文献中提取能够表达文献核心内容的关键词或主题词词频的高低分布,用以研究该领域的研究热点,判断发展动向。
根据施引文献中关键词共现的情况绘制,两个关键词出现在同一篇文献中即视为一次共现。
相似关键词合并和非相关性关键词删除
节点的隐藏
由于软件并不能像人一样去思考,所以有的时候得出的节点信息不如人意,若是出现了对本次研究无研究价值的节点,我们可以将其隐藏起来,若是误操作的话,还可以将隐藏的节点还原回来。
选中想要隐藏的节点并右击,在出现的框中选择“hide node”即可将其隐藏(如下图)
同理,若一个节点被隐藏,则在图中直接右击,并选择“Restore Hidden Nodes”(下图所示),即可将隐藏的所有节点全部恢复正常。
关键词合并
有的情况下两个数据表达的是同一个意思,但是软件将它们识别为不同的节点,这时候则需要将两个节点合并(例如“机器翻译“和“机翻“就需要合并)
- 先选中要保留的节点,如”机器翻译“,右键点击Add to the Alias List(Primary)
- 选中需要被合并的节点,如”机翻“,右击点击Add to the Alias List(Secondary)
接着会弹出一个对话框,提示合并成功,点击“确定”就大功造成啦~我们只需直接关掉生成的图谱页面,回到软件刚打开时的操作页面,重新go一遍,就会发现两个节点已经被合并了!
倘若合并失败:(节点数和连线数不变)
返回project文件,打开新生成的citespace记事本文件,打开
按照下图,手动修改文件编码、文件类型和文件名后缀即可。
关键词删除
找到你认为不重要的节点,左键选中,右键选择Add to the exclusion list即可,重新Go一遍
如果想要批量删除,就copy一下,直接编辑citespace文件夹即可(合并同理)
关键词的详细信息
Node Details
关键词出现的年份分布,加粗显示突发性出现的年份和出现次数。
关键词的突现分析
通过对关键词突现性检测,可以了解在某段时间节点内的研究热点、趋势和前沿动态等发展变化情况。
点击Control Panel的Burstness,阈值调整到0.1(尽量调小),红色部分是关键词维持热度的区段。可以用电脑的截图工具手动截图,也可以点击sort选择不同的排序方式。
按突发起始时间排序
按突发的时间范围长度排序
按突发强度排序
关键词聚类
聚类是按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇的数据相似性尽可能大,不同簇的数据对象的相似性尽可能小。
从0到9共10个聚类,数字越小,聚类中包含的关键词越多,每个聚类由多个紧密相关的词组成。
给聚类轮廓填充颜色
时间线图
时间在整个视图上方,越往右时间越近。每一个圆圈代表一个关键词,相同聚类的关键词被放置在同一水平线上,右边显示的是每个聚类的标签,最大圈表示获得的关注最多,可以按时间调节远近。
关键词之间的连线表示关键词的共现
4. 关键词-机构混合网络分析
可以知道哪些机构在关注哪些研究主题,进行机构与关键词之间的关系分析。
发文量分布
Input变成output
Output变成data
Remove选择Article、Review、Proceedings
可以复制到excel中作图分析
二、CSSCI数据库的操作
- 数据结构分析
- CSSCI数据的采集
- CSSCI数据的转换
- 创建项目文件
- 数据可视化处理
导入数据
数据的导入大同小异,选择CSSCI栏目进行数据转换即可。
转换格式
在菜单栏找到data-Input/output, 找到对应数据库进行格式转换即可。
转换前
转换后
由上图可见,所谓转换只是将不同类别信息如“来源篇名”“期刊”等转换成字母进行标识。
关键词聚类图
三、Scopus数据库的操作
导出为CSV
其余与其他数据库大同小异。
四、WOS数据库的操作
导入数据
Step1: 数据库选择“Web of Science核心合集”,在检索框输入主题检索词“onlinereviews” AND “text mining”,进行检索。
ps: 不要选择“所有数据库“,否则不能导出全引文,会影响后续分析
Step2: 以纯文本形式导出,记录内容为“全纪录与引用的参考文献”,切记每次只能导出500条。
文献共被引分析
只勾选References
作者共被引分析
只勾选Cited Author
第七部分 如何调整Citespace图谱使其美观?
如何调整节点样式
可视化图谱的节点样式设置主要包括三个方面:节点显示样式、节点相对尺寸和节点形状
节点显示样式(四种调节方式)
节点显示样式包括节点样式和节点大小的设置,包括十种类型:按照聚类成员、统一尺寸、树年轮历史、节点中心性、节的特征向量中心性、节点Sigma值、节点PageRank得分、WoS数据库中的指标TC、U1、U2。
第一种 Control Panel内进行调节
第二种 快捷菜单栏里提供的三种常用样式设置,主要是按照聚类成员、统一尺寸、树年轮历史显示
第三种 Nodes下的Visual Encording子菜单设置,也包括了全部的十种
第四种 主菜单Nodes下面的Node Display Patterns设置,包括了全部的十种
补充1 使用Citespace进行数据分析后如何写报告?
补充2 细讲一下颜色调整
节点Node的颜色调整
Node的颜色调整直接点击Node栏即可,如下:
连线Link的颜色调整
Link-Link Width: 调整连线宽度
Link-Link Transparency
以我的理解,除了Node和Link的颜色的调整外,其余颜色的调整都用Label这里的
Label Color 就是对应实体的颜色调整, Label Background Color就是其背景
颜色的具体调整我也摸不清头脑,RGB、HSV和HSL颜色空间一窍不通,但是我们似乎只需要理解透明度就好。
让我们详细看一看。Label Color里面有Article Labels/Term Labels/Overlay Labels/Similarity Labels。
Term Label对应的就是字体
对于Article Label和Term Label的区分
补充3
常见问题
为什么各个Threshold都调到最小了,还是有词语没有显示出来?
依次点击Filter- Show the largest k Connected Components
- 针对中国知网与软件分析作者发文量结果不一样的问题。
【根本原因】一方面,可能因为中国知网上的某一些文献没有作者字段,或者某一篇文献没有作者。反正导入的中国知网文献中有一些文献没有作者。那么citespace软件就会自动的将其前或者后相邻文献的作者复制过来,导致真实结果出现偏差。另一方面,文献是中国知网的网络首发,因此没有确定收录时间,因此没有YR年份字段,导致每年都会计数一次该作者的此文章,具体参见https://www.jianshu.com/p/249a04dce5c8
【解决办法】在中国知网进行文献下载时,要总体概览一遍。把作者字段缺失的文献删除,把网络首发的都删除,如果不想删除,就去找文献信息,导出txt后,把缺失的作者字段和年份字段手动补充好。例如有的情况是,文献是由某机构或者学术期刊编辑部发布,作者字段就会缺失。因此,如果非想保留某一篇关键的文献,要自己手动在导出的文档中添加对应的作者字段。
参考学习资料:
科学网—ChaomeiChen的博文 (sciencenet.cn)(陈超美老师的博客)
科学网—jerrycueb的博文 (sciencenet.cn)(李杰老师的博客)