欢迎光临112期刊网!
网站首页 > 论文范文 > 文学论文 > 新闻 > 基于Prefuse和社会网络算法的信息检索的关系分析

基于Prefuse和社会网络算法的信息检索的关系分析

日期:2022-12-01 阅读量:0 所属栏目:新闻


作者简介:唐蓓(1979-),女,硕士,上海工程技术大学图书馆馆员,研究方向:信息可视化;夏秋菊(1985-),女,硕士,上海工程技术大学图书馆助理馆员,研究方向:知识管理。

摘 要:通过构建基于Prefuse的知识图谱系统框架,在此框架基础上采用社会网络算法构建信息检索学科合作网络知识图谱并进行了分析。发现信息检索研究人员在高产、高被引和高合作群体中不存在很强的一致性。合著网络中形成以Zhang, L、Sprink, A和Schacter, DL为中心的最大规模科研群体,以Tulving, E和Cabeza, R为代表的凝聚力最强的合作群体。
  关键词:Prefuse 社会网络 知识图谱 信息检索 合作网络
  中图分类号: G254.9 文献标识码: A 文章编号: 1003-6938(2012)05-0079-06
  近年来,随着多种知识图谱分析工具的出现,一些研究者利用知识图谱软件(主要是CiteSpaceⅡ)对信息检索学科进行了分析,如Rorissa A和Yuan X(2011)在2000~2009年数据的基础上用CiteSpaceⅡ对信息检索学科进行知识图谱构建和学科分析[1];国内同样有学者利用该软件对信息检索的子领域进行分析,但这些研究存在数据源时间跨度短、在一定程度上依赖于知识图谱软件的功能,而且未对信息检索学科合作网络进行分析研究。通过上述考虑,本文尝试一种新的知识图谱框架,基于该框架通过社会网络算法构建信息检索合作网络并进行解读,以便为国内外从事信息检索研究的有关学者提供参考借鉴。
  1 基于Prefuse的知识图谱系统设计
  2005年,Heer J、Card SK、Landay JA三人共同撰文提出了Prefuse的信息可视化框架[2]。Prefuse为数据建模、数据可视化以及用户交互提供了丰富的软件库,可以支持表格、图和树显示,还具有支持动态显示、动态查询等功能。Prefuse基于传统的MVC架构进行开发,其可视化时需要经过如下处理过程[3]:
  (1)抽象数据(Abstract Data)。Prefuse对数据进行可视化的首要步骤是获取数据,并为数据提供了指定的接口和程序,可以显示表、图和多种树形结构。本文主要使用XML格式的数据,通过把数据转化成XML格式,如DOITrees、GraphML、TreeML格式,完成抽象数据的处理过程。
  (2)数据过滤(Filtering)。主要是将抽象数据进行提取、转化,使其适用于显示。首先选取要进行可视化的一系列元素,如一个图形或显示在散点图上的重点区域。然后形成一些可视化的属性(称为VisualItems),如源数据中显示的文字、数字,显示时的坐标点、颜色、大小等等。然后通过Action提供为上层组件。
  (3)数据渲染(Rendering)。即图形绘制的过程,可视化元素(VisualItems)通过渲染器(Renderers)绘制到屏幕上,其中用到上面形成的组件如颜色、位置、大小等等。Prefuse实现了一些基本渲染器,通过渲染器工厂RenderFactory进行管理。
  (4)交互显示(Interactive Display)。功能由Display组件完成,用于显示ItemRegistry中注册的组件。可视化交互功能通过ControlListener接口实现,主要是提供对鼠标、键盘的监听功能。
  本文通过对数据的预处理、数据抽取、矩阵形成,进行聚类或社会网络以后,把生成结果转化成Prefuse可支持的TreeML、GraphML格式,借助Prefuse可视化框架,完成聚类显示、社会网络显示的功能。
  2 信息检索学科分析的知识图谱构建
  2.1 数据源获取
  本研究数据来源于Web of Science的SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH数据库,用“Information Retriev*”作主题检索,检索时间选择20世纪50年代至今(截止至2011年11月25日),词形还原打开,得到的检索结果共计46561条记录。以此作为构建信息检索学科知识图谱的数据集,以下简称为“数据集”。
  2.2 数据处理
  (1)提取作者数据。在原数据库中,通过数据表paper的“authors”字段,可以获得每篇文献的作者数据,在作者字段中,为方便去重和区别不同作者,每个作者姓名以数据集中提供的全名进行表示,当文献是合作文献时,作者之间以分号进行分隔。选择paper的“authors”字段的所有数据,通过编程对获取的每个作者条目进行切分,从而得到所有作者数据。
  (2)构建合作者对应关系。建立表author_author,其中包括两个字段“firstauthor”和“secondauthor”。通过处理,共得到548,182条作者与作者对应数据。在构建“作者——作者”对应表时,第一作者与第二作者及其他作者不分权重,即所有作者的重要程度相同。构建作者与作者对应关系表时,通过对步骤一获得的每一条合作者数据进行遍历,得到作者与作者对应关系。
  (3)生成合作者数据。对表author_author中的数据,根据“firstauthor”字段进行分组合并,对“secondauthor”进行合并,合并过程中剔除重复元素,“secondauthor”对应数据以分号进行连接,同时统计出每个作者的合作次数,然后将合作者数据插入表coauthor中。
  处理完成后,共得到96,778个作者的合作者信息,其中与其他作者合作频次最高的为Bryant, Stephen H.,合作频次为245。与其他作者合作频次达到200次以上的作者共22人(见表1)。
  2.3 合作者网络构建
  由于本文的研究重点是确定合作者中的团体和其研究内容,所以文中采用无向无权网络,构建过程如下:
  (1)定义社会网络数据结构。合作者网络的定义包括节点、边和社会网络三个部分。节点包括aid和aname两个字段,为网络中最基本的构成元素,由类Node表示;边由节点和与该节点关联度为1的节点的集合构成,其中与该节点关联的节点数即为该节点的度,由类Edges表示;社会网络由节点的集合和边的集合两部分构成,其中社会网络还可以获取子网络,由类SocialNetwork表示(见图1)。

[图1 社会网络UML图]
  (2)构建合作者网络。合作者网络的构建根据数据库中的合作者表coauthor和作者文献产量表author_paper进行构建,合作者网络的节点基于合作者的合作频次和每一位作者的文献产量进行选择,然后根据其合作情况提取边信息。在coauthor表格中有96,778条合作者信息,表author_paper中存储有数据集中所有作者的文献产量信息,共100,985条。
  由于本文的研究目的是提取代表性的合作者社团及其研究方向,所以在合作者数据中作者提取了合作频次超过53的前300条合作数据;另一方面,为了减少网络复杂度高从而导致信息表征的不足的影响,仅提取文献产量在10以上的作者,共407位高产作者。
  以上步骤具体由类SocialNetworking完成(UML结构见图2)。通过合作者网络构建,共得到142个节点和71条边。
  (3)获取合作者群体。在得到的合作者网络中,每个子网络代表一个合作群体,通过获取子网络,可以得到合作者网络中最大合作群体以及其他合作群体。通过对各群体中的节点数、各节点的度、以及作者、作者发表的文献特征进行提取,可以获得各个合作群体的研究重点、研究特征等特性。
  
  本文对合作群体的获取,通过社团结构搜索算法进行,算法具体在SocialNetworking类的getSubNetWorkNodes方法完成,经过对合作者网络的合作群体进行搜索,共得到21个合作群体,节点数最多的合作群体包括45个节点,节点数为22的群体有1个,节点数为11的群体有2个,节点数为5的群体有2个(见表2)。
  [子网节点数\&45\&22\&11\&5\&4\&3\&2\&\&子网数\&1\&1\&2\&2\&2\&9\&4\&共计21个\&][表2 合作群体数及相应节点数]
  2.4 知识图谱生成
  对社会网络的可视化基于GraphML文件和Prefuse可视化框架进行。首先需要把上一步生成的合作者网络转化为进行可视化的GraphML文件,然后通过Prefuse框架提供的可视化接口,对GraphML进行读取、渲染以及最后的展示。详细流程为:
  (1)生成可视化表征文件。采用GraphML进行图形描述。GraphML格式最初由GML转化而来,符合XML语言规范。通过编程将得到的合作者网络数据进行转化,转化为GraphML格式的文档(结构见图3)。
  (2)知识图谱显示。生成代表类别的GraphML文件以后,就可以通过Prefuse所提供的可视化组件进行图谱显示了,完成信息检索合作者网络的知识图谱绘制。
  从整个合作者网络图(见图4)可以看出整个网络图可以分为不同的子图,对其中各个子图的节点分布并不均衡,最大的子图有45个节点(见图5),位于图中央,依次是有22个节点的子图(见图6),最小的子图仅仅2个节点,位于整个图的边缘。
  3 信息检索合作网络知识图谱的解读
  3.1 整体合作网络特性分析
  其中,fj表示合著者人数为j的论文数;N表示论文总数,k表示合著者人数的最大值。
  经过统计,在得到的46,561条数据中合著文献数达到38,506条,占文献总数的82.70%,所以合著率为82.70%。其中合著人数最多的文献有54个作者,合作者人数分别为2人、3人和4人的文献数及所占合著文献比例如表3所示,这三种情况共占合著文献的79.13%。通过计算得到其合作指数CI为2.99,说明篇均作者2.99人。
  [图4 整个合作者网络图(缩小显示)]
  [图6 节点数为22的合作者群体][2人合著\&所占比例\&3人合著\&所占比例\&4人合著\&所占比例\&12,592篇\&32.70%\&10,998篇\&28.56%\&6,878篇\&17.86%\&][表3 合著文献数及所占合著文献比例]
  3.2 最大子网络分析
  针对合著网络中的节点最多的两个子网络进行具体分析,包括节点的度分析和子网络中的合著子群分析。
  通过编程统计,得到两个子网络中每个节点的度,表4显示了节点数为45和22的子网络中度数较高的前10为作者。
  图7中以径向图形式显示了节点数为45和22的合著网络子图,结合表4,可以从图中直观的看到以Zhang, L、Sprink, A和Schacter, DL为中心,组成了网络中规模较大的科研群体。节点数为22的子图中形成了整个网络中节点数最多、边最为密集的凝聚子群,在这个凝聚子群中,节点度数最少的是Kohler, S和Markowitsch, HJ,度值为3,Tulving, E和Cabeza, R节点度值最大为9,共有10个节点,平均节点数为6.2,该凝聚子群是信息检索领域凝聚力最强的合作群体,是信息检索研究的重要科研群体。
  [表4 节点数为45和22的子网络

 中度数较高的前10为作者]
  3.3 合作网络研究者分析
  评价科学家在网络中的地位及其影响力通常有:发表文献数、文献被引次数、度值、中间中介数等指标。本文选用发表论文数、作者被引次数和节点度值三个指标。 表5显示了发表论文数、作者被引次数和作者节点度值较高的研究人员,通过表格可以看出,Sprink A发表论文数和网络中的节点度值都位于前列,Tulving E的作者被引次数和节点度位于前列,其他的28位研究人员并不存在同时在高产、高被引和高合作群体同时出现的情况,所以通过表格可以反映出信息检索研究人员在高产、高被引和高合作群体中不存在很强的一致性。
  
  4 结语
  本文主要对信息检索领域的合作网络进行知识图谱构建和解析。通过数据预处理提取构建合作者网络的合著数据,然后通过社会网络算法构建合作网络,再通过编程将网络转化为GraphML格式的文件,提供给Prefuse可视化接口进行知识图谱显示,完成合作网络的知识图谱构建。在此过程中自行实现社会网络算法,实现合作者网络的提取。借助构建知识图谱和数据统计,对信息检索的合作网络进行分析,分析了合作网络的整体特性、最大的两个合作者网络、凝聚性最强的合作网络,然后对信息检索的合作网络研究者与高产作者和高被引作者进行了综合分析。
  参考文献:
  [1]Rorissa A, Yuan X. Visualizing and Mapping the Intellectual Structure of Information Retrieval[J]. Information Processing and Management, 2011,(48):120-135.
  [2]Heer J,Card SK, Landay JA. Prefuse: A Tookit for Interactive Information Visualization[C].CHI,Portland, 2005:
  421-430.
  [3]Chu H. Research in Image Indexing and Retrieval as Reflected in the Literature[J]. JASIST, 2001, 52(12):1011-1018.
  [4]刘鹏.科研合作复杂网络模型的研究[D].广州:暨南大学信息科学技术学院数学系, 2011.
  .Journal of
  Knowledge Management,2003,7(2):34-45.
  .Journal of the American Society for Information Science and Technology,2009, 60(11):2229-2243.
  [7]林莉. 科研论文合著网络结构与合作关系研究[D].长春:吉林大学社会医学与卫生事业管理, 2010.
  [8]李亮,朱庆华. 社会网络分析方法在合著分析中的实证研究[J]. 情报科学,2008,26(4): 549-554.
  .图书情报工作,2010,54(16):116-119.
  [10]Hsinchun Chen[EB/OL].[2012-03-20].http://
   wiki/Hsinchun_Chen.
  [11]王知津等. 十五年来我国网络信息检索研究述评[J]. 情报科学,2004,22(4):385-389.
  [12]王智红等.近十年来我国网络信息检索研究主题分析[J].情报杂志,2009,28(7):1-6.
  

本文链接:http://www.qk112.com/lwfw/wenxuelunwen/xinwen/21807.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学