内容摘要:学术文献内部的视觉资源(简称文内视觉资源)主要是其图表资源的集合,在学术交流与传播中扮演着重要角色,将其看作可视知识计量单元进行尝试性分析,能从新的视角和更细的粒度拓展计量分析的对象,并为基于可视知识单元的知识服务奠定基础。
关键词:文内视觉资源;分析框架;可视知识计量;特征标注;视觉表达
作者简介:
作者简介:胡蓉(1980- ),女,西南大学计算机与信息科学学院博士生。重庆 400715;南京大学信息管理学院,主要研究方向为用户信息行为,人机交互,网络信息资源管理,E-mail:hr@smail.nju.edu.cn。南京 210023;唐振贵(1981- ),男,南京大学信息管理学院博士生,主要研究方向为文本挖掘,语义网。南京 210023;赵宇翔(1983- ),男,南京理工大学经济管理学院博士,教授,主要研究方向为人机交互,网络信息资源管理,社会化媒体用户行为。南京 210094;朱庆华(1963- ),男,南京大学信息管理学院教授,博士生导师,主要研究方向为社会化媒体,互联网用户行为。南京 210023
内容提要:学术文献内部的视觉资源(简称文内视觉资源)主要是其图表资源的集合,在学术交流与传播中扮演着重要角色,将其看作可视知识计量单元进行尝试性分析,能从新的视角和更细的粒度拓展计量分析的对象,并为基于可视知识单元的知识服务奠定基础。本文在构建涵盖五大视觉特征与两大关系特征的四级分析框架基础上,搭建文内视觉资源标注平台,选择图书情报领域样本期刊构建语料库,从“属性-关系”两个维度进行计量分析。研究结果表明,样本语料库中文内视觉资源的可视知识计量分析,在一定程度上揭示了图书情报学科及相关研究主题的视觉表达态势。总体上,该框架可为学术视觉资源库建设与管理、检索与分析,以及更细粒度的知识服务提供参考;为评价学科视觉表达态势,促进学术可视化交流与传播奠定基础。
关 键 词:文内视觉资源 分析框架 可视知识计量 特征标注 视觉表达
标题注释:国家社会科学基金重大项目“面向大数据的数字图书馆移动视觉搜索机制及应用研究”(15ZDB126)。
1 引言
文内视觉资源是与封面视觉资源[1]相对应的概念,在本文中主要指学术文献(如学术专著、学术期刊、学位论文等)文内图表资源的集合。作为研究者学术成果显性表达的可视知识形态,文内视觉资源能集中反映学术研究的核心思想与架构,研究方法与过程,研究数据与结论,以直观且简洁的方式提高读者阅读和理解学术文献的效率[2],提升学术洞察力,因而成为学术研究成果的重要载体,在学术交流与传播中扮演着重要角色。近年来,随着学术文献量的激增,其文内视觉资源呈现爆发增长态势,逐渐汇集成为学术视觉资源大数据,为深入文献内容的细粒度知识服务提供了新的服务增长点。为此,国内外各大数据库商(如EBSCO、Wiley、Elsevier ScienceDirect、LISA、PNAS、Taylor、CNKI等)不断加强文内视觉资源的揭示力度,增加基于图表的检索或展示接口,甚至专门构建基于学术视觉资源的公共知识资源池,在资源的检索与开放存取方面展开相关服务,如CNKI学术图片库[3]、figshare[4]等。可以预见,文内视觉资源库的开发与建设将进一步促进学术知识的组织和传播,在未来知识服务领域将有广阔发展空间。
人类的知识服务经历了以篇为单位的文献服务,以数据库为单位的信息服务阶段,正在步入知识单元级别的知识服务阶段[5]。马费成教授早就指出“情报学取得突破的关键问题之一是知识信息的表达和组织必须从物理层次的文献单元向认知层次的知识单元或情报单元转换[6]”,邱均平教授也认为计量单元已经不仅仅停留在以篇、册、本为单位的文献单元上,而开始深入到文献内部对知识单元和文献的相关信息进行计量研究[7]。本文认为,文内视觉资源是一种可视知识计量单元,对其进行分析将从新的视角和更细的粒度拓展计量分析的对象,并为基于可视知识单元的知识服务奠定基础。
鉴于此,本文站在可视知识计量视角,从视觉特征分析入手,尝试构建一个涵盖五大视觉特征与两大关系特征的文内视觉资源分析通用框架,该框架包括四级架构:(l)项目-规则层;(2)标注平台层;(3)资源库层;(4)应用分析层;基于此框架,本文以图书情报学科较具代表性的《中国图书馆学报》为例进行案例应用。
2 相关研究概述
当前学术视觉资源研究已初步形成如下研究主题:(1)理论探讨,包括从认知、社会以及文化层面对可视化环境的评价[8],以及对可视化科学前景的探讨[9]等;(2)学术可视化交流,包括可视化思维与表达[10-11],侧重探讨学术视觉资源的“生成”问题;(3)研究方法应用,如利用眼动追踪技术[12-13]或相关评价技术[14-15],从“用户”视角探讨学术视觉资源的“评价”问题。文献调研表明,从计量视角分析与评价学术视觉资源的研究目前较为稀缺,为此,本文将为数不多的相关研究与实践按照学术视觉资源类型进行划分,可分为科技类期刊封面视觉资源,学位论文文内视觉资源,以及网络学术视觉资源等的研究。
国内学术视觉资源分析的典型代表是王国燕针对科技类期刊封面视觉资源的系列研究[1,16-20],尤其是对Nature、Science、Cell封面特征,以及化学、物理、生物等基础自然学科期刊的封面图像研究,研究从资源实体频数统计及可视化特征角度进行了描述与揭示。文内视觉资源的研究方面,Steiner对瑞典著名的乌普萨拉大学(Uppsala University)各学科164篇博士学位论文进行了研究,从学科分类角度,以案例形式揭示了医学、化学、社会科学、生物学等14个学科领域文内视觉资源的不同图表类型,研究发现社会科学大类的图表数量排名第三,该类下信息科学系的资源主要为照片(Photo)、原创型的绘图(Drawing)以及统计图表(Chart)三类[21],这些发现为本文分析框架的构建奠定了基础。
针对网络学术视觉资源,Kraker等[22]对科研数据知识库figshare进行研究(该知识库提供学术视觉资源的发布、存储、分享、管理与发现服务),研究表明figshare中图(Figure)的项数最多,且社会科学的数据量位列第三,研究基于Altmetrics的方法,利用“captures”、“mentions”、“social media”、“views”以及“downloads”几个指标对资源进行了统计分析。国内CNKI学术图片库是我国第一个学术图片知识库,依托CNKI中国文献资源总库,收录了其中学术期刊、博硕士论文、会议论文、工具书、专利文献中超过千万张图片,从2012年建设至今,目前可以提供图表的检索、对比和分析等知识发现功能,但笔者通过调研发现,CNKI图片库目前主要针对图片进行检索与对比,对文内视觉资源集合的计量分析支持力度还有待提升。
从研究方法看,已有的研究主要运用了频数统计、案例分析、比较研究以及Altmetrics方法。例如,王国燕[1]的研究主要侧重于对封面视觉资源数量的统计与典型案例的描述,并对期刊封面可视化特征进行了比较分析;Steiner[21]的研究侧重利用案例法对不同学科的文内视觉资源类型特征进行分析与汇总;Kraker等人则利用figshare的API检索其基础元数据,从替代计量学(Altmetrics)角度进行了统计分析[22-23]。
总体来看,相关研究与应用[1,3-4,16-23]主要存在以下问题:(l)无论是频数型计量分析[1,21]还是Altmetrics方法[22-23]的研究,均主要以视觉资源本身为分析单元,未能进一步深入到视觉资源特征属性层面,分析揭示粒度有限;(2)由于缺乏特征语料库的支撑,往往采用人工核查与统计方法[1,21]进行分析,较难从纵向时间维度以及全局视角把握视觉资源的特征与演化趋势;(3)尽管如CNKI学术图片库[3]可以针对图片进行检索与对比,但缺乏从可视知识计量视角进一步深入分析图表共现关系,以及文内视觉资源特征与研究主题关系;(4)由于缺乏通用的分析框架,现有研究方法与结论常常是嵌入到所研究的视觉资源中,方法的重用性和结论的普适性欠佳。
针对上述问题,本文将站在可视知识计量视角,从更细粒度的视觉特征分析人手,通过构建一个较为通用的分析框架,实现对文内视觉资源特征的演化分析,以及图表共现关系、文内视觉资源特征与研究主题关系的分析。






