查看原文
其他

【文艺理论与批评】邱伟云 | 论数字人文研究中可视化数据的意义与价值——以数字概念史研究为例

DH数字人文 2022-07-17

The following article is from 文艺理论与批评 Author 文艺理论与批评

目前人文学界对数据可视化(data visualization)抱持两种态度:一种认为是炫技,亦即认为通过计算机技术,虽可将复杂数据转化为多种色彩缤纷、形式多样的视觉印象(visual impression),但可视化的结果往往只是如《老子》所言“五色令人目盲”,并未给人文学界带来任何实质上的助益;另一种则主张利器说,认为通过数据可视化技术(visualization techniques),能将原本静态的复杂数据,以动态的方式加以呈现,在色彩、构图、布局、位置、大小、形状等图像形式的动态变化下,以层次清晰的方式揭示更丰富多元的意义,相比过去利用文字、表格、叙述进行的静态数据展现,能给出更多有意义的信息线索,让研究者进一步加以分析与讨论。本文将围绕“数据可视化技术的存在合法性”这一主题,以笔者专长的数字概念史研究(digital conceptual history)为例进行讨论辨析,指出可视化技术在数字概念史研究中的意义与价值,最后再就“数据可视化”究竟是炫技还是利器这一议题提出看法。笔者认为,数据可视化技术在概念史研究领域中是不可或缺的基本要素,因为概念史研究对象,就是历史长河中长时段复杂历史文本中的概念转移轨迹,研究者若要较好展现概念在历时性(diachrony)上的变化过程以及共时性(synchrony)上的互动结构,仅利用单线且平面的文字叙述是难以做到的。数据可视化技术的引入,能够协助概念史研究者较好地展现研究成果。在概念史研究领域中,已有不少优秀的数据可视化研究案例,但仍有学者认为数据可视化只是炫技,数据可视化图像简化了历史现象,因而会产生一种扁平无力的历史叙事,削弱了历史的丰富性;或认为图像的诠释空间太大,读图与解图的模糊性、开放性与流动性,都可能会使读者误读而错解历史,因此不如文字叙述精确。对于上述看法,笔者尝试从概念史研究中三个数据可视化案例出发,进一步指出数据可视化在概念史研究中的意义与价值,以此回应学界对数据可视化技术存在合法性的质疑。在进行讨论前,需先对概念史研究法进行简要描述,以使读者了解此方法的视角与亮点。所谓概念史研究法(conceptual history),是以概念为研究对象,探索重要的基本概念的发展历程,特别关注概念与社会史之间的关系。由于概念的具体内涵必须在具体的语境(context)中得到确定与理解,因此研究概念时必须考察的对象就不仅是概念本身,更重要的是与概念共现(co-occurrence)的其他概念,正如概念史家赖夏特(Rolf Reichardt)指出的对等、对立、补充概念等概念群。1就概念史理论而言,进行概念研究实际上就是进行概念群的研究,只有通过考察概念群,才能真正锚定某一概念在长时段中随着时空语境变化而改变的过程。那么,数据可视化技术与概念史研究间的关系为何?两者在什么环节上密切联系?答案就是:数字概念史方法。什么是数字概念史方法?与一般我们所称的概念史方法有何不同?笔者所谓的数字概念史方法,是在数字时代下,将自然语言处理技术(natural language processing)引入概念史研究后产生的一种新的跨领域研究方法。相比一般概念史学者运用的人工定性分析法,数字概念史方法具有能够处理巨量史料、复杂史料、更长时段史料这三大优势。若是比较一般概念史与数字概念史方法,可以说前者更长于研究长时段文本中个体行动者对任一或多个概念的理解与运用,短板在于,因为是人工分析,所以在概念变化例证的撷取上会有选精与集粹倾向,会产生幸存者偏差(survivorship bias)的问题;2后者同样长于考察长时段文本中概念的理解与运用,所不同的是数字概念史方法是以机器阅读(machine reading)的方式对全体概念例证进行考察,而非选择性的人工阅读与分析,对于史料的掌握更为全面,有效避免了幸存者偏差问题。然而因为是全体考察,数字概念史的短板就在于缺少了个体行动者对概念使用上的以言行事(illocutionary force)与以言取效(perlocutionaryforce)等实际运用分析。3换言之,一般概念史与数字概念史方法各有专长,若能两相配合就能兼从宏观与微观两个角度,共同捕捉到概念的发展历史,实乃“合则双美,离则两伤”。就数字概念史的发展情况而言,根据笔者掌握的信息,从1990年开始就已有学者从事数字概念史的相关研究,如金观涛与刘青峰就依靠全文共一亿两千万字的“中国近现代思想史专业数据库(1830-1930)”,进行各种中国近代重要基本概念的研究,如公理、社会、经济、个人、共和、天下、万国、世界、国际等。他们的研究与一般概念史研究法最大的不同之处,就在于运用长时段复杂数据的可视化图片,揭示重要基本概念及概念群在数据库中的百年使用频率变化(图1)。

图 1 “万国”、“世界”和“国际”的使用次数(1860-1915)
通过如图1的概念群词频数据可视化图片,读者很快就能掌握中国近代由“万国”概念的出现所代表的国际接轨进程,以及由“世界”概念所代表的20世纪民族国家观念与民族主义形成过程的时间序列分布情况。4运用具有时间序列意义的数据可视化图片进行概念研究后来也成为一种基本方法,诚如王汎森所说,措辞与概念数量的升降可以反映一个时代的心理特质5,而要想表现出概念在长时段复杂文本中的数量变化,可视化技术是最好的工具。单纯使用文字或表格呈现概念在某一时间段中使用量的增减变化,若是单一概念还好把握,但如果研究对象是一群概念,就会显示出文字叙述的不足。通过数据可视化图片,读者方能比较具象化地掌握概念群随时代与世变的起伏状况。当然,如果概念史研究只是将数据可视化运用在概念词频的时间序列分布上的话,那还不足以证明数据可视化技术对概念史研究的重要性,因为概念词频的年代数据还是勉强可以用文字列表的方式呈现的,读者能够在阅读文字表格数据后依靠想像掌握概念群的发展图像。然而数据可视化技术,绝不仅限于概念词频的时间序列描绘,还有共现概念群可视化、词缀概念群可视化以及网络概念群可视化等技术。一旦涉及这些更为复杂的概念群的分合关系研究,若没有可视化技术协助,呈现与描述研究结果就变得非常困难了。数据可视化技术究竟对于概念史研究还有哪些助益,可从以下三个案例进一步考察。首先,共现概念群研究法能够通过可视化技术撷取、呈现与代表核心概念的关键词共同出现的高频关键词,而后还可同时观察这一概念群在长时段中的新陈代谢现象。如图2,即是通过数据可视化技术,快速地计算并描绘出多达一亿两千万字的“中国近现代思想史专业数据库(1830-1930)”中,1895-1900年、1901-1914年、1915-1924年三个重要时期史料文献中,与“平等”概念高频共现的概念群的数据可视化图像。

戊戌思潮时期(1895-1900)

学习时期(1901-1914)

重构时期(1915-1924)
图 2 “中国近现代思想史专业数据库(1830-1930)”中“平等”一词三阶段共现图


在可视化技术的协助下,读者可以快速掌握不同时空语境中与“平等”一词共现的概念群的群聚变化现象以及概念间的分合情况,而概念群的内部挪移分合,代表的正是“平等”话语(discourse)的滑动与位移。过去对于话语论述的研究,总是研究者阅读大量长时段史料后的印象式总结归纳,如今通过运用可视化技术,研究者可以客观地、科学地、全面地、避免选择性偏差地勾勒并呈现出话语中概念群群聚的变化情况。可视化技术除可呈现上述概念群的群聚变化现象外,还可结合数字人文方法(digital humanities),考察所涉及的二三十个甚至更多概念关键词与“平等”一词的共现分合关系,如依据图3 6呈现出的概念复杂群聚成长现象,就可以很快掌握哪些共现概念关键词群各在哪一个时空阶段上涌现。图中清晰体现出的共现概念群的三段涌现现象,就不是线性的文字叙述形式所能呈现的,唯有通过可视化技术才能表达出概念群群聚现象的变化轨迹。从以上案例可见,数据可视化技术确实能有效地帮助学者进行长时段的概念群变化研究。


图 3 “平等”一词共现词丛历时性共现比例累加图(三阶段重要的共现概念关键词)

其次,词缀概念群研究法通过可视化技术可揭示中国近代知识分子是如何以及在哪些时间节点制造出新词汇,用以描述、表达与传统中国截然不同的新世界的发展历程的。在古代中国,由于社会发展相对缓慢,新事物不多,因此可用较少的词汇概念去理解与描述世界,但在近代开眼看世界后,人们面对着与过去千年完全不同的新世界,就需要更多的词汇概念去加以描绘。因此,近代中国知识分子配合时代需要,生产了一批新词汇,其中可见诸多原有概念从传统到现代朝着细化与专业化方向前进,为的就是能够指称与描述西方世界中的各种新事物。例如“美”的概念,就在近代中国受到西学与日本化的“东学”7知识影响,开启了现代转向,从传统中国“美”的概念中分化出了“美术”、“美学”、“美感”、“美育”等过去没有的新概念,用以描述现代新世界。因此研究者可尝试通过考察中国重要的传统单音节词转向多音节词的发展轨迹,去揭示中国传统概念的现代转化历程。然而,要用线性的文字形式去描述单音节词转向多音节词的发展过程是很难的,可视化技术则能很好地捕捉、呈现出所有由单音节词衍生的多音节词以及其时间序列变化。如图4所示,研究者可以快速完整地掌握近现代中国由“美”字衍生出的所有多音节词,而可视化图像中的箭头粗细,则表示对应的多音节词的使用频率,从而揭示该词的重要性。而后,还可利用刚才提到过的概念群的可视化技术,将“美”的概念词族进行时间序列的描绘,以概念的时间群聚现象为标准,可将“美”的相关概念群进行分期,研究者可全面地掌握“美”的概念群的分期出现与发展过程,从而揭示出“美”的概念在近代是如何随着时空语境的变化而流动与位移的。8

图 4 “ 中 国 近 现 代 思 想 史 专 业 数 据 库(1830-1930)”中“美”之词族图
其三,概念群网络研究法通过可视化方法可掌握概念群间的系统结构,可以考察一个话语论述所包含的概念群中所有概念的关系与连带现象。哪些概念与概念间为强连带(strongties)或弱连带(weak ties)?哪个概念为连接不同概念群的概念桥梁(bridge)?哪个概念是不属于任何概念群但担负起连结概念群作用的联络概念(liaison)?哪个概念是很少或不参加任何概念群的孤独概念(isolate)?哪个概念是概念网络中有着最多关系连结的明星概念(star)?从上述这些角度,概念史研究者可深入考察概念的结构洞(structural hole)以及概念群中的派系(clique),进行概念群的网络位置分析(positional analysis)。9通过运用概念群网络分析的可视化技术,研究者将能分辨出在话语中不同概念的重要性差异。例如图510显示出《新青年》第一卷所有文章论述中分支度(degree)最高的概念,即“政治”概念,与另外9个重要概念连带,这意味着“政治”是《新青年》第一卷所有文本中作为核心的明星概念,是第一卷所有文章论述中都难以绕过的重要概念,若没有数字人文方法与可视化技术的协助,一般概念史方法是难以捕捉到“政治”概念在《新青年》第一卷中作为明星概念的重要性的。在未使用可视化技术前,研究者只能将史料文本进行平面与线性的阅读、分析与讨论,但通过运用可视化技术,研究者就能以动态且立体的形式去理解、分析与呈现研究结果,看出概念间的动态连带发展过程,就此与一般概念史方法有所区隔,得以更为细致地与动态地揭示不同概念在概念群网络位置中的特殊性与重要性。

图 5 《新青年》第 1 卷概念网络图

从上述列举的三种数字概念史方法研究可见,如果没有可视化技术的协助,概念史研究者就很难较好地呈现出概念发展过程中动态复杂的现象。就笔者目之所及,目前运用可视化技术进行概念相关研究的案例不仅只有上述三种方法,还有词向量研究(word embedding)、主题模型研究(topicmodels)等,都需通过可视化技术才能表达出研究结果。11由此可见,可视化技术对于概念史研究者而言实为不可忽略的一门新技术,然而,将可视化技术引入概念史研究中是否只有好处而没有缺点呢?答案是否定的!世界上所有事物都有利有弊,将可视化技术引入概念史研究中也可能遮蔽掉一些信息,诸如概念使用者的以言行事、以言取效等个人意图,以及概念使用时的历史语境等,这将造成概念研究的均质化以及扁平化等问题,上述问题正是运用可视化技术进行概念研究时的短板之处。面对可视化技术在概念史研究上的长处与短板,笔者想要强调的是,数字方法与可视化技术的运用,并非是想取代过去一般的概念史研究法,而是希望能在另一个面向上补充与拓宽概念史研究法。只要结合一般概念史与使用可视化技术的数字概念史方法,研究者就能兼从微观与宏观角度去掌握概念的动态发展。综上,可视化技术绝对不是炫技,而是一个提供特殊研究视野的利器,能够凸显独特的问题与线索,因此笔者认为学界不应忽视可视化技术的价值,应当正视且推广学习,培养未来学者对于可视数据的识读素养(dataliteracy),加快进入全数字化世界的进程。 (本文为教育部人文社会科学研究规划基金项目“数字人文视野下中国近代‘道’概念的转型与变迁研究” [编号:19YJA770012]的阶段性成果)

 


1    参见方维规:《概念史研究方法要旨——兼谈中国相关研究中存在的问题》,收于黄兴涛主编:《新史学(第三卷):文化史研究的再出发》,中华书局,2009年,第3-21页。

 2   李伯重:《“选精”、“集粹”与“宋代江南农业革命”——对传统经济史研究方法的检讨》,《中国社会科学》,2000年第1期。

 3   关于以言行事与以言取效之意,详参Austin,J. L., How to Do Things with Words,Cambridge: Harvard University Press, 1962.这两个概念提醒研究者除了将文本当作叙述性文字,还应将之视为“争辩与推动改变的工具与武器”,并且注意观察时人理解与运用文本的过程。

 4   参见金观涛、刘青峰:《从“天下”、“万国”到“世界”——兼谈中国民族主义的起源》,《观念史研究:中国现代重要政治术语的形成》,法律出版社,2010年,第211-246页。

 5   王汎森:《从新民到新人——近代思想中的“自我”与“政治”》,收入许纪霖、宋宏编:《现代中国思想的核心观念》,上海人民出版社,2010年,第242页。

 6   关于此图之意义,详参邱伟云、金观涛、刘青峰、刘昭麟:《中国近代平等观念形成之数字人文研究:以报刊为中心》,《清华大学学报(哲学社会科学版)》,2018年第6期。

 7   所谓“东学”是指日本人在吸收西学后,以日本自身角度进行理解,从而再生产出的带有日本特征的“西学”,孙江以“东学”称之,相关讨论可参见孙江:《概念史研究的中国转向》,《学术月刊》,2018年第10期。

 8   案例分析详参邱伟云:《词汇、概念、话语:数字人文视野下中国近代“美”之观念的建构与再现》,载周宪主编:《艺术理论与艺术史学刊(第3辑)》,中国社会科学出版社,2019年。

 9   关于社会网络理论与方法,参见[荷]沃特·德·诺伊、[斯洛文尼亚]安德烈·姆尔瓦、[斯洛文尼亚]弗拉迪米尔·巴塔盖尔吉:《蜘蛛:社会网络分析技术》,林枫译,世界图书出版公司,2012年。

10  金观涛、邱伟云、梁颖谊、陈柏聿、沈锰坤、刘青峰:《观念群变化的数位人文研究——以〈新青年〉为例》,收入项洁主编:《数位人文:在过去、现在和未来之间》,台湾大学出版中心,2016年,第427-463页。

11  与概念研究相关的词向量与主题模型研究,可参见刘知远、刘扬、涂存超、孙茂松:《词汇语义变化与社会变迁定量观测与分析》,《语言战略研究》,2016年第6期;王涛:《18世纪德语历史文献的数据挖掘:以主题模型为例》,《学海》,2017年第1期。






数字使人文更新

投稿邮箱:dh2020@tsinghua.edu.cn

数字人文门户网站:www.dhlib.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存