是我国哲学学科的重要学术机构和研究中心。其前身是中国科学院哲学社会科学部哲学研究所。历任所长为潘梓年、许立群、邢贲思、汝信(兼)、陈筠泉、李景源、谢地坤。中华人民共和国成立前,全国没有专门的哲学研究机构。为了适应社会主义改造和建设事业发展的需要... ... <详情>
哲学专业书库的前身是哲学研究所图书馆,与哲学研究所同时成立于1955年。1994年底,院所图书馆合并之后将其划为哲学所自管库,从此只保留图书借阅流通业务,不再购进新书。
2009年1月16日,作为中国社会科学院图书馆体制机制改革的重要举措之一,哲学专业书库正式挂牌。
<详情>【摘要】知识图谱作为新知识工程的核心内容,对于推动人工智能概念在各领域的迁移应用具有重要意义,成为跨学科发展的关键理论和重要手段。本文对领域知识图谱视域下的人文社会科学及其相关数据概念进行了辨析,通过对知识融合通用型关键技术的分析,提出了面向人文社会科学研究的知识图谱构建方法,随后以影视文化领域知识图谱的构建路径为例,尝试给出了知识图谱技术与代表性人文社科领域可能的融合路径,为学科交叉和理论创新提供了一种新思路和新研究范式。
【关键词】人文社科;知识图谱技术;融合路径;
人文社会科学(以下简称“人文社科”),一般指以政治、经济、文化等涉及人类思想相关知识为研究对象的学科,是人文科学与社会科学的总称,具有鲜明的人文特质与社会品性,与自然科学相比呈现出更为复杂的属性。本领域研究过程中,无法通过量化和应用数学模型来实现更深程度的探究,一定程度上限制了研究方法的多样性。随着数字技术和人工智能时代的到来,学术界对人文社会科学研究方法的关注日益增加。近年来,学者们开始更加注重创新与跨学科的结合,其中,面向人文社科领域的知识图谱构建与应用便是典型代表。然而,基于本领域研究对象和涉及问题的复杂性,如何实现知识图谱技术与人文社科领域的有效融合,成为学术界亟待解决的关键问题。本研究即尝试对上述理论在实践层面的应用进行探索,以期为推动学科内外部要素交叉与创新提供理论依据和实践参考。
一、面向人文领域知识图谱的几个关键概念
人文社会科学研究涉及两个主要领域:人文科学和社会科学。人文科学聚焦于人类的精神生活和文化,通常采用解释学和意义分析等方法,以深入探讨个体的价值、情感、思想和观念,覆盖文学、历史、哲学、美学、文化学和艺术学等领域。社会科学则普遍关注社会结构和功能,借助实证研究方法,分析社会学、法学、经济学等领域的宏观社会现象。尽管理论上人文科学与社会科学有所区别,但实际上“人”与“社会”紧密相连、不可分割。社会现象深受个体特征的影响,而人文研究亦不可避免地涉及社会维度。因此,本研究旨在对人文社会科学的广泛内容进行概述,而不对其进行特定分类或区分。
人文社科研究领域所涉及的数据类型非常复杂,涉及分类标准不一,本研究仅从数据来源和数据结构两方面加以定义和区分。
依循此视角,人文社科研究所涉及的数据可以划分为直接数据和间接数据,其中前者是指研究者通过访谈、直接观察、间接观察等方式首次亲自收集并经过加工处理的数据,后者指来源于他人调查和科学实验的数据。丰富的数据来源反映出人文社会学科数据所蕴藏的巨大价值,也为后续数据标准的统一和规模化利用增添了现实难度。
从广义的科研活动所涉及数据类型来看,可以划分为结构化数据、非结构化数据和半结构化数据三类。其中,结构化数据指关系模型数据,如仪器直接生成的观测数据或数据库平台数据等,其特征为严格标准化,可用二维表结构逻辑进行表达;非结构化数据指具有不规则或不完整结构的数据,没有预定义的数据模型,常见的有书籍、文本及各种格式的图片、视频等;半结构化数据则指非关系模型的、有基本固定结构模式的数据,如自描述的日志文件、XML文档等,其特征是数据的结构和内容混杂。通常,人文社科领域数据以半结构化数据和非结构化数据为主,即单条数据所包含的信息量庞大、结构性较弱、元数据不固定,致使研究人员无法对其进行直接分析和利用,需在此之前进行标准化统一和知识结构化处理,这是其区别于自然科学数据的最大特征,也是后文所及“知识抽取”和“知识融合”两个关键流程的先决基础。
知识图谱(Knowledge Graph),又称知识阈可视化或领域映射地图,是一种将图形学、应用数学等学科理论方法与计量学相应方法结合的交叉学科理论,其基本应用逻辑是通过可视化图形将学科前沿领域、发展历史、核心结构等以结构化知识的方式呈现,实现本领域知识的体系化、结构化[1]。从图谱应用规模角度可将知识图谱分为通用知识图谱和领域知识图谱,其中,通用知识图谱是一种包含广泛领域信息的结构化知识库,涵盖多个学科和主题领域的综合性知识,但相应的缺陷是图谱精度较低。而领域知识图谱则是专注于特定领域或主题的结构化知识库(垂直领域数据库),相较前者,领域知识图谱一般由本领域的专家1构建,着眼于深度挖掘本领域内的关键信息,所以,图谱精度更高,可高效地辅助深度研究和决策支持。
区别于通用知识图谱,领域数据在精准度、专业性、时效性等方面有不同的要求,存在需要解决的特定问题[2]。以人文社科研究领域知识图谱构建为例,其特殊性在于:一是,数据基础方面需克服非结构性数据的挑战,正如上文所言大部分人文社科数据难以用结构化的方式表示,因此,在构建知识图谱时需要运用自然语言处理(NLP)等技术进行信息提取和基础库建设;二是,建模逻辑方面,基于人文社科知识主观性和复杂性因素考虑,依循单一维度的建模逻辑构建知识图谱并不能获得较好效果,需在实际中通过综合性策略和叠加参数的方式以全面反映知识架构;三是,跨学科表达方面,构建过程需综合考量不同学科的权重和学科间概念的统一,以实现大人文社科学科视域下的综合性表达;四是,单一决策和群体智慧(Collective Intelligence, CI)相统一方面,人文社科领域知识图谱的构建研究是计算机技术之于人文社科领域的深度融合性研究,主要表现在机器学习(Machine Learning)环节引入了“人”的意志(专家参与的机器学习),同时存在“CI 算法关注如何使群体智能涌现并超越个体智能,(但)缺乏进化个体智能的机制,因此,在没有重大扩展的情况下不能成为自我进化的人工通用智能(AGI)体”[3]的突出矛盾,因而其有效构建取决于领域专家在机器学习阶段的先验知识对于全领域的统摄性、覆盖性和准确性,只有达成个体与群体之间的统一,才能较好地提升图谱的实用性、专业性和准确性。
二、人文社科领域知识图谱构建技术路径
人文社科领域知识图谱构建遵循“体系构建—知识抽取—知识融合—知识获取”的基本技术路径。
知识图谱构建过程中,知识体系构建是第一步,也是构建知识图谱最关键的步骤,通常也被称为“Schema构建”环节。其中Schema是描述知识图谱结构和组织的元数据,它定义了知识图谱中实体、关系和属性的类型及其之间的关系,通常用SPO三元组2表示。在这一过程中,需利用统一的形式表示出数据实体上层知识体系的模式层数据,要求构建者具备一定的实体抽象能力和对全领域知识的整体把控,以最大限度还原现存知识间的已知语义关系。以大众熟知的海量中华民族神话叙事为例,以诸神话人物作为叙事核心,叙事中包含人物事迹、人物相貌、人物职业、人物出生地、人物关系、人物民族及所属物等诸多信息,将其抽象成简单的Schema结构,即如图1所示,据此即可完整呈现相应知识结构。
图1 基于中华民族神话人物叙事的知识图谱知识体系示意图
知识抽取(Knowledge Extraction)是指从文本中自动提取出结构化、有意义的信息和知识的过程,这一过程对于以非结构化和半结构化数据为主的人文社科领域具有重要意义。这一过程旨在将信息从大量文本中抽取出来,以便进一步存储、组织或分析,通常涉及实体、关系和属性的识别,以及对它们之间关联的挖掘,包含实体识别、关系抽取、事件抽取、属性抽取等几个关键步骤,其具体取舍由知识本身的结构为判断依据。
在这一复杂的任务中,研究者可以采用基于规则的传统方法或深度学习技术等多种方法。如,基于规则的方法利用预定义的规则和模式,通过匹配文本中的实体、关系或事件,实现信息的提取。此外,还有TF-IDF分析统计法,机器学习技术的监督学习或无监督学习过程,以及命名实体识别(NER)等多种方式。实际应用中,这些方法往往相互结合,形成综合性的知识提取系统。
知识融合又可称为实体消歧(Entity Disambiguation),是在知识颗粒度层面的多源异构数据处理过程,从而建立起更丰富的知识关系和语义连接,以形成全面、一致、有深度的知识表示。以人物属性这一实体为例,在不同民族、不同年代、不同文献中“伏羲”这一中华民族传统神话人物的名称,往往以异名、称谓、戏称、别名、谥号等多种样态存在,存在着包含“牺”“必羲”“宓羲”“庖牺”“包牺”“炮牺”“牺皇”“皇羲”等在内的数十种表示方式,大量歧义表达的实体属性对跨文本的知识融合带来了极大的困难,人们往往采用实体对齐和实体链接两种方式来实现相同知识的融合。
第一,强调相似度匹配的实体对齐方法。对于这种方法而言,实际上是对实体相似度分数进行计算,匹配相似实体,根据用户定义的规则,选择要匹配的实体属性。该方法更注重实体属性信息,不过若某一领域存在较多的属性类型,需要进行不同相似度函数的设计,人力耗费较大,会使工作量明显增加。第二,强调知识图谱嵌入的实体对齐方法。对于该方法而言,是将翻译模型作为基础,翻译模型较为简单且有效,其理论依据是空间向量体系中两个相互对齐的实体之间的距离最近。低纬特征空间中,利用映射的方式,嵌入实体与关系的语义信息,对两者语义相似性进行衡量。嵌入方法的理论基础为TransE模型,评分函数公式为:
公式中,h表示头实体,t表示尾实体,r表示关系向量。fr(h,t)通过L1或L2距离计算得分。
模型中将边际损失函数作为模型的最终训练目标,可更好地区分三元组,公式为:
公式中,L代表正三元组得分与负三元组得分的最大边界值,其中fr(h,t)为S,表示正三元组集,fr(h′,t′)为S′,表示负三元组集。
对于实体链接方法而言,主要是抽取出实体后,将其与知识图谱中存在的候选实体进行链接,同时将其添加至知识图谱中。实体链接方法主要有三种:第一,强调统计特征的方法。以往研究中,基本上均关注相似度特征,对余弦相似度进行计算,从而做出排序及选择。第二,强调深度学习的方法,这种方法是对样本数据内在规律以及不同层次特征进行学习,一些学者通过这种方法增强实体链接任务效果,可表示出实体间的语义特征,无需通过人工的方式进行特征构造,可通过神经网络算法训练文本标准序列。第三,强调知识图谱的实体链接方法。该方法更加重视从图的结构中得到上下文信息,图的节点为所有实体指称的候选实体,指称间的联系为边的权重,在此基础上进行图模型构建,随后通过相应算法,选出最可能的一组候选实体组合。
所谓知识获取,是针对不同数据源中的数据,开展知识获取操作,选出知识图谱中需要的知识数据,并向知识图谱中存入的过程,对于通用知识图谱,可将百科数据作为数据源。由上文可知,依据数据结构角度可将数据源分为结构化、半结构化和非结构化三种情况,数据源不同时,应用的处理方法也存在较大差异[4]。以上三种数据源中,非结构化数据表示的是文本数据,通常占有量较大,在处理上更加复杂,要求对文本加以处理,处理环节可应用实体识别关系抽取、关键词提取等方法,在知识获取准确率上相对较低;结构化数据表示的表格数据获得数据库等,通常为存在先验经验的关系数据,这种数据更加可靠,不过数量较少,只存在于行业内部;对于半结构化数据而言,表示的是结构化数据中不存在固定格式的数据,这种数据无法利用结构化方法获得,如百科类数据,具有结构性特征,不过不仅包含表格化结构数据,还存在众多无结构化文本数据,非结构化数据可信度较高,相比于结构化数据拥有更大的数据规模,但其中存在的文本无法利用简单的方法进行知识抽取,也无法通过模板抽取等方法直接获得[5]。现阶段,主要是以三元组的形式表示实体知识,可将知识图谱的关键内容表示出来。
三、知识图谱技术与人文社科领域融合路径——以影视文化领域为例
为了深入探究知识图谱技术在人文社科领域的融合路径,需要从具体的领域案例出发,以阐述知识图谱技术的实际应用价值与影响。本文以影视文化作为案例,给出基于互联网信息的具体构建路径和方法论阐释。影视文化作为一种以电影、电视、网络为传播媒介的文化事象,是当代最有力的宣传手段之一。随着文化全球化进程的加快和数字技术的发展,影视文化在内容生产、传播、发展等环节都日益步入信息化爆炸的阶段。海量的无序信息对本领域研究者提出了大数据时代的严峻考验。在此背景下,引入以知识自动挖掘和体系化建构为特征的知识图谱技术,可高效辅助研究者收集、整合和分析本领域的大量数据,并为其提供潜在关联发现、规律趋势测定、要素关系全貌展示等诸多功能,这无疑对于影视文化研究具有重要创见性意义。下面将就具体路径进行简要分析。
本文首先确定影视文化数据的来源。基于调研发现,影视文化领域的数据资源多存在于海量的网站平台中,分为存量数据和实时数据,如央视网、豆瓣网、时光网等,从这些网站中获取信息较为便利且数据更新较快。因此,研究从这些网站中爬取相应数据,基于Scrapy框架,构建出自动爬虫模型,爬虫框架图具体包括以下模块:第一,请求调度模块。其主要的作用是对爬取链接请求进行接收。第二,爬虫模块。该模块主要是对所有回复进行处理,同时将需要爬取的请求链接提取出来。第三,下载模块。其主要的功能是对爬取内容进行下载。第四,数据处理模块。该模块主要是对爬虫中获得的数据进行处理,同时处理相应请求。主要工作流程为:引擎获得爬虫模块发来的发送请求,并传递给调度器,调度模块再接受发送来的请求,向下载器进行传递。下载模块从互联网中进行相应数据的下载与获取,数据经过过滤后返回给引擎,最终将其传递给爬虫模块。该模块需要提取出所需数据,向数据处理模块进行传递,经过实际处理,使数据变为可用形式。
通常情况下,从互联网中爬取到的数据并无规律,较为杂乱,若需要从中快速获得体系化的知识信息,则需将这些知识储存于知识图谱中。这些知识在知识图谱中会以三元组的形式存在,所以应实施抽取操作,抽取出想要的三元组。选择不同的方式对不同形式的数据进行处理,并将这些数据转化为知识。在结构化数据上,可通过D2R技术,使其转变为RDF格式。在非结构化数据上,较多为文本类型数据[5]。影视文化领域中,可将数据信息分为机构、影人及影片三个层次,获得相应实体集,随后注重这些层次的关系抽取,最终获得三元组知识。关系抽取过程为:通过依存句法分析的方式获得三元组。使用句子分析的方式主要是由于句子中的实体在依存结构中是短语结构,能够将实体间的关系反映出来,表1为句法搭配关系。对于依存句法字典而言,实际上是拆分句子结构,对词语间的依赖关系与搭配关系进行描述,随后开展分词处理工作,同时按照字典标注的句法搭配关系,将完整的三元组抽取出来。
表1 句法搭配关系
(三)影视文化知识融合
在影视文化知识融合上,主要划分为两个子任务,一是实体对齐,二是实体连接。两个任务均具有较强的独立性,能够从两个角度处理抽取获得的影视文化知识,保证知识图谱质量,为了科学开展影视文化知识融合工作,应构建知识融合系统,为知识图谱构建提供技术支持。
知识融合系统为B/S 架构结构,使用人员可在浏览器中访问网页,通过点击操作向服务器发送相应请求;服务器收到请求后,会对数据库采取对应操作;完成操作后,数据库会向服务器端返回操作结果,接收到结果后,服务器会将其返回给用户。应用层中主要包含两个模块,一是实体对齐模块,二是实体链接模块,能够通过可视化的形式将图谱功能展示出来。用户使用环节,用户应在权限允许范围内使用某些功能,无法使用受限权限。展示层主要是对系统功能页面进行展示,实现实体对齐与实体链接。
第一,用户登录模块。人员初次登录系统时,需要注册账户,完成账户注册后才可登录。并且登录环节会对用户登录信息进行验证。用户输入正确的用户名与密码后,才能登录到系统中[7]。第二,实体对齐模块。实体对齐模块是用户上传的Json格式图谱文件,系统调用后台算法,并进行对齐阀值参数设置,通过Json文件的形式,返回对齐后的结果,同时提供下载结果。第三,实体链接模块。通常情况下,抽取影视文化相关实体后,会存在歧义问题,此时应进行消歧处理,实际处理环节需要三个模块共同完成,分别是实体标记模块、排序模块及候选实体生成模块,这样能够获得良好的消歧效果。
领域知识图谱实际构建环节一般会从两种关系入手,一种是隐式关系,另一种是显式关系,显式关系可从原始数据中提取,而隐式关系需要对已有数据进行复杂的计算才可获得,这种关系可显示出实体间存在的更深层次的动态。构建流程为:影片实体层面单层知识图谱构建;影人实体层面单层次知识图谱;机构实体层面单层次知识图谱;面向影视文化领域的多层次知识图谱。构建好多层次影视文化知识图谱后,需要对加入知识图谱的领域实体正确性进行判断,实施质量评估[8]。确保构建的知识图谱具备较强的准确性,才能发挥出知识图谱技术的作用。相比于单层次知识图谱,多层次影视文化知识图谱在结构上更加复杂,且能够储存更多的实体数量,在实体关系上也更加复杂。所以,结合图谱特性可利用Proj E模型进行验证,这种模型属于共享变量的神经网络模型,且参数规模较小,与其他模型相比拥有更高的应用优势。该模型应用环节,可组合知识图谱中的实体与关系,从而完成从实体到关系的表示。此外,该模型能够在打分函数的应用下对实体打分,选出得分最高的实体,将其作为准确实体,若经过多次链接预测就能获得准确的实体,则说明构建的知识图谱拥有较高的准确度。
四、结语
通过应用知识图谱技术,我们可以系统地分析人文社科领域各专业的研究热点和发展趋势。这种分析不仅使研究更加深入,还能为研究提供指导性建议,帮助研究者精确掌握后续研究方向和创新的可能性。因此,深入探讨如何有效地融合知识图谱技术至人文社科研究中变得尤为重要,这不仅能够揭示该技术在新领域的潜在价值,也能促进其更广泛地应用和发展。
【参考文献】
[1] 吴国栋,刘涵伟,何章伟,等.知识图谱补全技术研究综述[J].小型微型计算机系统,2023,44(3):471-482.
[2] 周园春,王卫军,乔子越,等.科技大数据知识图谱构建方法及应用研究综述[J].中国科学(信息科学),2020,50(7):957-987.
[3] 戚骁亚,刘创,富宸,等.群智进化理论及其在智能机器人中的应用[J].中国工程科学,2018,20(4):101-111.
[4] 刘竟,王萌,刘桂锋,等.数字人文视角下红色文化资源知识图谱构建研究[J].图书馆杂志,2023,42(7):102-109+125.
[5] 卢珊,吴耀武.知识图谱分析法在人文社科研究中的应用——以商务英语课程研究为例[J].中国高校科技,2018(12):54-56.
[6] 覃谦.知识图谱在我国人文社科领域的研究进展分析[J].明日风尚,2017(2):103-103.
[7] 汤建民.情报计量学视野下的当代人文社科发展背景描绘——一个人文社科领域数据密集型科学发现的探索性案例[J].情报资料工作,2016(1):17-21.
[8] 冉从敬,刘琬.知识图谱在我国人文社科领域的研究进展[J].信息资源管理学报,2014,4(1):4-13.
【注释】
1“专家”通常指的是特定领域的专业人士或领域内的权威机构,他们在相关领域具有深厚的学术或实践经验。这些专家可能包括学者、研究人员、行业从业者或其他在该领域内具有专业知识的个体或组织。(作者注)
2SPO三元组结构,即采用主体(Subject)、谓词(Predicate)、客体(Object)的结构描述实体之间的关系,在语义网络和图数据库中,这种结构被广泛用于描述实体之间的关系,如“Albert Einstein(subject) published(predicate) the theory of relativity(object).”可表示为“<Albert Einstein,published,theory of relativity>”。
原载:《文化学刊》2024年第4期
地址:北京市东城区建国门内大街5号邮编:100732
电话:(010)85195506 传真:(010)65137826 E-mail:philosophy@cass.org.cn
【摘要】知识图谱作为新知识工程的核心内容,对于推动人工智能概念在各领域的迁移应用具有重要意义,成为跨学科发展的关键理论和重要手段。本文对领域知识图谱视域下的人文社会科学及其相关数据概念进行了辨析,通过对知识融合通用型关键技术的分析,提出了面向人文社会科学研究的知识图谱构建方法,随后以影视文化领域知识图谱的构建路径为例,尝试给出了知识图谱技术与代表性人文社科领域可能的融合路径,为学科交叉和理论创新提供了一种新思路和新研究范式。
【关键词】人文社科;知识图谱技术;融合路径;
人文社会科学(以下简称“人文社科”),一般指以政治、经济、文化等涉及人类思想相关知识为研究对象的学科,是人文科学与社会科学的总称,具有鲜明的人文特质与社会品性,与自然科学相比呈现出更为复杂的属性。本领域研究过程中,无法通过量化和应用数学模型来实现更深程度的探究,一定程度上限制了研究方法的多样性。随着数字技术和人工智能时代的到来,学术界对人文社会科学研究方法的关注日益增加。近年来,学者们开始更加注重创新与跨学科的结合,其中,面向人文社科领域的知识图谱构建与应用便是典型代表。然而,基于本领域研究对象和涉及问题的复杂性,如何实现知识图谱技术与人文社科领域的有效融合,成为学术界亟待解决的关键问题。本研究即尝试对上述理论在实践层面的应用进行探索,以期为推动学科内外部要素交叉与创新提供理论依据和实践参考。
一、面向人文领域知识图谱的几个关键概念
人文社会科学研究涉及两个主要领域:人文科学和社会科学。人文科学聚焦于人类的精神生活和文化,通常采用解释学和意义分析等方法,以深入探讨个体的价值、情感、思想和观念,覆盖文学、历史、哲学、美学、文化学和艺术学等领域。社会科学则普遍关注社会结构和功能,借助实证研究方法,分析社会学、法学、经济学等领域的宏观社会现象。尽管理论上人文科学与社会科学有所区别,但实际上“人”与“社会”紧密相连、不可分割。社会现象深受个体特征的影响,而人文研究亦不可避免地涉及社会维度。因此,本研究旨在对人文社会科学的广泛内容进行概述,而不对其进行特定分类或区分。
人文社科研究领域所涉及的数据类型非常复杂,涉及分类标准不一,本研究仅从数据来源和数据结构两方面加以定义和区分。
依循此视角,人文社科研究所涉及的数据可以划分为直接数据和间接数据,其中前者是指研究者通过访谈、直接观察、间接观察等方式首次亲自收集并经过加工处理的数据,后者指来源于他人调查和科学实验的数据。丰富的数据来源反映出人文社会学科数据所蕴藏的巨大价值,也为后续数据标准的统一和规模化利用增添了现实难度。
从广义的科研活动所涉及数据类型来看,可以划分为结构化数据、非结构化数据和半结构化数据三类。其中,结构化数据指关系模型数据,如仪器直接生成的观测数据或数据库平台数据等,其特征为严格标准化,可用二维表结构逻辑进行表达;非结构化数据指具有不规则或不完整结构的数据,没有预定义的数据模型,常见的有书籍、文本及各种格式的图片、视频等;半结构化数据则指非关系模型的、有基本固定结构模式的数据,如自描述的日志文件、XML文档等,其特征是数据的结构和内容混杂。通常,人文社科领域数据以半结构化数据和非结构化数据为主,即单条数据所包含的信息量庞大、结构性较弱、元数据不固定,致使研究人员无法对其进行直接分析和利用,需在此之前进行标准化统一和知识结构化处理,这是其区别于自然科学数据的最大特征,也是后文所及“知识抽取”和“知识融合”两个关键流程的先决基础。
知识图谱(Knowledge Graph),又称知识阈可视化或领域映射地图,是一种将图形学、应用数学等学科理论方法与计量学相应方法结合的交叉学科理论,其基本应用逻辑是通过可视化图形将学科前沿领域、发展历史、核心结构等以结构化知识的方式呈现,实现本领域知识的体系化、结构化[1]。从图谱应用规模角度可将知识图谱分为通用知识图谱和领域知识图谱,其中,通用知识图谱是一种包含广泛领域信息的结构化知识库,涵盖多个学科和主题领域的综合性知识,但相应的缺陷是图谱精度较低。而领域知识图谱则是专注于特定领域或主题的结构化知识库(垂直领域数据库),相较前者,领域知识图谱一般由本领域的专家1构建,着眼于深度挖掘本领域内的关键信息,所以,图谱精度更高,可高效地辅助深度研究和决策支持。
区别于通用知识图谱,领域数据在精准度、专业性、时效性等方面有不同的要求,存在需要解决的特定问题[2]。以人文社科研究领域知识图谱构建为例,其特殊性在于:一是,数据基础方面需克服非结构性数据的挑战,正如上文所言大部分人文社科数据难以用结构化的方式表示,因此,在构建知识图谱时需要运用自然语言处理(NLP)等技术进行信息提取和基础库建设;二是,建模逻辑方面,基于人文社科知识主观性和复杂性因素考虑,依循单一维度的建模逻辑构建知识图谱并不能获得较好效果,需在实际中通过综合性策略和叠加参数的方式以全面反映知识架构;三是,跨学科表达方面,构建过程需综合考量不同学科的权重和学科间概念的统一,以实现大人文社科学科视域下的综合性表达;四是,单一决策和群体智慧(Collective Intelligence, CI)相统一方面,人文社科领域知识图谱的构建研究是计算机技术之于人文社科领域的深度融合性研究,主要表现在机器学习(Machine Learning)环节引入了“人”的意志(专家参与的机器学习),同时存在“CI 算法关注如何使群体智能涌现并超越个体智能,(但)缺乏进化个体智能的机制,因此,在没有重大扩展的情况下不能成为自我进化的人工通用智能(AGI)体”[3]的突出矛盾,因而其有效构建取决于领域专家在机器学习阶段的先验知识对于全领域的统摄性、覆盖性和准确性,只有达成个体与群体之间的统一,才能较好地提升图谱的实用性、专业性和准确性。
二、人文社科领域知识图谱构建技术路径
人文社科领域知识图谱构建遵循“体系构建—知识抽取—知识融合—知识获取”的基本技术路径。
知识图谱构建过程中,知识体系构建是第一步,也是构建知识图谱最关键的步骤,通常也被称为“Schema构建”环节。其中Schema是描述知识图谱结构和组织的元数据,它定义了知识图谱中实体、关系和属性的类型及其之间的关系,通常用SPO三元组2表示。在这一过程中,需利用统一的形式表示出数据实体上层知识体系的模式层数据,要求构建者具备一定的实体抽象能力和对全领域知识的整体把控,以最大限度还原现存知识间的已知语义关系。以大众熟知的海量中华民族神话叙事为例,以诸神话人物作为叙事核心,叙事中包含人物事迹、人物相貌、人物职业、人物出生地、人物关系、人物民族及所属物等诸多信息,将其抽象成简单的Schema结构,即如图1所示,据此即可完整呈现相应知识结构。
图1 基于中华民族神话人物叙事的知识图谱知识体系示意图
知识抽取(Knowledge Extraction)是指从文本中自动提取出结构化、有意义的信息和知识的过程,这一过程对于以非结构化和半结构化数据为主的人文社科领域具有重要意义。这一过程旨在将信息从大量文本中抽取出来,以便进一步存储、组织或分析,通常涉及实体、关系和属性的识别,以及对它们之间关联的挖掘,包含实体识别、关系抽取、事件抽取、属性抽取等几个关键步骤,其具体取舍由知识本身的结构为判断依据。
在这一复杂的任务中,研究者可以采用基于规则的传统方法或深度学习技术等多种方法。如,基于规则的方法利用预定义的规则和模式,通过匹配文本中的实体、关系或事件,实现信息的提取。此外,还有TF-IDF分析统计法,机器学习技术的监督学习或无监督学习过程,以及命名实体识别(NER)等多种方式。实际应用中,这些方法往往相互结合,形成综合性的知识提取系统。
知识融合又可称为实体消歧(Entity Disambiguation),是在知识颗粒度层面的多源异构数据处理过程,从而建立起更丰富的知识关系和语义连接,以形成全面、一致、有深度的知识表示。以人物属性这一实体为例,在不同民族、不同年代、不同文献中“伏羲”这一中华民族传统神话人物的名称,往往以异名、称谓、戏称、别名、谥号等多种样态存在,存在着包含“牺”“必羲”“宓羲”“庖牺”“包牺”“炮牺”“牺皇”“皇羲”等在内的数十种表示方式,大量歧义表达的实体属性对跨文本的知识融合带来了极大的困难,人们往往采用实体对齐和实体链接两种方式来实现相同知识的融合。
第一,强调相似度匹配的实体对齐方法。对于这种方法而言,实际上是对实体相似度分数进行计算,匹配相似实体,根据用户定义的规则,选择要匹配的实体属性。该方法更注重实体属性信息,不过若某一领域存在较多的属性类型,需要进行不同相似度函数的设计,人力耗费较大,会使工作量明显增加。第二,强调知识图谱嵌入的实体对齐方法。对于该方法而言,是将翻译模型作为基础,翻译模型较为简单且有效,其理论依据是空间向量体系中两个相互对齐的实体之间的距离最近。低纬特征空间中,利用映射的方式,嵌入实体与关系的语义信息,对两者语义相似性进行衡量。嵌入方法的理论基础为TransE模型,评分函数公式为:
公式中,h表示头实体,t表示尾实体,r表示关系向量。fr(h,t)通过L1或L2距离计算得分。
模型中将边际损失函数作为模型的最终训练目标,可更好地区分三元组,公式为:
公式中,L代表正三元组得分与负三元组得分的最大边界值,其中fr(h,t)为S,表示正三元组集,fr(h′,t′)为S′,表示负三元组集。
对于实体链接方法而言,主要是抽取出实体后,将其与知识图谱中存在的候选实体进行链接,同时将其添加至知识图谱中。实体链接方法主要有三种:第一,强调统计特征的方法。以往研究中,基本上均关注相似度特征,对余弦相似度进行计算,从而做出排序及选择。第二,强调深度学习的方法,这种方法是对样本数据内在规律以及不同层次特征进行学习,一些学者通过这种方法增强实体链接任务效果,可表示出实体间的语义特征,无需通过人工的方式进行特征构造,可通过神经网络算法训练文本标准序列。第三,强调知识图谱的实体链接方法。该方法更加重视从图的结构中得到上下文信息,图的节点为所有实体指称的候选实体,指称间的联系为边的权重,在此基础上进行图模型构建,随后通过相应算法,选出最可能的一组候选实体组合。
所谓知识获取,是针对不同数据源中的数据,开展知识获取操作,选出知识图谱中需要的知识数据,并向知识图谱中存入的过程,对于通用知识图谱,可将百科数据作为数据源。由上文可知,依据数据结构角度可将数据源分为结构化、半结构化和非结构化三种情况,数据源不同时,应用的处理方法也存在较大差异[4]。以上三种数据源中,非结构化数据表示的是文本数据,通常占有量较大,在处理上更加复杂,要求对文本加以处理,处理环节可应用实体识别关系抽取、关键词提取等方法,在知识获取准确率上相对较低;结构化数据表示的表格数据获得数据库等,通常为存在先验经验的关系数据,这种数据更加可靠,不过数量较少,只存在于行业内部;对于半结构化数据而言,表示的是结构化数据中不存在固定格式的数据,这种数据无法利用结构化方法获得,如百科类数据,具有结构性特征,不过不仅包含表格化结构数据,还存在众多无结构化文本数据,非结构化数据可信度较高,相比于结构化数据拥有更大的数据规模,但其中存在的文本无法利用简单的方法进行知识抽取,也无法通过模板抽取等方法直接获得[5]。现阶段,主要是以三元组的形式表示实体知识,可将知识图谱的关键内容表示出来。
三、知识图谱技术与人文社科领域融合路径——以影视文化领域为例
为了深入探究知识图谱技术在人文社科领域的融合路径,需要从具体的领域案例出发,以阐述知识图谱技术的实际应用价值与影响。本文以影视文化作为案例,给出基于互联网信息的具体构建路径和方法论阐释。影视文化作为一种以电影、电视、网络为传播媒介的文化事象,是当代最有力的宣传手段之一。随着文化全球化进程的加快和数字技术的发展,影视文化在内容生产、传播、发展等环节都日益步入信息化爆炸的阶段。海量的无序信息对本领域研究者提出了大数据时代的严峻考验。在此背景下,引入以知识自动挖掘和体系化建构为特征的知识图谱技术,可高效辅助研究者收集、整合和分析本领域的大量数据,并为其提供潜在关联发现、规律趋势测定、要素关系全貌展示等诸多功能,这无疑对于影视文化研究具有重要创见性意义。下面将就具体路径进行简要分析。
本文首先确定影视文化数据的来源。基于调研发现,影视文化领域的数据资源多存在于海量的网站平台中,分为存量数据和实时数据,如央视网、豆瓣网、时光网等,从这些网站中获取信息较为便利且数据更新较快。因此,研究从这些网站中爬取相应数据,基于Scrapy框架,构建出自动爬虫模型,爬虫框架图具体包括以下模块:第一,请求调度模块。其主要的作用是对爬取链接请求进行接收。第二,爬虫模块。该模块主要是对所有回复进行处理,同时将需要爬取的请求链接提取出来。第三,下载模块。其主要的功能是对爬取内容进行下载。第四,数据处理模块。该模块主要是对爬虫中获得的数据进行处理,同时处理相应请求。主要工作流程为:引擎获得爬虫模块发来的发送请求,并传递给调度器,调度模块再接受发送来的请求,向下载器进行传递。下载模块从互联网中进行相应数据的下载与获取,数据经过过滤后返回给引擎,最终将其传递给爬虫模块。该模块需要提取出所需数据,向数据处理模块进行传递,经过实际处理,使数据变为可用形式。
通常情况下,从互联网中爬取到的数据并无规律,较为杂乱,若需要从中快速获得体系化的知识信息,则需将这些知识储存于知识图谱中。这些知识在知识图谱中会以三元组的形式存在,所以应实施抽取操作,抽取出想要的三元组。选择不同的方式对不同形式的数据进行处理,并将这些数据转化为知识。在结构化数据上,可通过D2R技术,使其转变为RDF格式。在非结构化数据上,较多为文本类型数据[5]。影视文化领域中,可将数据信息分为机构、影人及影片三个层次,获得相应实体集,随后注重这些层次的关系抽取,最终获得三元组知识。关系抽取过程为:通过依存句法分析的方式获得三元组。使用句子分析的方式主要是由于句子中的实体在依存结构中是短语结构,能够将实体间的关系反映出来,表1为句法搭配关系。对于依存句法字典而言,实际上是拆分句子结构,对词语间的依赖关系与搭配关系进行描述,随后开展分词处理工作,同时按照字典标注的句法搭配关系,将完整的三元组抽取出来。
表1 句法搭配关系
(三)影视文化知识融合
在影视文化知识融合上,主要划分为两个子任务,一是实体对齐,二是实体连接。两个任务均具有较强的独立性,能够从两个角度处理抽取获得的影视文化知识,保证知识图谱质量,为了科学开展影视文化知识融合工作,应构建知识融合系统,为知识图谱构建提供技术支持。
知识融合系统为B/S 架构结构,使用人员可在浏览器中访问网页,通过点击操作向服务器发送相应请求;服务器收到请求后,会对数据库采取对应操作;完成操作后,数据库会向服务器端返回操作结果,接收到结果后,服务器会将其返回给用户。应用层中主要包含两个模块,一是实体对齐模块,二是实体链接模块,能够通过可视化的形式将图谱功能展示出来。用户使用环节,用户应在权限允许范围内使用某些功能,无法使用受限权限。展示层主要是对系统功能页面进行展示,实现实体对齐与实体链接。
第一,用户登录模块。人员初次登录系统时,需要注册账户,完成账户注册后才可登录。并且登录环节会对用户登录信息进行验证。用户输入正确的用户名与密码后,才能登录到系统中[7]。第二,实体对齐模块。实体对齐模块是用户上传的Json格式图谱文件,系统调用后台算法,并进行对齐阀值参数设置,通过Json文件的形式,返回对齐后的结果,同时提供下载结果。第三,实体链接模块。通常情况下,抽取影视文化相关实体后,会存在歧义问题,此时应进行消歧处理,实际处理环节需要三个模块共同完成,分别是实体标记模块、排序模块及候选实体生成模块,这样能够获得良好的消歧效果。
领域知识图谱实际构建环节一般会从两种关系入手,一种是隐式关系,另一种是显式关系,显式关系可从原始数据中提取,而隐式关系需要对已有数据进行复杂的计算才可获得,这种关系可显示出实体间存在的更深层次的动态。构建流程为:影片实体层面单层知识图谱构建;影人实体层面单层次知识图谱;机构实体层面单层次知识图谱;面向影视文化领域的多层次知识图谱。构建好多层次影视文化知识图谱后,需要对加入知识图谱的领域实体正确性进行判断,实施质量评估[8]。确保构建的知识图谱具备较强的准确性,才能发挥出知识图谱技术的作用。相比于单层次知识图谱,多层次影视文化知识图谱在结构上更加复杂,且能够储存更多的实体数量,在实体关系上也更加复杂。所以,结合图谱特性可利用Proj E模型进行验证,这种模型属于共享变量的神经网络模型,且参数规模较小,与其他模型相比拥有更高的应用优势。该模型应用环节,可组合知识图谱中的实体与关系,从而完成从实体到关系的表示。此外,该模型能够在打分函数的应用下对实体打分,选出得分最高的实体,将其作为准确实体,若经过多次链接预测就能获得准确的实体,则说明构建的知识图谱拥有较高的准确度。
四、结语
通过应用知识图谱技术,我们可以系统地分析人文社科领域各专业的研究热点和发展趋势。这种分析不仅使研究更加深入,还能为研究提供指导性建议,帮助研究者精确掌握后续研究方向和创新的可能性。因此,深入探讨如何有效地融合知识图谱技术至人文社科研究中变得尤为重要,这不仅能够揭示该技术在新领域的潜在价值,也能促进其更广泛地应用和发展。
【参考文献】
[1] 吴国栋,刘涵伟,何章伟,等.知识图谱补全技术研究综述[J].小型微型计算机系统,2023,44(3):471-482.
[2] 周园春,王卫军,乔子越,等.科技大数据知识图谱构建方法及应用研究综述[J].中国科学(信息科学),2020,50(7):957-987.
[3] 戚骁亚,刘创,富宸,等.群智进化理论及其在智能机器人中的应用[J].中国工程科学,2018,20(4):101-111.
[4] 刘竟,王萌,刘桂锋,等.数字人文视角下红色文化资源知识图谱构建研究[J].图书馆杂志,2023,42(7):102-109+125.
[5] 卢珊,吴耀武.知识图谱分析法在人文社科研究中的应用——以商务英语课程研究为例[J].中国高校科技,2018(12):54-56.
[6] 覃谦.知识图谱在我国人文社科领域的研究进展分析[J].明日风尚,2017(2):103-103.
[7] 汤建民.情报计量学视野下的当代人文社科发展背景描绘——一个人文社科领域数据密集型科学发现的探索性案例[J].情报资料工作,2016(1):17-21.
[8] 冉从敬,刘琬.知识图谱在我国人文社科领域的研究进展[J].信息资源管理学报,2014,4(1):4-13.
【注释】
1“专家”通常指的是特定领域的专业人士或领域内的权威机构,他们在相关领域具有深厚的学术或实践经验。这些专家可能包括学者、研究人员、行业从业者或其他在该领域内具有专业知识的个体或组织。(作者注)
2SPO三元组结构,即采用主体(Subject)、谓词(Predicate)、客体(Object)的结构描述实体之间的关系,在语义网络和图数据库中,这种结构被广泛用于描述实体之间的关系,如“Albert Einstein(subject) published(predicate) the theory of relativity(object).”可表示为“<Albert Einstein,published,theory of relativity>”。
原载:《文化学刊》2024年第4期
-版权所有