当前位置:首页 > 专题范文 > 公文范文 >

细粒度苹果病虫害知识图谱构建研究

时间:2023-06-14 20:50:05 来源:网友投稿

张嘉宇,郭 玫,张永亮,李 梅,耿 楠,2,3,耿耀君

1.西北农林科技大学 信息工程学院,陕西 杨凌 712100

2.西北农林科技大学 农业农村部农业物联网重点实验室,陕西 杨凌 712100

3.西北农林科技大学 陕西省农业信息感知与智能服务重点实验室,陕西 杨凌 712100

苹果是我国重要的经济作物,但是时常发生的病虫害却限制着我国苹果产业的发展。而面对病虫害问题时,由于基层苹果种植从业人员缺乏专业知识,往往需要查阅专业书籍或通过搜索引擎来寻找相应的防治方法。搜索到的信息不仅存在碎片化问题还缺乏关联性,易耽误病虫害防治最佳时间,使灾情更加严重。且我国目前农业人口老龄化现象严重,劳动力严重缺乏,自动化机器人等智能设备取代人类从事病虫害防治工作已经成为了未来苹果种植业发展的必然趋势,如何使得智能设备在人类先验知识的指导下完成相关工作也是一个亟需解决的问题。因此,构建细粒度苹果病虫害知识图谱旨在将原本分散的数据进行整合,并实现数据之间的连通,形成一种具有细粒度知识组织结构的知识系统,便于对果农和智能工具提供专业指导。

知识图谱(knowledge graph,KG)一般以三元组(实体1,关系,实体2)作为基本元素来描述物理世界中的概念及其相互关系,这些三元组相互联结,构成了一种揭示实体之间关系的语义网络[1]。从覆盖范围来看,知识图谱可以分为通用知识图谱和行业知识图谱[2]。其中,行业知识图谱由于其准确度高的特性已被广泛应用于医学[3-4]、经济[5-6]、电力[7-8]等领域之中。近年来,农业领域知识图谱的构建也逐渐引起了研究者们的关注。吴茜[9]根据实体类别分别构建了三个子领域知识图谱,并将子领域知识图谱合并构成了农业领域知识图谱;
徐帅博等[10]使用ALBERT-BiLSTM-CRF模型进行命名实体识别,以规则匹配的方式构成三元组关系,并搭建了枸杞病虫害知识图谱;
井福荣[11]使用Protégé(https://protege.stanford.edu/)工具构建了本体库,并在该本体库的指导下搭建作物种质资源知识图谱;
汪敏[12]使用CiteSpace将收集到的茶树病虫害数据以图谱的形式呈现,直观反映出了我国茶树病虫害防治的研究趋势;
吴赛赛[13]使用ME+R+BIESO标注法对实体和关系进行同步标注,大大减少了语料标注成本,以联合抽取的方式完成知识抽取任务,并构建了作物病虫害知识图谱;
陈亚东等[14]将知识图谱的构建过程划分4个层级,并从8类数据源中抽取知识,形成了苹果产业知识图谱。

通过对上述研究现状的分析,当前农业领域知识图谱研究对本体定义的粒度较为粗糙,导致所包含的知识结构不够全面,难以直接在现实场景中应用。例如,文献[10]仅定义了“病害名”“症状”和“农药”三种实体类型以及相对应的四种实体关系,缺乏大量病虫害自身属性信息以及防治知识;
文献[13]中虽然划分出了精细的实体类型,但是在关系种类的定义上却存在一定缺陷,尤其是只定义了单一的“防治农药”关系,而忽略了“喷洒”“涂抹”“浸泡”等具体防治措施,难以对相关智能设备进行准确指导。综上所述,细粒度知识图谱构建研究对现代化农业生产工作而言具有较大的理论意义和应用前景。

针对上述问题,本文以苹果病虫知识图谱构建为例,提出了一种细粒度苹果病虫害知识图谱构建方法。该方法采用自顶向下和自底向上相结合的方法构建知识图谱。首先在模式层对本体进行了细粒度定义,通过构建更加精细的知识组织结构以保证图谱可以应用于现实场景。然后以知识图谱构建过程中不可或缺的两个核心环节:命名实体识别和关系抽取作为研究重点,使用符合苹果病虫害语料特点的深度学习模型抽取知识单元,避免过多的人工干预。最后将抽取出的三元组存入Neo4j数据库实现图谱的可视化,为精准病虫害信息查询,智能辅助诊断等后续工作奠定基础。主要贡献可以归纳如下:

(1)构建了细粒度苹果病虫害领域本体库。相较于其他农业领域知识图谱的本体库,该本体库更加详细和精确,共包含19种实体类型和22种关系种类。

(2)标注了由苹果病虫害命名实体识别数据集和关系抽取数据集共同组成的知识图谱数据集AppleKG,为苹果病虫害领域深度学习模型的训练及相关实验提供了数据基础。

(3)提出了一种符合苹果病虫害语料特征的知识抽取方法。首先使用APD-CA模型进行命名实体识别,既避免了分词错误带来的影响,还在识别过程中引入了大量实体边界信息及相似词汇信息;
然后使用ED-ARE模型充分利用语料上下文信息对实体间关系进行抽取。

知识图谱的构建方式主要可以分为自顶向下法和自底向上法[2]。由于本文旨在构建细粒度知识图谱,且苹果病虫害语料中实体与关系的构成较为繁杂,因此采用自顶向下与自底向上相结合的方法构建苹果病虫害知识图谱。首先通过对苹果病虫害语料的初步分析,构建知识图谱的模式层;
然后自顶向下进行知识抽取,在构建数据层的过程中自底向上对模式层进行补充和改进。具体的知识图谱构建过程如图1所示。

图1 知识图谱构建框架图Fig.1 Knowledge graph construction framework

其中,模式层中的主要任务是构建苹果病虫害领域本体库,并以此确定实体类型和关系种类。而数据层的构建过程通常包含知识抽取、知识融合和知识更新三个步骤。但是由于苹果病虫害语料的领域性较强,语义上存在歧义的可能性较小,并且苹果病虫害领域的知识迭代更新速度较慢,长期都难以出现新的病害虫害以及防治药物。因此在苹果病虫害知识图谱构建过程中,对知识融合与知识更新两部分的需求不高。本文将知识抽取作为数据层研究重点,着重研究命名实体识别和关系抽取两部分内容。

1.1 模式层构建

模式层是知识图谱的核心,其中存储的是从事实中抽象出的概念模型。通常使用本体库对模式层中的概念,关系及属性进行规范和描述。本文参照其他领域知识图谱[15-18]的本体库,并在西北农林科技大学植保专家的指导下,确立了苹果病虫害领域中的概念类型及其之间的关系,最终提炼出了该领域的本体库。

如图2所示,首先预定义了4个父类概念,分别为苹果相关信息、苹果虫害、苹果病害、防治方法。之后在构建数据层过程中对模式层进行完善和更新,对每一个概念进行了进一步的划分。其中,苹果相关信息根据苹果自身的特性继续划分;
苹果病害和苹果虫害根据病虫害侵害苹果树的部位,以及自身属性进行分类;
而防治方法则根据方法的表现形式以及防治中所用到的工具细化分类。最后,将细化后的概念作为实体类别。确定实体类别之后,对各实体类之间的关系进行精细定义,具体的关系如表1所示。在最终构建的模式层中共包含19种实体类别和22种实体关系。

表1 关系类别详细信息Table 1 Details of relation types

图2 概念类型划分Fig.2 Classification of concept

1.2 数据集构建

近年来,随着苹果病虫害防治经验上的不断积累和技术上的不断改良与发展,现代的苹果病虫害防治领域已经逐渐形成了部分专业的文本资料。本文以上述非结构化的文本资料作为主要研究对象,标注苹果病虫害领域相关数据集,分析该领域语料特点,为知识抽取模型构建研究确定研究方向,同时也为后续实验奠定数据基础。

1.2.1 原始语料采集

大部分知识图谱构建时常通过网络爬虫技术爬取网页信息作为知识来源,但是网页之间的专业程度良莠不齐,还可能包含部分错误知识,一定程度上会影响模型训练以及知识图谱的质量。因此为了提升数据质量,本文以专业文献作为原始语料库并从中抽取知识单元。首先在西北农林科技大学植保专家的指导下,从西北农林科技大学图书馆的馆藏文献中筛选出七本业内较为权威的苹果病虫害防治相关专业文献,具体文献信息如表2所示。之后从中抽取文本信息,并对其进行去重,数据格式转换等预处理操作。这些文献年代跨度较大,可以从中抽取不同时期的苹果病虫害防治知识,使知识图谱更加地全面。

表2 原始语料数据来源Table 2 Source of original corpus data

1.2.2 语料标注

获取原始语料库之后,本文对原始语料数据进行人工标注。历时两个月,最终完成了由命名实体识别数据集和关系抽取数据集共同组成的苹果病虫害知识图谱综合数据集AppleKG,该数据集的详细信息如表3所示。其中,命名实体识别数据集包含19种实体类型、5 574条样本和9 014个实体;
关系抽取数据集包含22种关系类别、11 703条样本和11 703条关系。在后续实验中,命名实体识别数据集按照8∶1∶1的比例,关系抽取数据集按照6∶2∶2的比例划分为训练集、验证集和测试集用于知识抽取模型的训练和实验。

表3 AppleKG数据集详细信息Table 3 Details of AppleKG dataset

1.2.3 数据特征分析

为了进一步分析苹果病虫害领域语料数据的特征,本文将AppleKG数据集与其他领域中文语料数据集进行对比分析,该领域数据主要具有以下特点:

(1)苹果病虫害语料数据的专业性较强,包含较多领域术语和专有名词,例如“对硫磷”“苏云金杆菌”等防治药剂名称。直接将现有的自然语言处理工具应用于该领域语料数据会出现较大误差。

(2)苹果病虫害语料一方面内容丰富,实体和关系的类别较多;
另一方面聚焦性强,三元组个数较其他领域语料相对较少。如表4所示,本文构建的模式层包含19种实体类别和22种关系种类,明显多于其他领域知识图谱以及相同领域知识图谱,但三元组个数少于其他领域知识图谱。这意味着AppleKG中每种关系的样本量比较少,要求算法能处理小样本问题。

表4 不同知识图谱比较Table 4 Comparison of different knowledge graphs

(3)部分苹果病虫害命名实体嵌套多个子实体,例如,“枝干树皮裂缝”可以划分为“枝干”“树皮”“裂缝”三个子实体,导致实体边界识别困难。

(4)苹果病虫害语料数据中各实体类别和关系类型的样本分布不均匀。如表3所示,“苹果树部位”等常见实体类别和“危害”等常见关系类型均包含上千个样本,而“病原菌”等稀有实体类别和“消毒”等稀有关系类型仅包含数十个样本。样本之间的不均匀分布导致了整体知识抽取准确性的下降。

本文根据苹果病虫害语料数据的特点,提出适用于该领域文本的知识抽取方法。该方法集成使用多种深度学习模型从语料中抽取命名实体及实体关系,并构建三元组,促进了细粒度农业知识图谱构建研究面向自动化方向发展。

1.3 数据层构建

知识抽取是数据层构建过程中必不可少的核心环节,它由命名实体识别和关系抽取两个子任务组成,旨在用半自动化或自动化方法从非结构化语料中抽取出以实体和关系所组成的知识单元。根据苹果病虫害语料的特点,本文构建了APD-CA(apple disease and pest NER model based on character augmentation)模型和ED-ARE(encoding and decoding model for relation extraction of apple diseases and pests)模型分别从文本中自动抽取命名实体及实体关系。

1.3.1 基于APD-CA的命名实体识别

命名实体识别(named entity recognition,NER)旨在识别文本中具有特定意义或者指代性强的实体。本文主要面向中文苹果病虫害文本进行识别。由于中文不存在英文中较为明显的实体形式标志,即句子中的词汇之间被空格自然分割,因此中文命名实体识别不仅要确定实体的类别,还需要识别实体的边界。通过对苹果病虫害语料的分析,苹果病虫害领域实体往往由多个名词嵌套构成,使得实体的边界模糊;
语料专业性较强,现有分词工具在该领域数据上进行分词会出现较多错误;
且各实体类的样本分布也极不均匀。针对上述问题,本文使用由本团队提出的APD-CA模型[26]实现苹果病虫害领域命名实体识别任务,该模型具体结构如图3所示。

图3 APD-CA模型结构Fig.3 General architecture for APD-CA

APD-CA模型通过将词汇序列信息以及相似词汇引入基于字符的BiLSTM-CRF模型[27]来提升命名实体识别效果。对于一个字符序列s={c0,c1,…,cn},首先从预定义词典中抽取出每个字符ct(0≤t≤n)的匹配词汇wij(0≤i≤t≤j≤n)。之后为了防止语义信息的丢失,根据字符ct在词汇wij中的位置将匹配词汇分为四类词汇集合{B,M,E,S},各集合的数学定义如公式(1)所示:

其中,i和j代表词汇开始字符和结尾字符在字符序列中的下标,而{B,M,E,S}分别代表字符出现在词汇的开头、中间、结尾以及单字词汇四种词汇集合。如图3所示,从预定义词典中为字符“树”匹配出四个词汇,分别为:“树根”“果树根”“苹果树”和“树”。根据字符“树”在上述词汇中的位置可以将四个匹配词汇依次划分至{B,M,E,S}四个集合中。

其次,为了能够使模型可以并行处理多个句子样本,需要将匹配出的词汇向量融合为固定维度向量。该模型参考TF-IDF方法,根据匹配词汇在语料中出现次数和出现频率综合评估该词汇对当前句子样本的重要性,并以此为权重对词汇进行融合。当一个字符的匹配词汇在数据集中各句子中出现的频率不高,那么就足以说明这个词汇对于当前句子样本的重要性和独特性,应当将该类词汇的融合权重增大,保留更多语义信息,反之则相应减小该词汇的权重。基于词汇重要性的词汇融合方法如公式(2)所示:

其中,R代表一个词汇集合,w代表集合中的词汇,f(w)代表词汇w在数据集中的出现次数,T代表数据集中的句子样本总数,n(w)代表词汇w出现过的句子数,N代表所有词汇的权重之和。

然后,引入相似词汇对字符语义信息进一步补充和增强。根据余弦相似度评估整体语料匹配词汇集合中词汇之间的相似性,并通过设置相似度值来筛选词汇,将相似度高于该值的词汇作为相似词汇。具体示例如图3所示,匹配词汇“树根”筛选出两个相似词汇“根”“根部”;
而词汇“苹果树”同样筛选出两个相似词汇“梨树”“桃树”。筛选完成后,以相似度和原始词汇出现次数的归一化值为权重将所有相似词汇融合为一个相似词汇特征向量,具体融合过程如公式(3)所示:

其中,E代表四个匹配词汇的集合,f(w)代表词汇在数据集中的出现次数,D代表E中所有词汇出现次数之和。p代表词汇w的相似词汇,H代表经过筛选后的词汇w的相似词汇的集合。k代表余弦相似度计算函数,ew代表词嵌入矩阵。

最后,使用上述词汇融合方法将四个匹配词汇集合中的词汇依次融合为四个固定维度向量并与相似词汇特征向量一同添加到字符原始表示向量xic(0≤i≤n)中:

其中,Xic代表进行语义增强之后的字符特征向量,G代表相似词汇特征向量。得到增强过的字符表示Xic(0≤i≤n)后,将其输入BiLSTM-CRF模型中进行实体识别。该模型通过引入词汇序列及相似词汇提供了丰富的语义信息和实体边界信息,增强了模型对于实体边界的识别能力,填补了由于样本分布不均匀所导致的语义缺陷。并且该模型将字符特征向量作为每个时间步的输入数据,也有效避免了分词错误带来的影响。

1.3.2 基于ED-ARE的关系抽取

关系抽取(relation extraction,RE)的任务是给定一个由两个实体构成的实体对以及包含该实体对的句子,预测实体对之间的语义关系。本文针对苹果病虫害领域文本中各关系类别的样本分布不均匀的问题,在BiGRU模型的基础上,引入编码解码机制和注意力机制,提出一种用于苹果病虫害关系抽取的ED-ARE模型,模型具体结构如图4所示。

图4 ED-ARE模型结构Fig.4 General architecture for ED-ARE

由图可知,该模型分为五层,分别为字符向量化层、编码层、解码层、注意力机制层和分类层。首先在字符向量化层将输入的字符序列{c1,c2,…,cn}映射为低维的字符向量{e1,e2,…,en}。其次,将字符向量输入编码层得到序列编码信息{h1,h2,…,hn},再经过解码层对上下文信息进行解码并输出序列{H1,H2,…,Hn},利用编解码机制获取更加丰富的上下文语义特征。本文在编码层与解码层均使用BiGRU模型,前向GRU模型如公式(5)~(8)所示:

其中,zt和rt分别代表更新门和重置门,ht-1代表前一个时间步传入的隐藏状态,xt代表当前时间步的输入,和ht则代表当前时间步的候选隐藏状态和最终隐藏状态,而Wz、Wr和Wh代表相应的权重矩阵,bz、br和bh代表偏置值。反向GRU的定义同正向GRU一致,且正向GRU的输出与反向GRU的输出共同构成了BiGRU模型的最终输出。

然后,通过注意力机制捕捉字符序列中对识别实体间关系类别起决定作用的语义信息,提升关键信息的权重,从而提高模型关系抽取的准确率。注意力机制如公式(9)~(11)所示:

其中,H代表解码层的输出矩阵,W代表待训练的权重矩阵,r则代表了输出向量的加权之和。最终,通过softmax分类层得到苹果病虫害实体之间的关系。具体示例如图4所示,ED-ARE模型将句子中“褐斑病”和“叶片”两个实体之间的关系正确地识别为“危害”关系。

本文以标注完成的苹果病虫害领域综合数据集AppleKG作为实验对象,将构建的两个知识抽取模型与其他state-of-the-ar(tSOTA)模型进行对比。并进一步对命名实体识别模型的训练效率和两个模型的细化类别结果进行分析研究。

2.1 评估指标与实验环境

本文采用精确率(precision)、召回率(recall)、F1值(F1-score)[28]作为模型性能的评估标准。精确率体现了模型对负样本的区分能力,精确率越高,模型对负样本的区分能力越强;
召回率体现了模型对正样本的识别能力,召回率越高,模型对正样本的识别能力越强。F1值是两者的综合,F1值越高,说明模型越稳健。具体公式如下所示:

其中,S表示实际结果为正样本的样例个数,A表示模型预测结果为正样本的样例个数,T表示模型预测结果和实际结果均为正样本的样例个数。

本文的实验环境如下所示:Intel®Core™i7-8550UCPU@1.80 GHz;
Ubuntu 16.04.6;
GPU型号为Geforce RTX 2080Ti;
Python3.7;
Pytorch 1.2.0。

2.2 命名实体识别实验结果与分析

为了验证本文中基于APD-CA的苹果病虫害命名实体识别方法的优越性,将该方法与BiLSTM-CRF、Lattice-LSTM[29]、LR-CNN[30]、WC-LSTM[31]和SoftLexicon[32]五种深度学习模型从模型性能和训练效率两个方面进行对比实验。其中,模型性能实验从模型整体性能以及具体类别性能两个角度展开;
而效率对比实验将BiLSTM-CRF模型作为基线模型,采用每个epoch的相对训练时间以及模型收敛速度作为模型效率的评估指标。实验中使用的词典为Lattice-LSTM中预训练好的词嵌入矩阵,包含70.4万个词汇。具体参数配置如表5所示。

表5 APD-CA模型参数设置Table 5 Hyperparameter settings of APD-CA

模型整体性能实验结果以及模型相对训练时间如表6所示,APD-CA模型相较于其他对比模型在三项评估指标上均达到了最佳结果,分别为93.08%、93.08%、93.08%,且训练速度仅为基线模型的1.14倍。Lattice-LSTM虽然取得了较高精确率92.79%,但是由于模型构造致使部分词汇信息丢失,在一些极端情况下部分模型甚至会退化为基线模型,并且每个时间步获取到的词汇数量不一致导致模型无法并行化训练,导致训练速度缓慢。LR-CNN虽然通过卷积神经网络的堆叠以及Rethinking机制[33]解决了词汇冲突问题,但是模型计算过于复杂,过多的参数需要通过模型训练,本文构建的数据集不足以支撑该模型的训练,因此该模型识别效果不佳,F1值仅为91.29%,且仍存在效率问题。WC-LSTM虽然依靠对词汇进行固定编码大大提升了模型的训练速度,但是该模型却依旧忽略了字符出现在词汇中间的情况,例如“轮纹病”该词不会被引入字符“轮”所代表的特征向量中,从而造成了语义信息的丢失。SoftLexicon通过对词汇进行分类很大程度上减少了语义信息损失,但是其直接使用了词汇频率作为融合权重,忽略了词汇自身的重要性。APD-CA模型则克服了上述缺点,在苹果病虫害领域的命名实体识别中取得了较好的效果。由于在训练过程中使用了大量的静态数据作为模型参数,训练速度也随之加快。

表6 命名实体识别模型性能对比Table 6 Comparison of performance of named entity recognition models

具体实体类别的识别结果如图5所示。相较于对比模型,APD-CA模型对“种植区域”“苹果树部位”“害虫生长时期”等9种实体类别的识别效果较好,达到了最佳的F1值,并且在“果实病害”“防治工具”“病菌特征”等6种实体类别上的识别效果与最佳模型极为接近。由上述实验结果可知,APD-CA模型在整体数据上取得了较好的识别效果,解决了实体样本分布不均匀所导致的识别效果下降的问题,并且提升了对“种植区域”“苹果树部位”等包含大量嵌套实体的实体类的识别效果,进一步证明了该模型的优越性。

图5 不同实体类别的F1值Fig.5 F1-score of different entity categories

各模型的收敛曲线如图6所示,APD-CA模型在训练10个Epoch之后趋于收敛,收敛速度与其他大部分模型保持一致。并且相较于其他模型,APD-CA模型在每个Epoch上的训练时间更短,充分体现了该模型的训练效率优势。因此无论从模型性能还是训练效率均证明了基于APD-CA的苹果病虫害命名实体识别方法的有效性和优越性。

图6 模型收敛曲线Fig.6 Convergence curves of models

2.3 关系抽取实验结果与分析

为了对比本文提出的基于ED-ARE的苹果病虫害关系抽取方法与其他深度学习模型的抽取效果,将该方法与CNN[34]、LSTM[35]、BLSTM[36]、Att-BLSTM[37]四种模型进行性能对比实验。并对每种关系的实验结果做出了详细展示。该实验具体参数配置如表7所示。

表7 ED-ARE模型参数设置Table 7 Hyperparameter settings of ED-ARE

模型整体性能实验结果如表8所示,ED-ARE模型的精确率、召回率和F1值均优于对比模型,分别为95.59%、93.88%、94.73%。ED-ARE的F1值相较于CNN高5.74个百分点,原因在于其克服了CNN不适宜学习长文本语义信息的缺点。ED-ARE的F1值相较于LSTM高4.5个百分点,因为ED-ARE使用了双向GRU,相比LSTM不但考虑了上文信息,还考虑了下文信息。ED-ARE的F1值相较于BLSTM高3.42个百分点,这是由于ED-ARE模型中注意力机制有效提升了影响关系抽取的关键信息的权重,使得关系抽取的效果更好。EDARE的F1值相较于Att-BLSTM高3.41个百分点,相比Att-BLSTM,本文的ED-ARE模型引入了编码解码机制,在编码层和解码层中均采用了BiGRU网络,GRU相比LSTM既可以学习长距离依赖信息,又由于参数少而效率更高,同时利用双层BiGRU结构充分学习苹果病虫害文本的上下文语义信息,获取更加丰富的文本特征,增强ED-ARE模型的关系抽取能力。综上可知,本文构建的ED-ARE模型在苹果病虫害关系抽取任务中达到了最优效果。

表8 关系抽取模型性能对比Table 8 Comparison of performance of relation extraction models 单位:%

各关系的实验结果如图7所示,ED-ARE模型在苹果病虫害数据集上的关系抽取效果总体上优于对比模型,并在17种关系类别上的F1值表现较好。不同模型在各个关系类别上的表现有相似性,例如在“别称”“分布”“属于”等关系上,不同模型都达到了较高的F1值,这是因为这些关系类别在数据集中的样本数量较多,模型可以得到充分训练,实现好的关系抽取效果。在“消毒”“套袋”“灌溉”等关系上,不同模型的表现又有差异性,因为这几种关系在数据集中的样本数很少,模型难以充分学习到相应特征信息,因此表现效果不佳。相对来讲,ED-ARE受样本分布不均匀影响最小,尤其对于“套袋”关系来说,F1值远远高于其他模型,因为ED-ARE模型使用了双层BiGRU结构,充分学习文本上下文特征,增强了模型关系抽取的性能。由此可见,本文提出的ED-ARE模型更适宜解决苹果病虫害关系样本不均匀的问题。

图7 不同关系类别的F1值Fig.7 F1-score of different relationships

获取到经过处理的知识之后,对知识的存储及可视化是知识图谱构建过程中的重要环节。当前较为主流的图数据库有Neo4j、OrientDB、Arangodb、JanusGraph等。其中,Neo4j图数据库(https://neo4j.com/)因其高效的关系遍历、完全ACID兼容和丰富的可视化界面等优势而被广泛使用。因此本文将知识融合后的2 136个实体节点,5 345个三元组导入Neo4j图数据库进行存储和表示。苹果病虫害知识图谱的部分可视化实例如图8所示。

知识图谱构建完成并实现可视化之后,主要可以应用于精准病虫害信息查询和智能病虫害辅助诊断两个方面:

(1)精准病虫害信息查询

信息查询是知识图谱最为基本且重要的应用方式,本文所构建的细粒度苹果病虫害知识图谱可以通过关键字对苹果病虫害相关信息进行检索,并以图的形式呈现查询结果。例如在图谱中查询“苹小食心虫”,查询结果如图8所示,包含详细的害虫属性信息以及精确的防治信息。而使用传统搜索引擎或者通用知识图谱对病虫害信息进行查询所得到的信息往往比较模糊且科普性较强,难以直接应用于现实防治场景中。具体实例如图9所示,在百度百科上查询出的结果为非结构化文本信息,难以直观体现知识之间的关联关系;
在通用知识图谱“知识工厂”(http://kw.fudan.edu.cn/)中的查询结果虽然同样以图的形式表示,但大多为该种虫害的基本属性,缺乏危害部位、防治措施等相关信息。

图8 知识图谱可视化示例Fig.8 Knowledge graph visualization example

图9 查询结果实例Fig.9 Query result example

(2)智能病虫害辅助诊断

基于苹果病虫害知识图谱的智能病虫害辅助诊断可以凭借其包含的丰富知识对病虫害进行精确诊断,并引导果农科学治理果园,具体流程如图10所示。当病虫害发生时,果农对病虫害自身特征以及造成的危害症状进行观察,输入相关描述语句。之后,根据预定义词典从输入语句中提取词汇信息并挖掘相似词汇。在此基础上,使用本文构建的APD-CA模型和ED-ARE模型从中抽取命名实体及实体间关系形成三元组。然后,根据三元组信息构建Neo4j数据库中独有的Cypher查询语句对苹果病虫害知识图谱进行搜索并返回搜索结果,即与查询语句相关的子图。最后,果农通过搜索结果进行病虫害诊断并采用相应的防治措施。如果查询结果不符合当前状况,还可以优化相关Cypher语句进行二次查询。

图10 智能病虫害辅助诊断流程Fig.10 Intelligent disease and pest assisted diagnosis process

通过分析苹果病虫害语料的特点,本文提出了一种自顶向下与自底向上相结合的细粒度苹果病虫害知识图谱构建方法。首先构建了包含19种实体类型和22种关系种类的细粒度苹果病虫害领域本体库。并在此基础上,标注了苹果病虫害知识图谱数据集AppleKG,为后续相关研究奠定数据基础。然后提出了一种符合苹果病虫害语料特征的知识抽取方法,分别使用APD-CA模型和ED-ARE模型对命名实体和实体关系进行抽取。最后,使用Neo4j数据库对知识图谱进行存储与可视化,并对基于细粒度苹果病虫害知识图谱的相关应用进行了讨论。

虽然本文在细粒度苹果病虫害知识图谱研究中已经取得了初步成果,但仍有可提升空间。在未来的工作中,需要进一步研究命名实体识别和关系抽取两个子任务之间的内在依赖关系,避免命名实体识别过程中产生的误差进一步影响后续关系抽取的效果;
同时,随着苹果病虫害防治知识的发展与变化,如何对新抽取出的知识自动进行质量评估并融入原有知识图谱,提高苹果病虫害知识图谱的智能化更新水平也是一个值得深入研究的方向。

猜你喜欢语料图谱实体绘一张成长图谱少先队活动(2020年12期)2021-01-14前海自贸区:金融服务实体中国外汇(2019年18期)2019-11-25实体的可感部分与实体——兼论亚里士多德分析实体的两种模式哲学评论(2017年1期)2017-07-31补肾强身片UPLC指纹图谱中成药(2017年3期)2017-05-17两会进行时:紧扣实体经济“钉钉子”领导决策信息(2017年9期)2017-05-04振兴实体经济地方如何“钉钉子”领导决策信息(2017年9期)2017-05-04基于语料调查的“连……都(也)……”出现的语义背景分析海外华文教育(2016年1期)2017-01-20主动对接你思维的知识图谱领导科学论坛(2016年9期)2016-06-05华语电影作为真实语料在翻译教学中的应用当代教育理论与实践(2015年9期)2015-12-16《苗防备览》中的湘西语料民族古籍研究(2014年0期)2014-10-27

推荐访问:病虫害 图谱 构建