"景先生毕设|www.jxszl.com

基于汉英典籍平行语料库的实体识别研究【字数:11423】

2024-11-03 10:52编辑: www.jxszl.com景先生毕设

目录
摘 要 Ⅱ
关键词 Ⅱ
ABSTRACT Ⅲ
KEY WORDS Ⅲ
引言 1
一、平行语料库的发展与应用 1
(一)国内平行语料库的发展 1
(二)国外平行语料库的发展 2
二、平行语料库的建立 2
(一)基于《论语》的平行语料库建立过程 2
1. 语料选取 2
2. 语料预处理 2
3. 平行语料库建立 2
(二)平行语料库的意义及存在的问题 3
1.平行语料库的意义 3
2. 平行语料库存在的问题 3
三、基于平行语料库的实体识别研究 4
(一)实体标注 4
(二)基于CRF的实体识别研究 4
1.条件随机场模型的简要概述 4
2.实体识别的研究过程 4
(三)效果测评与分析 5
四、双语知识图谱的建立 6
(一)双语知识图谱的构建 6
1.知识图谱构建工具的选取 6
2.双语知识图谱的具体构建过程 6
(二)知识图谱的功能与意义 9
1.知识图谱的功能 9
2.知识图谱的意义 14
致谢 15
参考文献: 15
图 21 语料库样例 3
图 31 特征模板 4
图 41 双语知识图谱部分展示(1) 8
图 42 双语知识图谱部分展示(2) 9
图 43 节点属性值 10
图 44 相关节点展示 12
图 45 关联节点 14
表 31 实体识别效果 5
基于汉英典籍平行语料库的实体识别研究
摘 要
本文首先简要回顾了国内外语料库的发展建设与应用情况,并根据相应的语料库建设规范,选取古代典籍《论语》及其英文译文作为语料,构建双语平行语料库,进而基于该汉英典籍平行语料库进行实体识别研究。同时,为了确保研究的科学性与准确性,需要保证数据的足量性,基础语料除了选取典 *51今日免费论文网|www.51jrft.com +Q: ^351916072
籍《论语》之外,并选用《尚书》全文作为实体识别研究的补充语料。本文采用人工实体标注的方法,通过标注体系与规范的设计,标注出人名、地名、时间等实体,并进行二次校验保证数据的准确性。基于标注好的数据,将其转换成crf能识别的格式,并切分出训练集与测试集,利用条件随机场工具包对数据进行训练,以构建基于条件随机场的命名实体模型,继而利用准确率、召回率、调和平均值来对模型的性能与效果进行测评。最后,根据实体与实体间的关系,利用Neo4j图数据库构建基于《论语》的双语知识图谱,由此可实现对《论语》中记载的人物、事件、地点等的可视化分析以及检索等功能,为古代典籍的深入研究提供参考。
引言
一、平行语料库的发展与应用
平行语料库的原理很容易理解,它由两部分构成,即某种语言的源语言文本和其对应的目标语言的翻译版本。两种文本表达的内容具有高度一致性,只是在语言的形式存在差异。实质上二者为互译关系[1]。平行语料库的形式多样,包含了两种语言不同级别的对应关系,如单词、短语、句子、段落、篇章等。双语平行语料库的应用十分广泛,在此基础上,其成为了许多项学术研究的基础平台,因而学者们较早就已开始把目光转向平行语料库的相关研究,其后平行语料库也逐渐被各个领域的研究所重视与采纳,如跨语言信息处理、语言对比研究等[2]。近十几年来,无论是国内还是国外,关于平行语料库的研究仍然方兴未艾,一直保持着繁盛的态势,相继有许多规模不一、内容多样、语种各异的平行语料库被建立起来[3]。
(一)国内平行语料库的发展
论及平行语料库的建设,国内的起步相较于国外来说实属较晚,早期国内的语料库相关研究大部分借鉴国外的语料库作为基础资源。直至后来,经过逐渐的发展与进步,建成了我国的语料库。论及20世纪80年代的JDEST[4],其为中国最早建成的语料库,是由上海交大首创的科技英语语料库。又历经十余载春秋,经过我国学者们的不懈努力和钻研,我国语料库建设有了实质性的可观进展,终于在语料库的综合研究中占有了一席之位。后来许多专门用途语料库被相继建设起来,助力于不同学科或领域的研究。如由燕山大学负责研制的“《红楼梦》平行语料库[5]”等。还有的双语平行语料库能够为使用者提供例如在线检索的功能,如洪化清负责研制的在线“红楼梦平行语料库”等。近些年来,基于研究的深入、语料库分析工具的相继完善,也催生出种类繁多、各具特色与用途的平行语料库,以及一大批相关的研究成果,为我国语料库的建设不断添砖加瓦。
到目前为止,国内现有的平行语料库已具备可观的规模,但仍然缺乏词容量巨大,具有多面覆盖性的,应用范围跨度广的超级语料库;相关学科间的合作沟通仍欠缺,未能对语料库的研究潜力进行深入、系统地开发。基于这些问题的改进仍需要日后大量的努力。
(二)国外平行语料库的发展
二、平行语料库的建立
(一)基于《论语》的平行语料库建立过程

原文链接:http://www.jxszl.com/jsj/xxaq/606984.html