基于古白平行语料的命名实体抽取研究【字数:8930】
目录
摘要 1
关键词 1
Abstract 1
Keyword 1
引言 2
一、相关研究综述 2
(一)命名实体识别的基本理论 2
1.命名实体的含义 3
2.命名实体识别的概念 3
(二)命名实体识别研究现状及应用 3
(三) 命名实体识别存在的问题 4
二、命名实体识别基本的研究方法 4
(一)基于规则的方法 4
(二)基于统计的方法 5
1.隐马尔可夫模型 5
2.最大熵模型 5
3.条件随机场模型 6
三、 古白平行语料命名实体识别模型的训练及实验 6
(一) 古白平行语料未源及预处理 6
(二)统计模型的选择 7
(三)条件随机场模型详细介绍 7
(四)特征模板的确定 8
(五) 模型构建的流程和评价指标 8
(六)命名实体识别实验结果 9
(七) 词性自动标注模型应用 10
结语 10
致谢 11
参考文献 11
基于古白平行语料的命名实体抽取研究
信息管理与信息系统学生 刘忠诚
引言
引言
命名实体识别是信息抽取、自动问答、语句分析、机器翻译等文本处理的基本要求,是自然语言处理技术的实际化运用的前提。命名实体识别作为自然语言处理的基本,对于处理技术的进一步发展有着巨 *景先生毕设|www.jxszl.com +Q: #351916072#
大帮助。在文本中,命名实体是一句话的基本构成,可以表达出语句的基本含义,所以,命名实体的准确识别对正确理解语句的含义有着巨大帮助,同时对语言的发展历程也可以略知一二。
如今对于白话文命名实体识别技术已经蓬勃发展,各种理论在白话文实体识别中都扮演了重要的角色,在识别方面也得到了很好的反馈。中华民族有着五千年的历史,中国的古代文化是中华名族的宝贵遗产,然而在古汉语实体识别方面的相关研究还不充分。随着计算机技术的发展以及人们对相关理论的完善,我们相信,是可以处理古汉语的,进一步探讨语言的发展历程。本文将运用条件随机场模型,对古汉语中的时间以及地点类命名实体进行识别。在已有的手工处理好的古白平行语料中进行测试,构建完整的训练语料库,对未处理的古文进行测试,给今后古文命名实体识别提供参考价值。
一、相关研究综述
(一)命名实体识别的基本理论
1.命名实体的含义
命名实体(Named Entity, NE)[1]是指一些客观存在的事物,比如人、组织、地点、时间等。文本中的命名实体主要是特定的、已有的客观存在,比如人名、动物名、组织名名、地名等,准确的时间数量也可以包括在内。命名实体识别就是要求我们找出语句中的这些客观实体,然后识别出他们的种类。
1995年9月举办的第六届MUC(Message Understanding Conference)会议首次将命名实体识别设为大会议题。大会上提出,命名实体识别的要求是找出给定文本中专有名词、数量短语以及时间名词,识别之后将其按要求归类。在1998年举办的第七届MUC会议上,大会将命名实体识别作为本次会议的主要探讨话题。在本次大会上,人名、地名、机构名、时间等被确认为命名实体识别的主要对象。
2.命名实体识别的概念
命名实体识别[2]主要有两部分组成:1.确定实体的边界;2.确定实体的类别。确定实体的边界相对而言,比较简单,而实体类别的确定则相对复杂。与英语的识别区别在于,英文的大小写可以很好的区分是否是实体,而汉字是不存在此功能的。
(二)命名实体识别研究现状及应用
命名实体识别对于自然语言处理的发展具有深远的影响,对于理解句子含义、理解句子的构成有着重大的意义,大致应用在信息抽取、自动翻译、自动问答等方面。文本信息抽取是指将文本中的命名实体、以及各个命名实体的关系进行提取,然后进行再加工,最后形成比较系统化的数据。赵军等[3]对开放式文本的信息抽取进行了研究,认为命名实体识别是信息抽取的基础,同时也是最重要的,并且对于语料库的建造、网络信息管理、词语搜索等都具有重要的应用价值。
上世纪九十年代初期,一些自然语言处理专家便开始对中文中的命名实体识别进行研究。例如:清华大学的孙茂松教授是的主要研究方面是人名识别,他采用统计的方法计算人名中各个汉字出现的概率,制定表格,从而找出其中的规律,对今后人名识别提供了一条路线。复旦大学的吴立德教授将统计与规则相结合来进行人名识别研究,统计文本中人名中出现的各个字,计算出每个字在实体中出现的概率,然后制定相应的规则来判断某个词作为实体的概率,与预先给定的值进行比较,若大于该值,则为命名实体,该方法在人名识别实验中效果显著,大大提高了人名识别的效率。英特尔中国研究中心的ZHANG YiMin和ZHOU Joe F 等人采用基于深度学习的学习算法开发了一个抽取中文命名实体的命名实体识别系统,该系统在第八届MUC大会上取得了良好的效果。[4]
(三)命名实体识别存在的问题
与中文命名实体识别相比,英文因为不需要分词,只需考虑单词词性,分词较为简单,在识别中其准确率和召回率可达到百分之九十以上[5]。
汉语文本不同于英语文本,英语文本词与词存在空格符号来划分词与词,而汉语文本只存在标点符号,这并不具备划分词与词区别的功能,所以进行命名实体识别时,首先要做好分词工作;
汉语当中,不同的词具有不同的含义,当一个字可以与前后都组成词语时,命名实体识别的结果会有很大的不同;
除了少部分有明确定义的外来词,外国人名的英译以及汉语当中的方言在实际操作中,很难被识别出来;
现代汉语文本中,新兴词汇层出不穷,很多当代人创造的流行词语并不符合一定的汉语规范,这时候,命名实体的识别又需要加入新的识别技术;
(5)不同类型的实体,它的内部构成也是不同的,难以用一个统一的标准来识别。
原文链接:http://www.jxszl.com/jsj/xxaq/564020.html