基于神经网络的中文分词系统的研究(正文)

VIP免费
3.0 高德中 2024-11-19 5 4 2.39MB 71 页 15积分
侵权投诉
在汉语中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因
中文信息处理的特有问题就是如何将中文的字串分割为合理的词语序列,即中
分词[1]
70代以来,各种分词方法不断提出并且很多都已应用到实际的中文分词
系统中,取得了较好的分词效果。现有的中文分词技术从算法角度划分有三类
即基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法。
基于神经网络的中文分词研究是新兴的研究领域,目前国内一些专家学者
了初步的研究和探讨,提出了一些算法,显示出了神经网络在中文分词技术应
上的优势,如:大规模并行处理、非线性、自学习、自适应、知识表达简洁等。但是
对于真实语料环境下,神经网络分词技术的应用研究,还没有什么突破,由此
至今也没有一套完全成熟的基于神经网络的中文分词系统。
造成该问题的主要原因是汉语语言规则的复杂性和笼统性。要将神经网络
用于实际的分词过程中,就必须使神经网络能对大样本集的真实语料进行模式
练和特征提取,并保持较高的训练质量。而对于这一难题,至今没有十分有效
解决方法。
本文根据综合分级处理中文分词的思想,提出了粗分和细分相结合的基于
经网络的中文分词系统的框架。同时,针对已有神经网络中文分词模型没有解
的问题,提出了基于类模式的训练和动态多神经网络模型。基于类模式的训练
动态多神经网络模型有效地解决了神经网络对大样本集真实语料的训练问题,
保持神经网络分词优势的基础上,显著地提高了神经网络在中文分词应用中的
化能力,缓解了由于样本集过大而造成的神经网络过度训练的问题,最终提高
系统整体分词的精度。实验证明,本文提出的类模式训练方式和动态多神经网
训练模型,可以使神经网络训练错误率明显降低,并使神经网络对于歧义的消
有较高的准确度。
本文还将基于神经网络的中文分词系统作为基于用户查询模式和神经网络
术的自适应全文检索系统的辅助分词模块。该检索系统基于全文搜索引擎 Lucene
构建,是动态特性的全文检索系统,加入基于神经网络的中文分
词辅助模,可提高系统的整体性能,在检歧义的中文语,与
LuceneJE中文分词[2]得的效果好。
关键词:中文分词 神经网络 歧义消解
ABSTRACT
In Chinese, there is not any separator between one word and another. The word
itself is lack of obvious form of mark. The particular problem of Chinese information
processing is how to split the Chinese sequence of words in a reasonable form, which is
called the Chinese word segmentation [1].
Since the 1970s, a variety of segmentation methods have been raised, and a lot of
them have been applied to the actual system of the Chinese word segmentation and
achieved a good performance. There are three kinds of methods of the existing Chinese
word segmentation technology from the point of the view of the algorithm. Those are,
the Chinese word segmentation based on the match of the string, the Chinese word
segmentation based on the understanding and the Chinese word segmentation based on
the statistics.
The research of the Chinese word segmentation based on the neural network is a
new research field. Now, some domestic experts and scholars have done a preliminary
study and exploration on it and made some algorithms, which shows the advantages of
the neural network applied in the Chinese word segmentation, such as, scale parallel
processing, non-linear, self-learning, adaptive, simple knowledge representation and so
on. But, the Chinese word segmentation based on the neural network has not been made
a breakthrough in the real corpus environment, so that there hasn’t been a full -fledged
system of the Chinese word segmentation based on the neural network.
The main cause of this problem is due to the complexity and general of the rules of
Chinese language. For the application of the Chinese word segmentation based on the
neural network in the actual process, it’s necessary to make the neural network trained
in the form of model and extract the features of the huge set of the samples from the real
corpus.
This paper is based on a thinking of dealing with the Chinese word segmentation
by the way of comprehensive classification and presents a framework of the Chinese
word segmentation based on neural network system which combines a model of rough
segmentation with a model of particular segmentation. At the same time, the paper
presents a training of the form based on class and a dynamic model of multiple neural
networks to solve the problems which haven’t been solved by the existing model of the
Chinese word segmentation based on the neural network. The training of the form based
on class and the dynamic model of multiple neural networks are effective solutions to
solve the problem of the neural network trained by the huge sets of samples from the
real corpus. It obviously improves the generalization ability of the Chinese word
segmentation based on the neural network in the application and relieves the over-
training problem of the neural network which is due to too much samples, and those
maintain the advantages of the neural network in the application of the Chinese word
segmentation. At last, these solutions enhanced the accuracy of the Chinese word
segmentation in whole. It has been proved by the experiments that the training of the
form based on class and the dynamic model of multiple neural networks can obviously
reduce the error rate in the process of the training of the neural network, and produce a
high accuracy of the disambiguation.
The system based on the Chinese word segmentation of the neural network has
also been the auxiliary module of the “an adaptive full-text retrieval system based on
user queries and neural network technology. The full-text retrieval system is built by
Lucene search engine and has the characteristics of the dynamic adjustment. It
improved the overall system performance by the auxiliary modules of the Chinese word
segmentation based on the neural network. It has obtained a better performance than the
package of JE Chinese word segmentation of Lucene[2] in the search of Chinese
sentences which contain the ambiguous fields.
Key Word Chinese Word Segmentation, Neural Network,
Disambiguation
目 录
ABSTRACT
章 绪论........................................................1
§1.1 研究背景.....................................................1
§1.2 本文研究内容及意...........................................2
§1.3 组织构.................................................3
第二章 中文分词研究................................................5
§2.1 汉语自动分词系统的现研究...................................5
§2.2 中文分词技术.................................................7
§2.2.1 机械分词方法.............................................7
§2.2.2 基于理解的分词方法.......................................8
§2.2.3 基于统计的分词方法.......................................8
§2.3 中文分词中的难点.............................................8
§2.3.1 歧义识别.................................................9
§2.3.2 未登录词识别............................................10
基于神经网络的中文分词系统的模型.......................11
§3.1 系统计思想................................................11
§3.2 神经网络技术处理中文分词的优点............................11
§3.2.1 神经网络概述............................................11
§3.2.2 BP 神经网络.............................................12
§3.2.3 BP 神经网络结合中文分词的优势...........................13
§3.3神经网络训练和消歧模型....................................14
§3.3.1 建立输入模型............................................14
§3.3.2 建立学习模型............................................14
§3.3.3 建立输出解模型........................................15
§3.3.4神经网络训练模型......................................16
§3.3.5神经网络消歧模型......................................16
§3.4 基于类模式的训练............................................16
§3.4.1 已有训练方式存在的问题..................................17
§3.4.2 歧义产生的原因与性质及切分的规则........................17
§3.4.3 基于类模式的训练........................................20
§3.5 动态多神经网络训练和消歧模型................................22
§3.5.1神经网络消歧模型到的瓶颈............................22
§3.5.2 多神经网络模型......................................23
§3.5.3 模型优化——B+树管器..................................23
§3.5.4 动态多神经网络训练模型..................................25
§3.5.5 动态多神经网络消歧模型..................................26
§3.6 神经网络分词系统的整体模型..................................27
第四章 基于神经网络的中文分词系统的实现...........................28
§4.1 系统的整体框架图............................................28
§4.2 系统用的资源..............................................28
§4.2.1 典....................................................28
§4.2.2 语料库..................................................30
§4.3 神经网络的参数调..........................................30
§4.3.1 编码方式................................................30
§4.3.2 网络结..........................................30
§4.3.3 训练的串行方式和集中方式................................32
§4.3.4 激活函数................................................32
§4.3.5 始权值和学习......................................32
§4.4 模块................................................33
§4.4.1 B+树管器..............................................33
§4.4.2 训练系统................................................35
§4.4.3 消歧系统................................................40
§4.4.4 最终分词成模块........................................40
第五章 实验.......................................................42
§5.1 实验简介....................................................42
§5.2 实验系统....................................................42
§5.3体实验....................................................43
§5.3.1 训练系统性能测试........................................44
§5.3.2 消歧系统性能测试........................................51
第六章 全文检索中的应用...........................................54
§6.1 全文检索技术................................................54
§6.2 现有检索系统的问题..........................................55
§6.3 基于用户查询模式和神经网络技术的自适应全文检索系统..........56
§6.4 基于神经网络中文分词模块的应用..............................58
§6.4.1 Lucene 工具包............................................58
§6.4.2 神经网络中文分词的应用..................................60
第七章 总结和展望.................................................62
§7.1................................................62
§7.2 进一步的研究方向............................................62
参考献..........................................................63
第一章 绪论
§1.1 研究背景
题是中国研究所课基于用户查询模式和神经网络技
的自适应全文检索系统的研究与实现块,目提
用户查询模式和神经网络技术的自适应全文检索系统。
全文检索的应用有着广泛的仅导信息检索领域革命
XML挖掘图像检索等多方的研究也都起着推动作用。
散数据的,对全文检索技术应用的要求越高。使用神经网络技术
现高效的自动分词技术,是基于用户查询模式和神经网络技术的自适应全文检
系统块之一,该模块的实现,可以有效的提高该系统对中文文字检索
准确性和效率。
分词是将连续的字序列按照的规成词序列的过程,文文
本中词之间是空格作为隔符,但是中文文是字
过简的分隔符来划词没有一式上的分隔符如果我们
词之间的空格去掉我们的将是一的字如:
I am a teacher,用中文则是:“我位教师”,计算可以
间的teacher 是一个单词,但是计算容易理解“教”“师”两个
能表示一词,为了解决这类问题,中文分词技术应,中文分
就是中文的汉字序列分成有义的词的技术如:教师,分
的结果就是:///教师,这样计算就可以很我们人类的语言,
好的为我们解决复杂问题。
中文分词技术语言处理技术对于可以过自己所
掌握的知识来是词不是词,但是如何计算像人
理解?其处理过程就是中文分词技术。因此,中文分词就成为中文知系统
中必须要解决的问题。单个汉字般情,很难表达一义,而中文的
是没有自分隔的,用一的技术将词准确的来。如何计算
够像理解是词些不是词,这理过程就是分词算法,
有的分词方法可以分为三大类型:机械分词方法、基于理解的分词方法、基于统计
的分词方法。
现有的分词技术,还存在歧义识难题,不能很好的户的
如,服装”可以分成 服装”或 装”。由于没有
的知解,计算难知底哪案正确。因此计准确度
高的分词算法。
神经网络是在人脑和行为的基础上,用大量简的处元广
接组成的复杂网络究成果显示了经网络的主要特征为分
息、错性、大规模并行处理、非线性、自学习、组织和自适应性等。基于神经网
络的中文分词方法,与其他分词方法相它具备知识表达简洁、学习
性好、知识库容易维护新,以分词精确度较高等优本文结合
神经网络的特提出基于神经网络的中文分词系统,使用神经网络技术
实现高效的自动中文分词技术。
§1.2 本文研究内容及意
神经网络是对系统的一性的一种描述。简
学模型,可以电子线来实现,也可以用计算序来经网络的
性能可分神经网络神经网络;按经网络的可分反馈型神
经网络和前型神经网络;按学习方式可分为有导师学习网络和自组织学习网络。
2090年代以来,神经网络理应用已经渗透到各域,并在
模式识计算机视觉自适应滤波和信处理、非线性优化、自动目标识
连续声纳的处理、知识处理、传感技术与机器人生物医程等方
取得了令人鼓舞的进
基于神经网络的中文分词研究是新兴的研究领域,目前国内一些专家学者
了初步的研究和探讨,提出了一些算法,显示出了神经网络在中文分词技术应
上的优势,但是对于真实语料环境下,神经网络分词技术的应用研究,还没有
么突破。
目前,神经网络分词方法还存在能对于大量的中文真实语料进行高效
训练、学习算法收敛速网络层数及隐含节点选取没有确参考准则、
样本对已学完样本有一等问题。由于此,神经网络分词技术还不
熟,计新的模型和算法。
本文在对已有的中文分词系统和中文分词方法神经网络分词方法研究
基础上,结合神经网络的特性,并实现了于神经网络的级处中文
分词系统。在本系统中用类模式提取模型分词分,后利
有歧义识能力的动态多神经网络作为细分方法进行分词,达到了理想的中
摘要:

摘要在汉语中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理的特有问题就是如何将中文的字串分割为合理的词语序列,即中文分词[1]。自70年代以来,各种分词方法不断提出并且很多都已应用到实际的中文分词系统中,取得了较好的分词效果。现有的中文分词技术从算法角度划分有三类,即基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法。基于神经网络的中文分词研究是新兴的研究领域,目前国内一些专家学者做了初步的研究和探讨,提出了一些算法,显示出了神经网络在中文分词技术应用上的优势,如:大规模并行处理、非线性、自学习、自适应、知识表达简洁等。但是对于真实语料环境下,神经网络分...

展开>> 收起<<
基于神经网络的中文分词系统的研究(正文).doc

共71页,预览8页

还剩页未读, 继续阅读

作者:高德中 分类:高等教育资料 价格:15积分 属性:71 页 大小:2.39MB 格式:DOC 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 71
客服
关注