对股票市场信息的文本挖掘
VIP免费
摘 要
股票市场是投资人和筹资人集结的场所,各种社会经济信息都会综合地反映
到股票市场行情的变化上,而另一方面,股票市场的涨跌起伏对企业、国家乃至
世界经济也都会产生连带的影响。因此,长久以来,对股票市场的研究一直是国
内外学者专家的热点课题。本文重点关注流通在股票市场上的各种经济信息,希
望能够借助新兴的技术帮助信息需求者从信息包围中突围。
众所周知,在信息化的今天,来自多种渠道的信息量非常巨大,而其中孰重
孰轻、孰是孰非让信息需求者很难分辨,众多信息对股票市场有何影响,影响程
度为何也都不能轻易得知,信息在为我们分析问题解决问题时起到的作用大大打
折。作为从浩瀚的信息资源中发现潜在的、有价值知识的一种有效技术,文本挖
掘技术正逐步兴起,倍受关注。文本挖掘技术的产生,让人们关注到能否将文本
挖掘应用到股票市场信息处理上,利用文本挖掘能够在海量的、非结构化的信息
中发现有用的,先前未知的模式或关系的特点,对股票市场上纷繁的信息进行分
析,从中得出一定的模式,生成一定的信息产品。
文章重点就金融新闻和上市公司披露信息进行的文本挖掘分析和实验。从文
本挖掘的相关理论入手,将理论与实际相结合,在陈述了相关理论的同时也将理
论应用到实际的具体实现方法作以交待,在技术层面上得到了很好的理论支持。
文章第三章节安排了与股票市场信息相关的理论陈述,通过该章节,可以帮助了
解影响股票市场的因素,确定在网络上寻找到可用的信息资源。特别的,该章节
还重点陈述的信息披露的相关理论,指出信息披露的格式性,该性质为实现信息
抽取奠定了重要的基础。文章第四章陈述了文本挖掘平台的系统构架,详细描述
了所设计的文本挖掘系统的系统功能结构图以及数据流程图,为平台的真正实现
构建了良好的中间价。章节还对一些具体实现所设计的关键技术如分词、分类预
测、信息抽取等作了特别的介绍。第五章是本文的实验章节,也是全文的重点章
节,研究设计两个实验,并具体列示相关的实验数据,得出了良好的实验结论。
本文将文本挖掘技术应用于股票市场信息的分析之中,构建了实现平台的框
架和一些涉及具体实现的关键步骤,通过实验所产生的信息产品对推测股市走势
和进行深层分析都取得了一定的效果。
关键词:文本挖掘 分类预测 信息抽取 金融新闻 信息披露 股票市场
ABSTRACT
Stock market is the place where the investors and fund raisers are massed together.
All of the social economic information will be synthetically reflected in the change of
stock market. For another, the ups and downs of stock market will affect the economy of
corporation, nation and even the world. Therefore, the research of the stock market has
been the hot topic of experts and scholars from home and abroad. This paper concerns
primarily with kinds of information circulated in the stock market and hopes to help the
information seekers breakthrough in the mass information.
As we know, nowadays the quantity of information from different ways is very big.
But it is very difficult for the information seekers to know right from wrong. And it is
also difficult to find the influence and its degree of the information to the stock market.
The information cannot work effectively when we analyze and resolve the problems. As
an effective technology to find potential and valuable knowledge in the vast information
resource, the text mining technology is rising up step by step and has received a great
deal of attention. The born of text mining technology make people pay attention to
whether the text mining can be used to the process of stock market information. By
using the text mining technology, we can find the useful and unknown mode or relation.
We analyze the mass information of the stock market to get some mode from it and
form some information product.
The paper emphasizes on text mining analysis and experiment of finance news and
the information, which extracted by the quoted company. Firstly, the paper applies the
text mining theories to practice, and get good academic support on the technical level.
Chapter three arranges the academic presentation of stock market. From this chapter, we
can know the infectors of influencing stock market and confirm to find the useful
information resource in the internet. Especially, the related theories of information
disclosure which the chapter states chiefly point out the formation of the information
disclosure. The formation lays good foundation to achieve information extraction.
Chapter four presents the system architecture of the text mining platform and describes
the designed functional configuration picture and data flow chart of text mining system
in detail. It builds good middleware to the real implement of the platform. The chapter
also introduces some key technologies of the concrete implement such as participle,
correlation analysis and information extraction. Chapter five is the experimental part of
the paper, which is also the most important part. In this chapter, two experiments are
designed. The related experimental data is presented and the good result is gotten.
Paper applies the text mining technology to the analysis of stock market information.
The frame of the implemented platform and some key steps related to the concrete
implement are built. It makes some effects to presume the stock market performance
and do deep-analysis by the information products produced in the experiments.
Keywords: text mining, classification analysis, forecast, information
extraction, finance news, information disclosure, stock market
目 录
中文摘要
ABSTRACT
第一章 绪 论 ...................................................................................................................1
§1.1 选题依据 ...........................................................................................................1
§1.2 研究领域发展现状 ...........................................................................................2
§1.3 本文工作概述和论文结构 ...............................................................................5
§1.3.1 本文工作概述 ................................................................................................5
§1.3.2 论文结构 ........................................................................................................5
第二章 理论背景 .............................................................................................................7
§2.1 文本挖掘技术 ...................................................................................................7
§2.1.1 文本挖掘概述 ................................................................................................7
§2.1.2 文本挖掘的重要技术 ....................................................................................7
§2.1.3 文本挖掘的一般过程 ....................................................................................8
§2.1.4 文本挖掘的主要应用 ....................................................................................8
§2.1.5 文本的预处理 ................................................................................................9
§2.1.6 文本分类 .......................................................................................................12
§2.1.6.1 文本分类的概述 ........................................................................................12
§2.1.6.2 文本分类的方法 ........................................................................................12
§2.1.6.3 分类技术的应用 .......................................................................................14
§2.1.7 分类技术在股票市场信息挖掘中的应用 ...................................................14
§2.1.7.1 应用方式概述 ...........................................................................................14
§2.1.7.2 KNN 算法在本文中的实现 ......................................................................15
§2.1.8 信息抽取 ......................................................................................................17
§2.1.8.1 信息抽取技术概述 ...................................................................................17
§2.1.8.2 信息抽取的关键任务 ...............................................................................17
§2.1.8.3 信息抽取技术的应用 ...............................................................................18
§2.2 网络相关技术 .................................................................................................19
§2.2.1 概述 ..............................................................................................................19
§2.2.2 网络爬虫技术 ..............................................................................................19
§2.2.2.1 网络爬虫技术概述 ....................................................................................19
§2.2.2.2 web 文本降噪 ............................................................................................20
§2.2.3 RSS 技术 ...................................................................................................... 20
4
§2.2.3.1 RSS 技术概述 ........................................................................................... 20
§2.2.3.2 RSS 文档的解析技术 ............................................................................... 21
§2.3 本章小结 ..........................................................................................................22
第三章 股票市场信息分析 ...........................................................................................23
§3.1 股票市场信息分析 .........................................................................................23
§3.2 影响股票市场价格的因素 .............................................................................23
§3.3 信息披露 .........................................................................................................25
§3.3.1 信息披露的定义 ..........................................................................................25
§3.3.2 信息披露的内容 ..........................................................................................26
§3.3.3 信息披露的方式 ..........................................................................................27
§3.3.4 信息披露的用处 ..........................................................................................27
§3.3.5 信息披露存在问题 ......................................................................................28
§3.3.6 上市公司信息披露 ......................................................................................29
§3.3.6.1 背景概述 ....................................................................................................29
§3.3.6.2 上市公司年度报告披露的格式 ................................................................29
§3.3.7 上市公司年度报告分析 ..............................................................................30
§3.3.7.1 上市公司年报分析综述 ............................................................................30
§3.3.7.2 上市公司基本面分析 ...............................................................................31
§3.3.7.3 基本面信息收集 .......................................................................................32
§3.3.8 上市公司信息披露之临时报告分析 ..........................................................33
§3.3.8.1 背景概述 ....................................................................................................33
§3.3.8.2 上市公司股票异常波动的披露与分析 ....................................................33
§3.3.8.3 上市公司股票异常波动信息披露的内容与格式 ...................................33
§3.4 本章小结 .........................................................................................................34
第四章 系统结构与关键技术 .......................................................................................35
§4.1 系统功能 ..........................................................................................................35
§4.2 系统设计 .........................................................................................................35
§4.2.1 系统功能结构图 ..........................................................................................35
§4.2.2 系统结构分层 ...............................................................................................35
§4.2.3 数据流程图 ..................................................................................................36
§4.3 文本预处理的具体实现 .................................................................................38
§4.3.1 词库的构建 ..................................................................................................38
§4.3.2 分词技术的实现 ..........................................................................................40
§4.3.3 文本表示 ......................................................................................................41
§4.4 分类预测的具体实现 .....................................................................................42
§4.4.1 分类预测的实现的执行流程 ......................................................................42
§4.4.2 统计关键词权重 ..........................................................................................44
§4.5 信息抽取的具体实现 .....................................................................................45
§4.5.1 信息抽取的相关说明 ..................................................................................45
§4.5.2 信息抽取实现的执行流程 ...........................................................................46
§4.5.3 目标模板的设计 ...........................................................................................47
§4.5.4 命名实体识别 ...............................................................................................47
§4.5.5 信息抽取模板设计 .......................................................................................47
§ 4.6 本章小结 .........................................................................................................48
第五章 实验与结果分析 ...............................................................................................49
§5.1 实验环境 ..........................................................................................................49
§5.2 实验设计 .........................................................................................................49
§5.2.1 分类预测实验设计 ......................................................................................49
§5.2.2 信息抽取实验设计 ......................................................................................53
§5.3 实验结果与分析 .............................................................................................57
§5.3.1 分类预测实验结果分析 ..............................................................................57
§5.3.2 信息抽取实验结果分析 ...............................................................................57
§5.4 本章小结 ..........................................................................................................58
第六章 总结及待改进地方 ...........................................................................................59
§6.1 总结 .................................................................................................................59
§6.2 存在问题及待改进地方 .................................................................................59
附录 1..............................................................................................................................61
附录 2..............................................................................................................................72
参考文献 .........................................................................................................................73
在读期间公开发表的论文 ............................................................................................ 76
致 谢 .............................................................................................................................77
第1章 绪 论
1
第一章 绪 论
§1.1 选题依据
股票市场的涨跌可谓风云变幻,流通在股票市场上的信息对投资者选择投资
时机和市场分析者研究市场走势起到至关重要的作用。但是在信息化的今天,来
自多种渠道的相关信息颇有洪水倾轧之势,而其中孰重孰轻、孰是孰非让信息需
求者很难分辨。因而能够迅速从信息包围圈中突围,成为众多信息需求者的期望。
本课题引入文本挖掘这一新技术,利用它能够在海量的、非结构化的信息中发现
有用的、先前未知的模式或关系的特点,希望对股票市场上纷繁的信息进行分析,
从中得出一定的模式,生成一定的信息产品,以快速、准确地判断该信息对个股
乃至整个股票市场的影响。
由于股票市场上的信息从数量、分类上很大、很广,所以本课题旨在建立一
个应用到股票市场上的文本挖掘的理论框架和实现平台,并进行相对简单的挖掘
分析试验。截至 2008 年11 月,上海证券交易市场有 863 家上市公司,深圳证券
交易市场有 710 家上市公司。这些公司都需要按时按规定发布相关信息,包括招
股说明书、上市公告书,定期报告(年度报告和中期报告),临时报告(重大事件
公告和收购与合并公告)等等信息,与此同时,两个证券交易市场也会适时的发
布一些宏观调控指令以规范整个市场,总之,每一天的股票市场上都有来自各方
各面的信息需要披露给公众,供股民们参考,供专业分析人员考察。从大量的文
本中寻找关联,发现新知已经不是什么新鲜话题,但是采用先进的文本挖掘技术
并将其应用在股票市场,在国内还未曾有人研究过。将文本挖掘技术应用到股票
市场上的信息披露,能够在以下几点取得效果:
1、利用计算机替代人工,对海量的信息进行处理,节约了时间、人力、物力,
可以降低信息成本,提高信息的效率。
2、从上市公司公开的信息文件抽取,生成文本摘要。简化而有用的信息能够
为投资者准确的做出投资决策提供更有益的参考作用。
3、文本摘要还可以为证券监管部门所用,以监督上市公司的信息披露的格式
内容,对规范市场秩序有着重要的帮助。
4、从文本中挖掘出深层信息,得到新的、非表面的模式和关联,供政府部门
和学者研究所用。
专门对股票市场上信息进行文本挖掘有其优势所在。首先就是因为股票市场
对股票市场的文本挖掘
2
属于专有领域,其金融新闻和信息披露所涵盖的关键词都有一定专业性,因而针
对此构造专业词库,就可以大大提高挖掘的准确率。其次,对于股票市场上披露
的信息而言,其与普通的信息有着一个最大的区别——那就是股票市场上披露的
信息必须按照一定的规定和格式编写,因而,虽然作为文本信息,其表面上是非
结构化的,但是其内在又有一定的结构所遵循,这就为进行文本挖掘的打下了良
好的基础。有了技术的很好支持,在此基础上的挖掘分析就能事半功倍。
§1.2 研究领域发展现状
数据挖掘技术卓越的分析能力鼓舞着人们将其应用到自己领域中,出现了不
少成功的应用实例。根据著名的数据挖掘网站 KDnuggerts
(http://www.kdnuggets.com)2002 年所作的一个调查,可以大致的了解数据挖掘应
用领域的分布情况。
表1-1 数据挖掘应用领域分布
领域
得票
得票率%
银行业
77
13
生物/遗传
32
5
直销
42
7
电子商务/web
53
9
娱乐业
10
2
欺诈检测
51
8
保险业
36
6
投资/股票
17
3
制造业
28
5
医药业
31
5
零售业
36
6
科学数据
51
8
安全
14
2
供应链分析
21
3
电信业
56
9
其他行业
44
7
未应用
9
1
共计
608
100
从数据中可以看出,目前数据挖掘应用已经涉及多种行业,特别是在银行业、
电子商务业等行业应用更加普遍,但是在投资/股票方面的应用还比较少,仅占
第1章 绪 论
3
比3%。Gartner 的调查报告预计,到 2010 年数据挖掘在相关市场的使用将增加
到超过 80%。
而作为数据挖掘技术发展的重要分支——文本挖掘,其作为从浩瀚的信息资
源中发现潜在的、有价值知识的一种有效技术,正逐步兴起,倍受各方学者的关
注。
基于文本挖掘的研究总的来说可以分为三个层面,第一个层面是对基础理论
的研究,涉及到数理统计,机器学习和自然语言处理等方向的研究。第二个层面
是针对文本挖掘技术的研究,具体又分为信息抽取,文本分类,文本聚类,文本
总结,关联规则分析等研究。最高一个层面是应用层面,主要是对挖掘出来的信
息进行再加工,从而发现知识,生成报告。
国外的研究现主要围绕文本挖掘模型——也就是第二个层面,文本特征抽取
与文本中间表示,文本挖掘算法(如关联规则抽取,语义关系挖掘,文本聚类于
主题分析,趋势分析)等方面展开,已经形成了一套较为成熟的理论体系与技术
手段,并且在多个领域得到了应用。
从Feldman 在1995 年正式提出文本挖掘的概念到现在只有短短 10 余年的时
间,但文本挖掘在国外特别是拉丁语系国家发展迅速。国外的研究主要围绕文本
挖掘模型[1]-[2],文本特征抽取与文本中间表示[3]-[5],以及文本挖掘算法[6]-[12]。这
其中 Gatherine Blake,Wanda Pratt 等在关联规则抽取方面[6]-[7],Roxana Girju 和
DanMoldovan 在语义关系挖掘方面[8]-[9],E.Bingham 和Montes 在文本聚类与主题
分析方面[10]-[11],Pui Cheong Fung 等趋势分析方面[12]都是取得了一定的成绩。而
在具体的技术应用领域,如网络聊天室文本主题跟踪的[10],在线新闻实时监控的
[11],对股票价格进行预测的应用[12],专利数据分析[13],分子生物学文献挖掘[14],
开放式问卷调查文本数据分析研究[15]等。
我国学术界正式引入文本挖掘的概念并展开针对中文的文本挖掘研究起步
较晚。从公开发表的有代表性的研究成果来看,目前,我国文本挖掘研究还处在
消化吸收国外相关理论和技术与小规模实现阶段。由于中文与西文结构上的不
同,使得很多西方已经比较成熟的理论不能直接加以应用,所以国内学者的研究
多侧重在文本挖掘技术的实现上。在中文自然语言处理方面,哈尔滨工业大学的
陈清才和香港理工大学的王晓龙的文章《一种基于词矢量的汉语语义量化模型》
[16]通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化
问题。在文本预处理中重要的分词和词性标注方面,由中国科学院计算机研究所
研制的 ICTCLAS 汉语词法分析系统以其分词准确率高而成为国内该领域的研究
专家。对自动摘要的研究,成绩比较突出的研究者有上海交通大学的王永成教授,
他研制了 OA 中文文献自动摘要系统;复旦大学吴立德教授等分析了篇章段落之
摘要:
展开>>
收起<<
摘要股票市场是投资人和筹资人集结的场所,各种社会经济信息都会综合地反映到股票市场行情的变化上,而另一方面,股票市场的涨跌起伏对企业、国家乃至世界经济也都会产生连带的影响。因此,长久以来,对股票市场的研究一直是国内外学者专家的热点课题。本文重点关注流通在股票市场上的各种经济信息,希望能够借助新兴的技术帮助信息需求者从信息包围中突围。众所周知,在信息化的今天,来自多种渠道的信息量非常巨大,而其中孰重孰轻、孰是孰非让信息需求者很难分辨,众多信息对股票市场有何影响,影响程度为何也都不能轻易得知,信息在为我们分析问题解决问题时起到的作用大大打折。作为从浩瀚的信息资源中发现潜在的、有价值知识的一种有效技术...
相关推荐
-
跨境电商商业计划书模版VIP免费
2025-01-09 27 -
跨境电商方案范文VIP免费
2025-01-09 14 -
创业计划书VIP免费
2025-01-09 18 -
xx生鲜APP计划书VIP免费
2025-01-09 12 -
跨境电商创业园商业计划书(盈利模式)VIP免费
2025-01-09 8 -
跨境电商计划书VIP免费
2025-01-09 13 -
绿色食品电商平台项目计划书VIP免费
2025-01-09 22 -
农产品电子商务商业计划书VIP免费
2025-01-09 9 -
农村电商平台商业计划书VIP免费
2025-01-09 13 -
生鲜商城平台商业计划书VIP免费
2025-01-09 21
作者:侯斌
分类:高等教育资料
价格:15积分
属性:81 页
大小:949.53KB
格式:PDF
时间:2024-11-19

