微粒群的抽样算法在关联规则中的研究与应用

VIP免费
3.0 李佳 2024-09-23 4 4 233.8KB 6 页 150积分
侵权投诉
微粒群的抽样算法在关联规则中的研究与应用
摘要:传统的一次性抽样算法虽然在理论上保证了结果的高精度,然而当数据过多,数据交易量非常大的关联规则,则计
算时间是相当可观的;并且很难应用于联机分析,这些问题将限制 Apriori 算法的使用。基于序贯抽样理论设计的可升级性
算法 ASAR,APASAR 算法可以有效地产生频繁集,并且比一次性抽样算法需要更少的样本。但是仍然会出现理论样本量过高
的表现。本文提出一种群体智能技术中的微粒群算法(PSO)与 Apriori 算法相结合的算法。利用群体智能技术加快挖掘过程,
增加智能性,在数据库扫描时,利用群体智能技术,替代全数据库扫描,提高效率,这种扫描比随机选样要有效。
关键词:群体智能;微粒群算法;关联规则;Apriori 算法
Study and Application of Particle Swarm Optimization Algorithm in
Association Rules
LI Jian-jin Jidian Polytechnic Computer and Information department 510515
Abstract: While in theory the traditional one-time sampling algorithm to ensure the precision of the results, when used in association
founds of many types of commodities and very large transactions, the calculation time is substantial, is hard in line analytical
application, which would restrict the use of Apriori algorithm. Sequential sampling theory algorithm design can be upgraded ASAR.
APASAR algorithm can produce frequent set effectively, and the needs of the samples less than one-time sampling algorithm.
However, the sample size wills still theoretical high when performance. This paper presents a kind of swarm intelligent technology
Particle Swarm Optimization (PSO) algorithm combined with the algorithm Apriori, called PSASAR algorithm. Using the intelligent
technology to accelerate the process, to increase intelligence, when database scanning, the use of intelligent technology group,
replace the entire database scan, enhance efficiency, scanning effective than random sampling.
Key words: Swarm Intelligence, PSO, association rule, Apriori algorithm
1.问题的提出
关联规则是数据挖掘模式发现中一种重要的探索性数据分析方法。最初的关联规则发现算法多为静态
一 次 性 抽 样 算法 , 其 中较 有 权 威 性 的算 法 是 Agrawal 、 Imielinski Swami 1993 年 提 出的 算 法
Apriorio H.Toivonon BSAR Apriori 并根 PAC
理论计算训练样本的最小样本量为 ,其中 表示待挖掘规则的条数, 表
示错误率,而 表示出错率。根据一次性抽样理论,R 的支持度为
,其中 表示抽取的样本量, 表示二元规
则 同时成立的总的样本量。同样可以定义置信度,关联规则发现是寻找满足支持度和
置信度分别由于二者算完全一致,因此关联规则的关键技术是确定找到在给定最小持度 的最优
则搜索路径,即满足 fr (R,I) 的所有规则 R。因此,这里所指的规则并不考虑方向性,如果 R 满足这
一条件,则称 R 是 频繁的,反之,称 R 为 非频繁[1-2]
传统的一次性抽样算法至少存在两方面的问题:1、一次性抽样算法虽然在理论上保证了结果的高精
度,然而由于数据类过多,交易量非常大的关联发现,则计算时间是相当可观的; 2、一次性抽样算法很
难应用于联机分析,这些问题将限制 Apriori 算法的使用。Carlos Domingo 提出了基于序贯抽样理论设计
摘要:

微粒群的抽样算法在关联规则中的研究与应用摘要:传统的一次性抽样算法虽然在理论上保证了结果的高精度,然而当数据过多,数据交易量非常大的关联规则,则计算时间是相当可观的;并且很难应用于联机分析,这些问题将限制Apriori算法的使用。基于序贯抽样理论设计的可升级性算法ASAR,APASAR算法可以有效地产生频繁集,并且比一次性抽样算法需要更少的样本。但是仍然会出现理论样本量过高的表现。本文提出一种群体智能技术中的微粒群算法(PSO)与Apriori算法相结合的算法。利用群体智能技术加快挖掘过程,增加智能性,在数据库扫描时,利用群体智能技术,替代全数据库扫描,提高效率,这种扫描比随机选样要有效。关键...

展开>> 收起<<
微粒群的抽样算法在关联规则中的研究与应用.doc

共6页,预览1页

还剩页未读, 继续阅读

作者:李佳 分类:高等教育资料 价格:150积分 属性:6 页 大小:233.8KB 格式:DOC 时间:2024-09-23

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 6
客服
关注