分析超市事务数据库中的关联规则

日期：2023-01-24 阅读量：0次所属栏目：信息管理

摘要：现在全球经济发展正在进入信息经济时代，各种形式的信息大量地产生和收集导致了信息爆炸，如何采用基于关联规则的数据挖掘技术发现超市事务数据库中的关联规则是本文所研究和探讨的重点。
关键词：数据挖掘电子商务关联规则
1引言
目前，在需要处理大数据量的科研领域中，数据挖掘受到越来越多的关注。我们可以利用数据挖掘技术从海量数据中发现有用信息，帮助商家了解客户以往的需求趋势，并预测未来，从而给商家带来巨大的利润。在数据挖掘领域，采用关联规则在大型事务数据库中进行数据挖掘是一个重要的研究内容。关联规则是美国ibm almaden research center的rabesh agrawal等人于1993年首先提出的kdd研究中的一个重要课题。关联规则挖掘的一般对象是事务数据库，这种数据库的主要应用在零售业，比如超级市场的销售管理。关联规则就是发现事务数据库中不同商品（项）（item,指事务中的内容，比如，面包、牛奶等都是项目）之间是否存在某种关联关系。通过这些规则找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。
2关联规则描述
目前关联规则挖掘主要考虑支持度和置信度两个阈值。设x是项集，t是数据库db中的任意一个记录。x的支持度是指支持x的记录数与全体记录数的比，support(x)=|{t| t x,t∈db}|/|db|。蕴涵关系x==>y在数据库db中的置信度是指同时支持x和y的记录数与支持x的记录数之比，即：confidence（x==>y）=|{t| t xy,t∈db}|/|{t| tx,t∈db}| 支持度可理解为在db中随机抽取一个记录，该记录同时支持x和y的概率。置信度可理解为在支持x的记录全体中随机取一个记录，该记录支持y的概率。
3发现关联规则的操作步骤
目前，由于条码技术的发展，顾客在超市中购买商品的信息可以很方便的被存放在数据库中，针对数据库中大量的数据，我们如何发现它们之间存在的关联是本文主要讨论的问题。关联规则的挖掘问题就是在超市事务数据库db中找出具有用户给定的最小支持度和最小置信度的关联规则。关联规则的挖掘对市场调节和争取顾客方面的应用是极有价值的。因此，有必要采用快速算法从超市事务数据库中挖掘关联规则。由超市事务数据库发现关联规则挖掘可以分以下两步完成：
1）找出超市事务数据库db中所有大于等于用户指定最小支持度的项目集，具有最小支持度的项目集称为频繁项集。
2）利用频繁项集生成所期望的关联规则，即这些规则必须满足最小支持度min_supp和最小置信度min_conf。
事实上，第一步的任务是迅速高效地找出超市事务数据库db中全部频繁项集，数据挖掘所面临的最大的挑战是计算效率问题，解决这一问题的途径是产生高效的数据挖掘算法，但从超市事务数据库中产生频繁项集即费时又占用空间，所以说第一步是关联规则挖掘的核心问题，是衡量关联规则挖掘算法的标准。当找到所有的频繁项集后，相应的关联规则将很容易生成，目前大多数的关联规则挖掘算法研究是针对第一步而提出的，本文重点讨论第一个问题。
4由超市事务数据库发现关联规则的总体设计
在现有的不少关联规则发现算法中，最著名的仍然是l本人在他们自己的ais算法基础上于1994年提出的apriori算法，apriori算法的基本思想是：利用“频繁项集的所有非空子集都必须也是频繁的”这一定理对事务数据库进行多遍扫描。
众所周知，对数据库的扫描伴随繁重的磁盘i/o任务，apriori算法中，扫描次数较多，这样就大大限制了挖掘算法的速度。因此，在实际的应用中，减少对事务数据库的扫描次数，有效地减少数据的吞吐，将会有效提高算法的效率。为了高效率的由超市事务数据库中发现关联规则，本系统在apriori算法的基础上采用基于划分的算法。该算法只对事务数据库db扫描两次，大大减少了i/o操作，从而提高了算法的效率。
通过划分方法进行数据挖掘的过程如下图所示：
本系统的总体设计包含三部分：
（1）在服务器端第一次扫描超市事务数据库中的表，按照超市事务数据库中不同项集的数量，以及兼顾客户端计算机硬件配置，对其进行数据分块，分块的大小选择要使得每个分块可以被放入主存。
（2）在各个客户端计算机上，利用并行技术分别访问服务器上的数据分块，求出各数据分块所对应的局部频繁项集，并将所求局部频繁项集存入服务器的一个指定表中。
（3）在服务器端，汇总各个分块数据生成的局部频繁项集，第二次扫描超市事务数据库中的总表，最终生成全局频繁项集。
系统的总体设计可以如下图2 应用程序总体设计所示。
一旦由超市事务数据库db中的事务找出频繁项集，由它们产生强关联规则是直截了当的。所谓的强关联规则是指满足最小支持度和最小置信度的规则。
5结论
随着计算机硬件的降价，利用并行处理的思想，划分的数据块分给多个处理机并行计算各数据块的局部频繁项集，然后各分块所求的局部频繁项集汇总到服务器上，再次扫描数据库最终求出全局频繁项集。这种将关联规则挖掘算法与并行处理相结合的方式能更大的提高算法的效率。今后，如何能够更有效的提高关联规则算法执行的效率，怎样设计更有效、更实用的算法，是我们进一步需要思考的问题。
论文网在线本文链接：http://www.qk112.com/lwfw/jsjlw/xinxiguanli/260243.html

上一篇：探讨计算机语言教学

下一篇：浅论一种加强软件项目管理的实践模式

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

分析超市事务数据库中的关联规则

相关文章

期刊推荐

论文中心 更多

信息管理排行