欢迎光临112期刊网!
网站首页 > 论文范文 > 经济论文 > 证券投资论文 > 基于weka的数据挖掘技术在银行借贷需求分析中的应用

基于weka的数据挖掘技术在银行借贷需求分析中的应用

日期:2023-01-12 阅读量:0 所属栏目:证券投资论文


  摘要:数据挖掘就是通过分析存在于数据库里的数据来解决问题 在数据挖掘中计算机以电子化的形式存储数据并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式进而挖掘出潜在的有用的信息。本文用WEKA软件作为工具结合某银行实例数据对借贷需求的数据进行分析。
  关键词:数据挖掘 关联规则 回归 聚类 weka一、引言
  数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。在人工智能领域,习惯上又把数据挖掘称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。
  二、数据挖掘算法简介
  1.Apriori算法简介
  Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的选代方法,k-项集用于探索(k+1)-项集。首先,找出频繁i-项集的集合,该集合记作L1 。L1用于找频繁2-项集的集合L2而L2用于找L 3 ,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。
  2.ID3决策树算法
  ID3 决策树算法是 J.Ross Quinlan 1986年提出的该算法引入熵来标识信息的不确定性,熵值越小,系统越有序,反之则越无序.ID3算法中使用信息熵来度量对数据集进行划分所需要的信息量,算法选择信息增益最大的属性作为分裂属性,自顶向下递归地构建决策树,直到所有实例都属于同一个类,没有更多的属性用来产生划分,则采用多数表决产生叶子节点.由于该算法是自顶向下的贪心算法, 所以不能保证全局最优.
  三、基于weka的实验
  1.基于分类的预测
  选择Preprocess选项中的open file选项把我们的训练数据集导入weka中选择“trees”下的“J48”,这就是我们需要的ID3算法,它没有变灰色,表示当前数据集可用该算法进行挖掘。点“Start”按钮开始让算法生成决策树模型。用文本表示的一棵决策树中可以看出孩子属性重要性最高离根节点最近,在后续子树的构造中,由于设置了剪枝阈值,当划分中类值对应实例个数所占比例超过剪枝阈值,则直接返回该类值所对应的类标号,所以sex属性没有出现在决策树中树的分类精度虽然略有下降,但决策树更加简洁,树的深度及叶子节点的数目都相应减少,符合最优决策树的要求。也就是说有孩子的贷款的可能性就大一些,没有孩子的贷款的可能性就小一些。这个矩阵是说,原本“pep”是“YES”的实例,有99个被正确的预测为“YES”,有39个错误的预测成了“NO”;原本“pep”是“NO”的实例,有18个被错误的预测为“YES”,有144个正确的预测成了“NO”。99+39+18+144=300是实例总数,而(99+144)/300=0.81正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。
  2.基于Apriori算法的实验
  在Apriori算法中我们来验证孩子属性和贷款可能性之间的关联规则,首先需要对数据进行相应的处理,把原始数据中的属性列除了孩子属性和可能性属性外都删除。切换到“Associate”选项卡,点击“Choose”按钮后选择“Apriori”参数设置从第二个开始依次表示的意思:c-1-类索引为-1输出项集设为真,D 0.05-递减迭代值为0.05,M 0.1-最小支持度下届设为0.1, T 0?C度量单位选为置信度,(T1-提升度,T2杠杆率,T3确信度),C 0.9?C度量的最小值为0.9,N 10 -规则数为10,I-输出项集,若设为false则该值缺省,S-1.0-重要程度为-1.0,U1.0-最小支持度上界为1.0。从上表的分析可以看出来有孩子并且有贷款需求可能的是93条记录,有孩子没有贷款需求的记录是78条,而且最佳关联规则结果集中是空的,这个说明贷款需求的可能性跟有没有孩子并不一定存在着一定的关系。
  四、总结
  数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。
  参考文献:
  [1]Stephen Haag,Maeve Cummings,James Dawkins.Management Information Systems for the Information[J] Age.McGraw-Hill.Companies, Inc: 1998
  [2]毛国君等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.
  [3]陈文伟等.数据挖掘技术[M].北京:北京工业大学出版社,2002

本文链接:http://www.qk112.com/lwfw/jingjilunwen/zqtzlw/131759.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学