当前位置:网站首页>使用Weka与Excel进行简单的数据分析
使用Weka与Excel进行简单的数据分析
2022-07-28 13:50:00 【樱井悠一】
使用Weka与Excel进行简单的数据分析
使用Weka实现一元线性回归
例:某银行家想统计信用卡积分与使用者月收入之间的关系,现有一文件bank.arff,该文件包含7个属性,分别为月收入、每月工作天数、当前信用卡额度、历史统计的按时还款比例、曾经的最大透支额、银行贷款的数目、信用卡积分。但是银行只想统计信用卡积分与月收入之间的关系,所以在构建模型时需要去除其余5个属性的影响,只留下“月收入”和“信用卡积分”这2个属性。
该文件为自定义文件。
bank.arff:
@RELATION creditCardScore
%%%%
%SECTION1:PERSONAL INFO
%%%%
%
%月收入
%
@ATTRIBUTE personInfo.monthlySalary NUMERIC
%%%%
%SECTION2:BUSINESS INFO
%%%%
%
%每月工作天数
%
@ATTRIBUTE businessInfo.workingDayPerMonth NUMERIC
%%%%
%SECTION3:CREDIT CARD INFO
%%%%
%
%当前额度
%
@ATTRIBUTE creditCardInfo.currentLimit NUMERIC
%
%月度正常还款比例
%
@ATTRIBUTE creditCardInfo.percentageOfNormalReturn NUMERIC
%
%曾经最大透支额
%
@ATTRIBUTE creditCardInfo.maximumOverpay NUMERIC
%%%%
%
%贷款数目
%
@ATTRIBUTE financialInfo.personalLoan NUMERIC
%%%%
%RESULT:CREDIT SCORE
%%%%
@ATTRIBUTE creditScore NUMERIC
@DATA
10000,22,20000,1,0,200000,55
15000,20,30000,0.5,14200,20000,78
20000,18,40000,0.6,50000,200000,87
30000,22,60000,0.2,30000,150000,67
22000,15,30000,0.7,20000,140000,71
13200,21,18000,0.9,40000,500000,43
15500,20,30000,0.4,14200,20000,59
25000,26,40000,0.5,50000,200000,88
28670,23,40000,0.7,30000,120000,68
22000,15,40000,0.7,20000,140000,72
10000,18,20000,0.6,30000,150000,47
14300,20,29800,0.5,14200,20000,72
20000,18,40000,0.9,50000,200000,88
34335,22,50000,0.6,30000,150000,74
24555,15,20000,0.9,20000,120000,79
10055,22,80000,1,0,200000,79
15000,20,80000,0.9,90200,20000,86
25400,17,30000,0.7,50000,200000,82
30000,22,70000,0.2,30000,0,72
22000,30,80000,0.7,20000,140000,71
使用Weka Explorer导入数据:
点击Open file导入后结果如下:
此时为数据的整体性分析。Attributes栏显示bank.arff文件中的各个属性,且单击每个属性会有单独的分析。单击Edit按钮可以查看文件的记录。
如:
根据题意,选中不需要的属性,单击Remove删除多余属性:
在Classify选项卡中单击Choose按钮,在Classifiers属性下的function属性下点击LineRegression选项进行线性回归分析。
在Test options区域中的各选项含义如下:
- Use training set:将全部数据用作模型训练
- Supplied test set:设置测试集,模型训练完成后,从这里设置测试数据集。
- Cross-validation:将数据集按照交叉验证的方法均匀划分,一部分作为训练集,一部分作为测试集
- Percentage split:按照一定比例,将数据集划分为训练集和测试集
此时选择Use training set选项进行实验,单击Start按钮查看分析结果:
分析结果中的各项参数:
- Correlation coefficient:相关系数
- Mean absolute error:平均绝对误差
- Root mean squared error:均方根误差
- Relative absolute error:相对绝对误差
- Root relative squared error:相对平方根误差
- Total Number of Instance:案例数
使用Excel实现多项式回归
例:多项式方程求解
现有实验数据如下:

在 文件 菜单下点击 选项 菜单:
选择 加载项,并选择 分析工具库:
点击 转到,在 加载宏 界面选择 分析工具库 后点击确定:
选择 数据分析,并指定分析类型为 回归:
在弹出界面输入x,y值输入区域:

点击确定查看分析结果:
边栏推荐
- 开源项目丨Taier1.2版本发布,新增工作流、租户绑定简化等多项功能
- 58子站安居,经纪人营销管理平台登录接口加密逆向
- 卡方分布和伽马函数(Chi-Square Distribution)
- 2022 melting welding and thermal cutting examination questions and online simulation examination
- 如何有效进行回顾会议(上)?
- 成为绿色数据中心新样板,东莞华为云数据中心是怎样炼成的?
- Factory mode and constructor mode
- Detailed explanation of C language student achievement management system [easy to understand]
- Afnetworking crash course
- 草料二维码--在线二维码生成器
猜你喜欢

C语言实现简单学生成绩管理系统的方法

Thesis study -- masked generative disintegration

C语言库函数getchar()怎么使用

Summarize the knowledge points of the ten JVM modules. If you don't believe it, you still don't understand it
![[ecmascript6] set and map](/img/64/dd6ffc5f0faf881b990e609cf62343.png)
[ecmascript6] set and map

Analysis of thrift serialization protocol

8、 Picker usage drop-down box selection effect

Install mysql5.7.36 in CentOS

【七夕】七夕孤寡小青蛙究极版?七夕节最终章!

2022高处安装、维护、拆除考试题库及在线模拟考试
随机推荐
As a programmer, how to manage time efficiently?
国产数据库的红利还能“吃”多久?
为 @CloudStorage 添加了类 @Published 的能力
成为绿色数据中心新样板,东莞华为云数据中心是怎样炼成的?
Thesis study -- masked generative disintegration
数字化转型安全问题频发,山石网科助力数字政府建设
手机滚动截屏软件推荐
Hcip day 10
Floating point data type in C language (did you learn to waste it)
为自定义属性包装类型添加类 @Published 的能力
复制excel行到指定行
Revised version | target detection: speed and accuracy comparison (faster r-cnn, r-fcn, SSD, FPN, retinanet and yolov3)
TDengine 助力西门子轻量级数字化解决方案
UI开发中所遇到的各种坑
2022年熔化焊接与热切割考题及在线模拟考试
468 product planning and promotion plan (150 copies)
多线程顺序运行有几种方法?
[ecmascript6] class
在 SwiftUI 视图中打开 URL 的若干方法
[Tanabata] Tanabata lonely little frog research edition? The final chapter of Tanabata Festival!