当前位置:网站首页>R语言进行相关的操作
R语言进行相关的操作
2022-08-01 20:58:00 【matlab_python22】
实践分析
22. 哪些变量是绝对的,哪些是连续的?
23. 使用软件,构建数据集的前10条记录的表,以获得对数据的感觉
24. 调查我们是否有任何相关的变量。
25. 对于每个类别数据变量,构建一个变量的柱状图,覆盖目标变量。必要时标准化。
a.讨论每个变量与目标变量之间的关系(如果有的话)。
b.在我们所使用的任何数据挖掘类别数据模型中,您希望哪些变量具有重要的作用?
26. 对于每一对类别数据变量,构建一个交叉列表。讨论你的显著成果。
27. (如果你的软件支持的话。)构建一个类别数据变量的网络图。对图表进行微调,以便出现有趣的结果。讨论你的发现。
28. 根据您的EDA报告该数据集中是否存在异常字段,这些字段是什么,以及我们应该做些什么。
29. 报告每个数值变量的平均值、中位数、最小值、最大值和标准偏差。
30.构建每个数值变量的直方图,覆盖目标变量收入。必要时标准化。
a.讨论每个变量与目标变量之间的关系(如果有的话)。
b.在我们所使用的任何数据挖掘类别数据模型中,您希望哪些变量具有重要的作用?
31. 对于每一对数值变量,构建变量的散点图。讨论你的显著成果。
32. 根据到目前为止的EDA,确定值得进一步研究的数据集中有趣的记录子组。
33. 对一个数值变量应用装箱。这样做的方式,以最大限度地发挥所创建的类的效果(遵循文本中的建议)。现在就这样做一种最小化阶级影响的方法,以减少阶级之间的差异。发表评论。
34. 请参阅前面的练习。对这个变量应用其他两个装箱方法(相同宽度和相同记录数量)。比较结果并讨论差异。你喜欢哪种方法?
35. 从以上练习中总结你的显著的EDA发现,就像你在写报告一样。
1.2 试验平台
图4-4 找到前十条数据的年龄和性别与收入之间的关系探索
图4-5 教育与收入之间的关系探索
上述的教育图中,上面是频次图,下面是频率图
图4-6 探究不同教育程度的收入等级差异
图4-7 探索受教育年限对收入的影响
图4-8 探究婚姻状况对收入的影响
可以发现,married-civ-spouse(已婚平民配偶)和married-AF-spouse(已婚军属)类型的收入>50k群体占比大。
box_age <- ggplot(adult1, aes(x = class, y = age ,fill = class))+
geom_boxplot()+theme_bw()+labs(x = 'class', y = 'age')
box_edu <- ggplot(adult1, aes(x = class, y = education.num ,fill = class))+
geom_boxplot()+theme_bw()+labs(x = 'class', y = 'education.num')
box_work <- ggplot(adult1, aes(x = class, y = hours.per.week ,fill = class))+
geom_boxplot()+theme_bw()+labs(x = 'class', y = 'hours.per.week')
图4-9 性别、年龄、受教育年限、每周工作时间与收入关系图
从图中大致可以发现,收入高的群体一般男性居多、年龄较大、每周工作时间较长、受教育年限较长。
图4-21 某些变量的结果图
图4-12 部分展示图
[1] Gotelli, N. J. 2008. A Primer of Ecology . Sunderland, MA: Sinauer.
[2] Messier, F. 1994. Ungulate population models with predation: A case study with North American moose. Ecology 75:478-488.
[3] Pervez, A., and Omkar, A. 2005. Functional responses of coccinellid predators: illustration of a logistic approach. Journal of Insect Science 5:1-6.
[4]基本R绘图 | R语言教程 (pku.edu.cn)重要的画图方法
边栏推荐
- StringTable详解 串池 性能调优 字符串拼接
- WhatsApp group sending actual combat sharing - WhatsApp Business API account
- LinkedList source code sharing
- MySQL 中出现的字符编码错误 Incorrect string value: ‘\x\x\x\x‘ for column ‘x‘
- 线上问题排查常用命令,总结太全了,建议收藏!!
- Different operating with different locks, rounding
- 织梦模板加入php代码
- 列表页常见的 hook 封装
- 织梦发布文章提示body has not allow words错误
- 【微信小程序】【AR】threejs-miniprogram 安装(76/100)
猜你喜欢
[Multi-task learning] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD18
C语言之字符串函数二
[Multi-task model] Progressive Layered Extraction: A Novel Multi-Task Learning Model for Personalized (RecSys'20)
excel高级绘图技巧100讲(二十二)-如何对不规则数据进行分列
仿牛客论坛项目
【Dart】dart之mixin探究
STAHL触摸屏维修一体机显示屏ET-316-TX-TFT常见故障
Questions I don't know in database kernel interview(1)
【Social Media Marketing】How to know if your WhatsApp is blocked?
响应式织梦模板美容整形类网站
随机推荐
tiup mirror
【Kaggle】Classify Leaves
Buttons with good user experience should not have hover state on mobile phones
字符串
Simple test of the use of iptables
Pytorch框架学习记录9——非线性激活
StringTable Detailed String Pool Performance Tuning String Concatenation
【Social Media Marketing】How to know if your WhatsApp is blocked?
如何用Chrome编辑以及调试代码
What is the difference between a utility model patent and an invention patent?Understand in seconds!
98.嵌入式控制器EC实战 EC开发板开发完成
STAHL触摸屏维修一体机显示屏ET-316-TX-TFT常见故障
WhatsApp group sending actual combat sharing - WhatsApp Business API account
Application of Acrel-5010 online monitoring system for key energy consumption unit energy consumption in Hunan Sanli Group
乐观锁批量跟新 纯SQL
string
【Dart】dart之mixin探究
数字孪生北京故宫,元宇宙推进旅游业进程
职场如象棋,测试/开发程序员如何突破成长瓶颈期?
Hiking, cured my mental internal friction