当前位置:网站首页>对pandas 数据进行数据打乱并选取训练机与测试机集
对pandas 数据进行数据打乱并选取训练机与测试机集
2020-11-06 01:27:00 【IT界的小小小学生】
描述
在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为了避免切分之后的数据集在特征分布上出现偏倚,我们需要先将数据打乱,使数据随机排序,然后在进行切分。
需要用的方法如下:
注:df代表一个pd.DataFrame
df = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果
df = df.reset_index():打乱数据之后index也是乱的,如果你的index没有特征意义的话,直接重置就可以了,否则就在打乱之前把index加进新的一列,再生成无意义的index
train = df.loc[0:a]: 进行切分操作,切分比例看情况定
cv = df.loc[a+1:b]:
test = df.loc[b+1:-1]:
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/93796160
边栏推荐
猜你喜欢
Swagger 3.0 天天刷屏,真的香嗎?
Filecoin最新动态 完成重大升级 已实现四大项目进展!
DevOps是什么
DRF JWT authentication module and self customization
01 . Go语言的SSH远程终端及WebSocket
Jmeter——ForEach Controller&Loop Controller
The difference between Es5 class and ES6 class
免费的专利下载教程(知网、espacenet强强联合)
连肝三个通宵,JVM77道高频面试题详细分析,就这?
钻石标准--Diamond Standard
随机推荐
Dapr實現分散式有狀態服務的細節
关于Kubernetes 与 OAM 构建统一、标准化的应用管理平台知识!(附网盘链接)
不吹不黑,跨平臺框架AspNetCore開發實踐雜談
Programmer introspection checklist
通过深层神经网络生成音乐
全球疫情加速互联网企业转型,区块链会是解药吗?
JetCache埋点的骚操作,不服不行啊
恕我直言,我也是才知道ElasticSearch条件更新是这么玩的
Flink的DataSource三部曲之二:内置connector
Filecoin最新动态 完成重大升级 已实现四大项目进展!
Listening to silent words: hand in hand teaching you sign language recognition with modelarts
Don't go! Here is a note: picture and text to explain AQS, let's have a look at the source code of AQS (long text)
Group count - word length
Pycharm快捷键 自定义功能形式
向北京集结!OpenI/O 2020启智开发者大会进入倒计时
做外包真的很难,身为外包的我也无奈叹息。
(1) ASP.NET Introduction to core3.1 Ocelot
python 保存list数据
Basic principle and application of iptables
Why do private enterprises do party building? ——Special subject study of geek state holding Party branch