当前位置:网站首页>三、如何搞自定义数据集?
三、如何搞自定义数据集?
2022-07-29 05:22:00 【MY头发乱了】
前言
MNIST数据这个最最基础的数据集已经被走在程序猿道路上的同学们玩坏了,所以今天教大家如何搞一个自定义数据集。
一、定义的数据集,未做预处理。
下面展示一些 内联代码片。
import os
from torch.utils.data import Dataset ,DataLoader
from PIL import Image
#1.创建数据集类,使用torch.utils.data中的Dataset方法。
class My_Dataset(Dataset):
#2.循环找到文件路径,并添加标签
def __init__(self,main_dir,data_type,transforms):
self.dataset=[]#空列表为装新增一个标签的数据库
self.transforms=transforms
if data_type==0:
data_filename='train'
elif data_type is 1:
data_filename='val'
else:
data_filename='test'
for i , cls_filename in enumerate(
os.listdir(os.path.join(main_dir,data_filename))):
for i ,img_data in enumerate(os.listdir(
os.path.join(main_dir,data_filename,cls_filename))):
self.dataset.append([os.path.join(main_dir,
data_filename,cls_filename,img_data),int(img_data[0]) ])
#3.计算图片长度,方便后面迭代
def __len__(self):
return len(self.dataset)#为了获取图片长度,方便迭代
#4、取出图片路径,并打开,便于做数据预处理
def __getitem__(self, index):
img,label=self.dataset[index]
img_data=Image.open(img)
img_data=self.transforms(img_data)
return img_data,label示例:@TOC
二、定义数据集,并做数据预处理。
包括旋转、裁剪、转为张量、扩大、正则化等等。
1.预处理部分
#4、取出图片路径,并打开,便于做数据预处理
def __getitem__(self, index):
img,label=self.dataset[index]
img_data=self.data_process(Image.open(img))
return img_data,label
#5.数据处理,数据增强、加噪声等等
def data_process(self,x):
return transforms.Compose([transforms.ToTensor(),
transforms.Normalize(mean=(0.5,),std=(0.5,))])(x)2.定义数据过程
代码如下(示例):
import os
from torchvision import transforms
from torch.utils.data import Dataset ,DataLoader
from PIL import Image
#1.创建数据集类,使用torch.utils.data中的Dataset方法。
class My_Dataset(Dataset):
#2.循环找到文件路径,并添加标签
def __init__(self,main_dir,data_type):
self.dataset=[]#空列表为装新增一个标签的数据库
if data_type==0:
data_filename='train'
elif data_type is 1:
data_filename='val'
else:
data_filename='test'
for i , cls_filename in enumerate(
os.listdir(os.path.join(main_dir,data_filename))):
for i ,img_data in enumerate(os.listdir(
os.path.join(main_dir,data_filename,cls_filename))):
self.dataset.append([os.path.join(main_dir,
data_filename,cls_filename,img_data),i ])
#3.计算图片长度,方便后面迭代
def __len__(self):
return len(self.dataset)#为了获取图片长度,方便迭代
#4、取出图片路径,并打开,便于做数据预处理
def __getitem__(self, index):
img,label=self.dataset[index]
img_data=self.data_process(Image.open(img))
return img_data,label
#5.数据处理,数据增强、加噪声等等
def data_process(self,x):
return transforms.Compose([transforms.ToTensor(),
transforms.Normalize(mean=(0.5,),std=(0.5,))])(x)
``边栏推荐
- Tear the ORM framework by hand (generic + annotation + reflection)
- 预训练语言模型的使用方法
- mysql 的show profiles 使用。
- [DL] introduction and understanding of tensor
- Activity交互问题,你确定都知道?
- 【目标检测】Generalized Focal Loss V1
- [semantic segmentation] Introduction to mapillary dataset
- 并发编程学习笔记 之 原子操作类AtomicInteger详解
- Detailed explanation of MySQL statistical function count
- 【Transformer】TransMix: Attend to Mix for Vision Transformers
猜你喜欢

Are you sure you know the interaction problem of activity?
![[image classification] how to use mmclassification to train your classification model](/img/98/f8536bc4c6a291a028a0c4227653ee.png)
[image classification] how to use mmclassification to train your classification model

Ribbon learning notes 1

【Transformer】AdaViT: Adaptive Vision Transformers for Efficient Image Recognition

通过简单的脚本在Linux环境实现Mysql数据库的定时备份(Mysqldump命令备份)

Reporting Services- Web Service

深入理解MMAP原理,让大厂都爱不释手的技术

Windos下安装pyspider报错:Please specify --curl-dir=/path/to/built/libcurl解决办法

研究生新生培训第二周:卷积神经网络基础
![[overview] image classification network](/img/2b/7e3ba36a4d7e95cb262eebaadee2f3.png)
[overview] image classification network
随机推荐
ANR优化:导致 OOM 崩溃及相对应的解决方案
Flutter 绘制技巧探索:一起画箭头(技巧拓展)
[convolution kernel design] scaling up your kernels to 31x31: revising large kernel design in CNN
Detailed explanation of MySQL statistical function count
【bug】XLRDError: Excel xlsx file; not supported
【DL】搭建卷积神经网络用于回归预测(数据+代码详细教程)
【Attention】Visual Attention Network
研究生新生培训第三周:ResNet+ResNeXt
这些你一定要知道的进程知识
Flink connector Oracle CDC synchronizes data to MySQL in real time (oracle19c)
预训练语言模型的使用方法
备份谷歌或其他浏览器插件
二、OCR训练时,将txt文件和图片数据转为lmdb文件格式
pip安装后仍有解决ImportError: No module named XX
Configuration and use of Nacos external database
性能优化之趣谈线程池:线程开的越多就越好吗?
Ffmpeg creation GIF expression pack tutorial is coming! Say thank you, brother black fly?
迁移学习—— Transfer Feature Learning with Joint Distribution Adaptation
研究生新生培训第一周:深度学习和pytorch基础
【bug】XLRDError: Excel xlsx file; not supported