当前位置:网站首页>跑通CogView教程
跑通CogView教程
2022-08-02 04:16:00 【tt丫】
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。
目录
三、下载 image tokenizer——vqvae_hard_biggerset_011.pt
1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足
2、报错/bin/bash^M:bad interpreter:No such file or directory
一、代码下载
二、环境配置
我是在linux下实现的
1、输入命令
这里要注意pytorch的安装要和cuda的版本相匹配
pip install -r requirements.txt2、安装apex
这里要注意不是pip install apex,是NVIDIA的apex
git clone https://github.com/NVIDIA/apex.git然后
cd apex然后
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./这里如果安装失败的话可以考虑一下是不是因为pytorch与cuda版本不符
补充:验证pytorch与cuda版本是否相符的方法
import torch print(torch.cuda.is_available())如果输出True则OK啦。
三、下载 image tokenizer——vqvae_hard_biggerset_011.pt
输入以下命令
wget https://cloud.tsinghua.edu.cn/f/71607a5dca69417baa8c/?dl=1 -O pretrained/vqvae/vqvae_hard_biggerset_011.pt四、下载模型
下载地址resource
模型说明

把它扔上linux服务器后,输入以下命令解压
rar x cogview-{base, sr, caption}.tar -C pretrained/cogview/五、准备input的文字
新建input.txt,将文本(每行一个)写入其中
六、运行
输入以下命令
./scripts/text2image.sh --debug这里有几个注意点
1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足
解决方法一:
cd ../
sudo chmod 777 CogView 如果还不行的话——解决方法二:
chmod u+x ./scripts/text2image.sh2、报错/bin/bash^M:bad interpreter:No such file or directory
这个的原因是代码在window上编辑过,变成了dos格式的文件——换行符与unix格式的文件不同。
查看是否是这个原因的方法——输入以下命令
cat -A ./scripts/text2image.sh从显示结果可以判断,dos格式的文件行尾为^M$,unix格式的文件行尾为$。
如果判断确实是这个问题,可以用以下命令使dos格式的文件转换为unix格式的文件。
dos2unix ./scripts/text2image.sh使用这条命令的前提是要装dos2unix——安装命令如下
sudo apt install dos2unix七、结果
我是用cogview-base模型文字生成图片,生成的图片默认在samples_text2image文件夹中。
虽然很神奇,但是cogview-base的效果不太好(如果是我哪里步骤不对什么的阿巴阿巴导致的效果不好,麻烦提醒我一下,谢谢),感觉还是需要自己加数据继续训练。
输入“天鹅在吃面包”
生成:emmm(第四张emmm脑袋嘞?)

边栏推荐
猜你喜欢

CaDDN code debugging

3D object detection dataset

数据复制系统设计(2)-同步复制与异步复制

爬虫_爬取wasde月度供需平衡表(实例)

internship:数据库表和建立的实体类及对应的枚举类之间的联系示例

LeetCode 23: 合并K个升序链表

SCI writing strategy - with common English writing sentence patterns

压缩包密码如何快速删除?

详解CAN总线:什么是CAN总线?

OpenPCDet environment configuration of 3 d object detection and demo test
随机推荐
【每日一题】1374. 生成每种字符都是奇数个的字符串
Qt编写物联网管理平台49-设备模拟工具
MySQL read-write separation mysql-proxy deployment
科研笔记(八) 深度学习及其在 WiFi 人体感知中的应用(上)
吴恩达机器学习系列课程笔记——第十四章:降维(Dimensionality Reduction)
多主复制下处理写冲突(1)-同步与异步冲突检测及避免冲突
Batch normalization (BN) based on deep learning
Arduino框架下STM32F1/F4系列HID模式程序烧录教程
Visual SLAM Lecture Fourteen - Lecture 13 Practice: Designing a SLAM system (the most detailed code debugging and running steps)
我们擅长的地方很多
多主复制的适用场景(1)-多IDC
MapFi paper structure organization
Deep blue college - handwritten VIO operations - the first chapter
线代005
batch_size of deep learning foundation
如何让固定点的监控设备在EasyCVR平台GIS电子地图上显示地理位置?
力扣 215. 数组中的第K个最大元素
从事功能测试1年,裸辞1个月,找不到工作的“我”怎么办?
被大厂强制毕业,两个月空窗期死背八股文,幸好上岸,不然房贷都还不上了
P1012 [NOIP1998 提高组] 拼数