当前位置:网站首页>跑通CogView教程
跑通CogView教程
2022-08-02 04:16:00 【tt丫】
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。
目录
三、下载 image tokenizer——vqvae_hard_biggerset_011.pt
1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足
2、报错/bin/bash^M:bad interpreter:No such file or directory
一、代码下载
二、环境配置
我是在linux下实现的
1、输入命令
这里要注意pytorch的安装要和cuda的版本相匹配
pip install -r requirements.txt
2、安装apex
这里要注意不是pip install apex,是NVIDIA的apex
git clone https://github.com/NVIDIA/apex.git
然后
cd apex
然后
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./
这里如果安装失败的话可以考虑一下是不是因为pytorch与cuda版本不符
补充:验证pytorch与cuda版本是否相符的方法
import torch print(torch.cuda.is_available())
如果输出True则OK啦。
三、下载 image tokenizer——vqvae_hard_biggerset_011.pt
输入以下命令
wget https://cloud.tsinghua.edu.cn/f/71607a5dca69417baa8c/?dl=1 -O pretrained/vqvae/vqvae_hard_biggerset_011.pt
四、下载模型
下载地址resource
模型说明
把它扔上linux服务器后,输入以下命令解压
rar x cogview-{base, sr, caption}.tar -C pretrained/cogview/
五、准备input的文字
新建input.txt,将文本(每行一个)写入其中
六、运行
输入以下命令
./scripts/text2image.sh --debug
这里有几个注意点
1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足
解决方法一:
cd ../
sudo chmod 777 CogView
如果还不行的话——解决方法二:
chmod u+x ./scripts/text2image.sh
2、报错/bin/bash^M:bad interpreter:No such file or directory
这个的原因是代码在window上编辑过,变成了dos格式的文件——换行符与unix格式的文件不同。
查看是否是这个原因的方法——输入以下命令
cat -A ./scripts/text2image.sh
从显示结果可以判断,dos格式的文件行尾为^M$,unix格式的文件行尾为$。
如果判断确实是这个问题,可以用以下命令使dos格式的文件转换为unix格式的文件。
dos2unix ./scripts/text2image.sh
使用这条命令的前提是要装dos2unix——安装命令如下
sudo apt install dos2unix
七、结果
我是用cogview-base模型文字生成图片,生成的图片默认在samples_text2image文件夹中。
虽然很神奇,但是cogview-base的效果不太好(如果是我哪里步骤不对什么的阿巴阿巴导致的效果不好,麻烦提醒我一下,谢谢),感觉还是需要自己加数据继续训练。
输入“天鹅在吃面包”
生成:emmm(第四张emmm脑袋嘞?)
边栏推荐
- 论文速读:Homography Loss for Monocular 3D Object Detection
- MySQL read-write separation mysql-proxy deployment
- 列表总结
- Visual SLAM Lecture Fourteen - Lecture 13 Practice: Designing a SLAM system (the most detailed code debugging and running steps)
- STM32 OLED显示屏--SPI通信知识汇总
- 安装部署 Kubernetes 仪表板(Dashboard)
- 什么是接触电流怎么测?
- [Study Notes] How to Create an Operation and Maintenance Organizational Structure
- redis基础入门
- CODESYS指针型变量编程应用(配方)
猜你喜欢
随机推荐
26. 如何判断一个对象是否存活?(或者GC对象的判定方法)?
[Win11] PowerShell无法激活Conda虚拟环境
区间和 离散化
Qt处理传输协议数据时QByteArray添加多字节的使用案例
【每日一题】1374. 生成每种字符都是奇数个的字符串
数据复制系统设计(3)-配置新的从节点及故障切换
力扣 剑指 Offer 56 - I. 数组中数字出现的次数
Excel操作技巧大全
Jetson Nano 2GB Developer Kit Installation Instructions
互动投影墙深受展览展示喜爱的原因分析
HyperLynx中层叠设计实例
吴恩达机器学习系列课程笔记——第十八章:应用实例:图片文字识别(Application Example: Photo OCR)
Qt常见问题
CaDDN code debugging
什么是接触电流怎么测?
ADSP21489仿真:Failed to set breakpoint: Can‘t set breakpoints in the current state: Running
Deep Learning Basics Overfitting, Underfitting Problems, and Regularization
高等数学(第七版)同济大学 总习题三(前10题) 个人解答
Go 语言是如何实现切片扩容的?【slice】
2022-08-01:以下go语言代码输出什么?A:panic;B:5;C:6;D:编译错误。 package main import ( “fmt“ ) func main() {