当前位置：网站首页>跑通CogView教程

跑通CogView教程

2022-08-02 04:16:00 【tt丫】

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。

一、代码下载

二、环境配置

1、输入命令

2、安装apex

三、下载 image tokenizer——vqvae_hard_biggerset_011.pt

四、下载模型

五、准备input的文字

六、运行

1、报错：-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足

2、报错/bin/bash^M:bad interpreter:No such file or directory

七、结果

一、代码下载

GitHub - THUDM/CogView: Text-to-Image generation. The repo for NeurIPS 2021 paper "CogView: Mastering Text-to-Image Generation via Transformers".

二、环境配置

我是在linux下实现的

1、输入命令

这里要注意pytorch的安装要和cuda的版本相匹配

pip install -r requirements.txt

2、安装apex

这里要注意不是pip install apex，是NVIDIA的apex

git clone https://github.com/NVIDIA/apex.git

然后

cd apex

然后

pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

这里如果安装失败的话可以考虑一下是不是因为pytorch与cuda版本不符

补充：验证pytorch与cuda版本是否相符的方法
import torch
print(torch.cuda.is_available())
如果输出True则OK啦。

三、下载 image tokenizer——vqvae_hard_biggerset_011.pt

输入以下命令

wget https://cloud.tsinghua.edu.cn/f/71607a5dca69417baa8c/?dl=1 -O pretrained/vqvae/vqvae_hard_biggerset_011.pt

四、下载模型

下载地址resource

模型说明

把它扔上linux服务器后，输入以下命令解压

rar x cogview-{base, sr, caption}.tar -C pretrained/cogview/

五、准备input的文字

新建input.txt，将文本（每行一个）写入其中

六、运行

输入以下命令

./scripts/text2image.sh --debug

这里有几个注意点

1、报错：-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足

解决方法一：

cd ../
sudo chmod 777 CogView

如果还不行的话——解决方法二：

chmod u+x ./scripts/text2image.sh

2、报错/bin/bash^M:bad interpreter:No such file or directory

这个的原因是代码在window上编辑过，变成了dos格式的文件——换行符与unix格式的文件不同。

查看是否是这个原因的方法——输入以下命令

cat -A ./scripts/text2image.sh

从显示结果可以判断，dos格式的文件行尾为^M$，unix格式的文件行尾为$。

如果判断确实是这个问题，可以用以下命令使dos格式的文件转换为unix格式的文件。

dos2unix ./scripts/text2image.sh

使用这条命令的前提是要装dos2unix——安装命令如下

sudo apt install dos2unix

七、结果

我是用cogview-base模型文字生成图片，生成的图片默认在samples_text2image文件夹中。

虽然很神奇，但是cogview-base的效果不太好（如果是我哪里步骤不对什么的阿巴阿巴导致的效果不好，麻烦提醒我一下，谢谢），感觉还是需要自己加数据继续训练。

输入“天鹅在吃面包”

生成：emmm（第四张emmm脑袋嘞？）

原网站

版权声明
本文为[tt丫]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_55073640/article/details/126091247

当前位置：网站首页>跑通CogView教程

跑通CogView教程

一、代码下载

二、环境配置

1、输入命令

2、安装apex

三、下载 image tokenizer——vqvae_hard_biggerset_011.pt

四、下载模型

五、准备input的文字

六、运行

1、报错：-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足

2、报错/bin/bash^M:bad interpreter:No such file or directory

七、结果

边栏推荐

猜你喜欢

随机推荐