当前位置:网站首页>跑通CogView教程
跑通CogView教程
2022-08-02 04:16:00 【tt丫】
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。
目录
三、下载 image tokenizer——vqvae_hard_biggerset_011.pt
1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足
2、报错/bin/bash^M:bad interpreter:No such file or directory
一、代码下载
二、环境配置
我是在linux下实现的
1、输入命令
这里要注意pytorch的安装要和cuda的版本相匹配
pip install -r requirements.txt2、安装apex
这里要注意不是pip install apex,是NVIDIA的apex
git clone https://github.com/NVIDIA/apex.git然后
cd apex然后
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./这里如果安装失败的话可以考虑一下是不是因为pytorch与cuda版本不符
补充:验证pytorch与cuda版本是否相符的方法
import torch print(torch.cuda.is_available())如果输出True则OK啦。
三、下载 image tokenizer——vqvae_hard_biggerset_011.pt
输入以下命令
wget https://cloud.tsinghua.edu.cn/f/71607a5dca69417baa8c/?dl=1 -O pretrained/vqvae/vqvae_hard_biggerset_011.pt四、下载模型
下载地址resource
模型说明

把它扔上linux服务器后,输入以下命令解压
rar x cogview-{base, sr, caption}.tar -C pretrained/cogview/五、准备input的文字
新建input.txt,将文本(每行一个)写入其中
六、运行
输入以下命令
./scripts/text2image.sh --debug这里有几个注意点
1、报错:-bash: ./scripts/super_resolution.sh: Permission denied —— 权限不足
解决方法一:
cd ../
sudo chmod 777 CogView 如果还不行的话——解决方法二:
chmod u+x ./scripts/text2image.sh2、报错/bin/bash^M:bad interpreter:No such file or directory
这个的原因是代码在window上编辑过,变成了dos格式的文件——换行符与unix格式的文件不同。
查看是否是这个原因的方法——输入以下命令
cat -A ./scripts/text2image.sh从显示结果可以判断,dos格式的文件行尾为^M$,unix格式的文件行尾为$。
如果判断确实是这个问题,可以用以下命令使dos格式的文件转换为unix格式的文件。
dos2unix ./scripts/text2image.sh使用这条命令的前提是要装dos2unix——安装命令如下
sudo apt install dos2unix七、结果
我是用cogview-base模型文字生成图片,生成的图片默认在samples_text2image文件夹中。
虽然很神奇,但是cogview-base的效果不太好(如果是我哪里步骤不对什么的阿巴阿巴导致的效果不好,麻烦提醒我一下,谢谢),感觉还是需要自己加数据继续训练。
输入“天鹅在吃面包”
生成:emmm(第四张emmm脑袋嘞?)

边栏推荐
- 深度剖析-class的几个对象(utlis,component)-瀑布流-懒加载(概念,作用,原理,实现步骤)
- Deep Learning Basics Overfitting, Underfitting Problems, and Regularization
- 七月阅读:《刘慈欣科幻短篇小说集Ⅰ》笔记
- 批量--09---批量读文件入表
- [Win11] PowerShell cannot activate Conda virtual environment
- 洛谷P2670扫雷游戏
- STM32 OLED显示屏
- Qt编写物联网管理平台49-设备模拟工具
- MySQL read-write separation mysql-proxy deployment
- internship:数据库表和建立的实体类及对应的枚举类之间的联系示例
猜你喜欢

internship:数据库表和建立的实体类及对应的枚举类之间的联系示例

并发性,时间和相对性(1)-确定前后关系

张成分析(spanning test):portfolio_analysis.Spanning_test

普氏分析法-MATLAB工具箱函数

How to save a section of pages in a PDF as a new PDF file

The most authoritative information query steps for SCI journals!

吴恩达机器学习系列课程笔记——第七章:正则化(Regularization)

安装部署 Kubernetes 仪表板(Dashboard)

科研笔记(六) 基于环境感知的室内路径规划方法

Reinforcement Learning (Chapter 16 of the Watermelon Book) Mind Map
随机推荐
DOM系列之 click 延时解决方案
Andrew Ng's Machine Learning Series Course Notes - Chapter 18: Application Example: Image Text Recognition (Application Example: Photo OCR)
STM32 OLED显示屏
面试官:大量请求 Redis 不存在的数据,从而打倒数据库,有什么方案?
Go 语言是如何实现切片扩容的?【slice】
【FreeRTOS】12 任务通知——更省资源的同步方式
一次跳出最外层循环
MapFi论文架构整理
STM32 OLED显示屏--SPI通信知识汇总
(一)代码输出题 —— reverse
并发性,时间和相对性(1)-确定前后关系
lvm扩容(实战无废话)
论文速读:Homography Loss for Monocular 3D Object Detection
nr部分计算
Computer Basics
Excel操作技巧大全
Camtasia 2022简体中文版屏幕录像和视频编辑软件
MySQL存储函数详解
ClickHouse的客户端命令行参数
多主复制的适用场景(2)-需离线操作的客户端和协作编辑