当前位置:网站首页>CVPR 2022|极具创意&美感的文字生成方法!支持任意输入
CVPR 2022|极具创意&美感的文字生成方法!支持任意输入
2022-06-28 21:33:00 【智源社区】
本文简要介绍CVPR 2022录用的论文“Aesthetic Text Logo Synthesis via Content-aware Layout Inferring” 。该论文旨在探究文字标识图像设计过程 中的布局自动生成问题。该论文基于条件式对抗生成网络(conditional-GAN),提出双判别器结构和可微分拼接模块,根据输入文字的视觉和语义信息,推理得到每个字形的布局几何参数,从而合成文字标识图像。该方法可以辅助平面设计和其他与文字相关的视觉任务。该工作相关数据集和代码已经开源(见文末)。
论文: https://arxiv.org/abs/2204.02701
数据集和代码: https://github.com/yizhiwang96/TextLogoLayout
一、研究背景
文字标志(Text Logo)的设计非常依赖于设计师的创意和经验,其中,如何安排每个文字元素的布局是一个核心问题。布局设计需要考虑到很多因素,如字形、文字语义、主题等。如图1所示,不同的文字之间通常不能有形状重叠;中文标识中换行或换列通常在词元(Token)之后;对于要强调语义的文字,通常使用较大的尺寸;斜切和旋转等几何变换可以分别体现力量感和欢乐感等主题。业内现有的方案大多是设计一套易于执行的规则,按照一些预先设定好的模板来设计布局,但是生成的结果往往会比较单调且缺乏创意和美感。针对这个问题,本论文提出了一种内容感知的文字标志图像生成模型,从大量现有的文字Logo中隐式地学习布局设计规则,从而能够对任意输入的字形生成新的Logo。

图1 文字标识图像中常见的布局类型
二、数据集
训练AI模型通常需要大量的数据,然而业内尚不存在针对该任务的数据集。为了解决该问题,本文提出了TextLogo3K数据集,借助腾讯视频平台,收集、标注了3,470张精心挑选的文字Logo图,这些Logo来源于电影、电视剧和动漫的封面图。如图2和图3所示,该数据集对字形进行了像素级别的精准标注,也标注了字形包围框、字符类别。

图2 TextLogo3K中Logo图像的标注
同时,它们在原海报图片中的位置和分割信息也一并提供:

图3 TextLogo3K中海报图像的标注
该数据集免费提供给用户做学术研究使用(禁止任何商业用途)。除了文字Logo生成,该数据集同样可以应用于文本检测和识别、艺术字体生成、纹理特效迁移、场景文字编辑等任务。
三、模型设计
本模型的流程框图如下图所示:

图4 本文模型流程框图
本模型基于Conditional GAN来生成文字Logo,创新性地使用双判别器结构(序列判别器和图像判别器),对字形的轨迹序列和整体Logo图像分别做判别;同时借助可微分拼接(Differentiable Composition),构建位置坐标到Logo图像的可微分渲染过程。其主要的流程包括:
- 首先利用输入元素的双模态的特征(即字形视觉特征和文本语义特征),将其编码成条件特征。
- 坐标生成器采用条件特征和一个随机噪声作为输入, 为每个字符预测位置坐标,即字形外接框的中心点坐标,宽和高。
- 每个字符的位置坐标形成一条轨迹序列,故采用一个序列判别器去根据条件对序列和做真假判别。注意到本任务中坐标值是连续的,保证了序列判别器可以传播梯度。
- 通过可微分拼接,合并每个字形得到的Logo图像。
- 引入图像判别器,作为序列判别器的补充,目的是进一步捕捉到标志图像的细节信息,保证不同的字形之间不会有较大的重叠,字形间距合理等。
边栏推荐
- Ehcache配置资料,方便自己查
- User network model and QoE
- LeetCode每日一题——30. 串联所有单词的子串
- How to make up the PMP Exam? How much is the make-up exam?
- Deep interpretation of WiFi security vulnerability krack
- Can you make money by speculating in stocks? It's safe to open an account
- Apisik helps Middle East social software realize localized deployment
- Postman introduction and installation steps
- Anr problem - camera related debug
- 【读书会第13期】视频文件的封装格式
猜你喜欢
![[Note: circuit intégré MOS analogique] référence de bande Gap (principe de base + mode courant + circuit en mode tension)](/img/cd/be62272d465ca990456c222b38df67.png)
[Note: circuit intégré MOS analogique] référence de bande Gap (principe de base + mode courant + circuit en mode tension)

17 `bs对象.节点名h3.parent` parents 获取父节点 祖先节点

接口用例设计

视频号如何下载视频?来看超简单方法!

Recommend two high-quality Wallpaper software

Smarca2 antibody study: abnova smarca2 monoclonal antibody protocol

Activate function

【筆記:模擬MOS集成電路】帶隙基准(基本原理+電流模+電壓模電路詳解)

with torch. no_ Grad(): reason for using

Interface use case design
随机推荐
Leetcode daily question - 324 Swing sort II
Is it safe to open a dig money account? Is it reliable?
Web automation tool selection
Bitbucket 使用 SSH 拉取仓库失败的问题
Leetcode: merge K ascending linked lists_ twenty-three
LeetCode每日一题——剑指 Offer II 091. 粉刷房子
力扣树的进一步应用
GlobalSign的泛域名SSL证书
图神经网络也能用作CV骨干模型,华为诺亚ViG架构媲美CNN、Transformer
Study on luminiprobe non fluorescent azide -- 3-azido propanol
Explanation and usage of sqrt() function
LeetCode986. 区间列表的交集
Postman introduction and installation steps
LeetCode:合并K个升序链表_23
Leetcode daily question - 515 Find the maximum value in each tree row
ID access card copied to mobile phone_ How to turn a mobile phone into an access card mobile NFC copy access card graphic tutorial
postman简介与安装步骤
视频号如何下载视频?来看超简单方法!
QT 一个控件的坐标怎么相对固定显示在另一个控件上(坐标系)
Workplace tips | understanding the advantages of the position "knowing people"