当前位置:网站首页>汉字风格迁移---结合本地和全局特征学习的中文字体迁移

汉字风格迁移---结合本地和全局特征学习的中文字体迁移

2022-08-03 23:28:00 啊菜来了

Abstract

目前,深度学习在字形建模领域取得了很大进展。然而,现有的字体生成方法存在一些问题,例如缺少笔划、结构变形、伪影和模糊。为了解决这些问题,本文提出了结合局部和全局特征学习的中文字体风格迁移。该模型使用跳转连接和密集连接机制来增强网络层之间的信息传输。同时,引入特征注意层来捕捉局部和全局特征之间的依赖关系。从而达到加强局部特征学习和全局特征融合的目的。实验表明,本文方法在字体生成细节方面具有更好的性能,简化了字体生成过程,提高了生成字体的质量。

1 Introduction

随着互联网媒体的迅速崛起,人们在社交和办公中会接触到各种字体,对多风格个性化中文字体应用的需求也越来越大。然而,汉字的数量是巨大而多样的。传统的字体生成方法依赖于字体笔划的拆分和重组或字体骨架的变形和匹配。它们受先验知识的影响很大,需要人工监督和干预,算法复杂且效率低下。因此,探索更有效的字体设计方法,通过人工智能开发各种风格的字体具有重要意义。

早期对字形迁移的研究主要集中在分离字体的骨架内容和样式,变形和匹配两种字体的骨架,提取样式的特征并将其映射到变形的骨架以生成样式字体[1]。骨架变形算法存在算法流程复杂、字体生成效率低的缺点。后来,提出了分解汉字笔划,映射和匹配两种字体的笔划,并将样式字体与匹配的笔划重新组合[2,3]。然而,笔划的分解和重组过程很繁琐,并且受先验知识的影响很大。

随着深度学习的发展,研究人员开始研究图像中的字形建模,并训练网络学习从源字体到目标字体的映射[4,5]。Atarsaikhan等人[6]将自然风格转换应用于字体生成,并通过风格损失和内容损失调整网络模型,实现英文字母的风格转换。Paul等人[7]提出了一种改进的变分自动编码器,该编码器通过构造相似的目标来捕获像素协方差,并从单个字母生成一组风格相似的字母图像。Baluja等人[8]提出了一种基于深度神经网络的英文字体生成方法。该网络通过学习特定字体的四个字母的特征来生成相同样式的剩余字符,但生成的字符边缘模糊。Kumarbunia等人[9]。使用深度递归卷积神经网络有效处理任意宽度的字符图像,对文字图像进行端到端训练,并保持最终图像的一致性。

与简单的英文字符和阿拉伯文字符相比,复杂多样的中文字体风格转换更具挑战性。张等人提出了一个框架使用递归神经网络(RNN)作为汉字识别的判别模型和汉字生成的生成模型。然而,它并不适合生成复杂的字形[10]。重写方法[11]设计了卷积网络结构,可以生成相对标准的字体,但用户需要书写数千个汉字。这种效果不利于书写涂鸦,与参考字体风格有很大差异。Zi2Zi方法[12]将同时考虑汉字和样式嵌入来生成目标字符,但仍然存在模糊和虚假边缘。生成的图示符的质量不够高。Lyu等人[13]提出了一种基于编码器和解码器的网络模型(AEGG),该模型可以从标准汉字图像中合成特定风格的书法图像。然而,书法字体的笔画风格被严重扭曲。Chang等人[14]提出了一种使用CycleGAN[15]的手写字体生成方法(HCCG)。作为主要框架,源域和目标域的非配对数据集用于训练生成手写体汉字字体。但生成的笔迹仍然存在漏笔和冗余笔划的现象。姜等人[16]提出了一种手写体汉字自动识别方法(DCFont)。它由字体特征重构网络和字体样式转换网络组成,将内容和样式表示与类别嵌入连接起来,生成手写字体。

针对现有方法存在的问题,提出了结合局部和全局特征学习的中文字体迁移方法。每个汉字都被视为一幅画。通过局部残差学习和全局特征融合,可以更好地学习字体的笔划细节特征。本文的主要贡献如下:

(1) 以剩余密集块作为核心转换模块,结合跳转连接和密集连接机制,增强网络层之间的信息传递。
(2) 在上采样层引入特征注意机制,作为卷积网络的补充,以捕捉图像中长距离像素之间的关系。
(3) 结合基于Wasserstein距离的对抗损失、像素损失、感知损失和结构一致性损失,共同稳定网络训练。

2 Related work

2.1 Pix2Pix network

条件生成对抗网络(CGAN)[17]在原始生成对抗网络的基础上增加了条件扩展[18]。模型的输入是随机变量z和条件变量x。添加的信息x用于向模型添加约束,以指导数据生成过程。生成器G需要生成与真实数据y匹配的样本,鉴别器D不仅需要判别图像是否真实,还需要判别图像与条件x是否匹配。

为了实现从图像到图像的转换,Pix2Pix[19]采用了CGAN的思想。此时,生成器中的附加信息不再是标签信息,而是需要转换的图像。Pix2Pix使用配对训练数据。在图像转换任务中,一个训练数据可以表示为两个图片{x,y}的集合,其中x是源图像,y是目标图像。生成器G的输入不再是随机噪声矢量z,而是需要转换的源图像x。鉴别器D不再判断单个图片的真假,而是判断数据{x,y}和{x,G(x)}对的真假。

2.2 Residual dense network

研究发现,随着网络深度的增加,训练更加困难,并且容易发生梯度爆炸或梯度消失。他等人[20]首先提出了剩余网络(ResNet),它将每一层与前一层的短路连接起来。如图1所示,跳跃连接使网络之间的数据传输更加平滑,并改善了梯度消失引起的欠拟合现象。DenseNet[21]是指每一层都与信道维度中的所有先前层拼接在一起,如图2所示。与Resnet相比,DenseNet提出了一种更激进的密集连接机制,即每一层接受所有先前层作为额外输入,密集连接有效地缓解了梯度消失问题,增强了特征传播。

张等人[22]提出了基于密集网络的剩余密集网络(RDN)。剩余密集块(RDB)是RDN的构建模块。RDB模块由卷积层和激活层组成的特征提取单元组成,特征提取单元重复串联,剩余密集块的结构如图3所示。剩余密集块将剩余块和密集块集成,读取前一个RDB状态通过连续存储机制,并通过局部密集连接充分利用每个卷积层的特征,自适应地保留累积的特征。

3 Artfont generation model艺术自已生成模型

本文提出了结合局部和全局特征学习的中文字体迁移网络。为了在图像域转换过程中提高生成图像的真实性并获得高质量的字体迁移图像,整体网络结构如图4所示。整个框架由两个子网络组成:生成器和鉴别器,以及相应的目标丢失函数。

(1) 生成器网络结构由编码器、剩余密集块和解码器组成。编码器由卷积神经网络组成。剩余致密块用作核心转换模块。译码器由反卷积和特征注意层组成。在维护字体结构信息的同时,更改汉字样式信息。
(2) 鉴别器由基于补丁的网络结构组成。鉴别器网络对生成的字体图像数据和真实字体图像数据执行真实性判别,并使用范围[0,1]中的数字来测量生成的图像和真实图像之间的相似性。
(3) 为了指导生成更逼真的字体,我们将像素损失、感知损失和结构一致性损失结合起来,形成生成器损失函数。我们使用WGAN-GP的目标损失作为判别损失函数。当真实图像和生成的图像之间的相似性较低时,可以生成较大的损失函数。鉴别器通过监测损失函数将发电机训练到更好的方向。最后,模型生成更接近真实图像的分布,提高了生成字体的质量。

3.1 Generative network

生成器的输入层将目标字体作为标签信息和源字体一起发送给编码器。编码器提取字体图像的内容和样式特征。该编码器由3个卷积层(Conv)、BatchNorm(BN)和ReLU激活函数组成。转换模块由6个残余致密块组成。剩余密集块增强了特征在层之间的传递,并更有效地利用了特征。解码器包括两个反褶积层(Deconv)、BatchNorm、ReLU激活函数和特征注意层。最后一个卷积层使用Tanh激活函数输出生成的样式字体图像。

(1) Local residual learning

如图5所示,本文中的剩余密集块由6个卷积层、ReLU激活函数和1×1局部特征融合层组成。在原始剩余块的基础上移除BN层,从而减少内存占用并增加网络参数的数量。前一个卷积层直接连接到每个后续层的输出,而跳转连接添加到起始层和最后一层。这不仅保留了前馈特性,而且充分提取了局部特征层信息,提高了网络容量。在RDB中,有多个卷积层,第i卷积层的输出为:
在这里插入图片描述
其中σ表示ReLU激活函数。Wn,i表示第n个RDB块中的第i个卷积运算。Fn-1表示第n-1个RDB的输出,[Fn,1,…,Fn,i−1] 表示之前通过密集连接的i-1卷积的输出。
在这里插入图片描述
其中Fn,LF表示concat后1×1的卷积运算,用于压缩输出的维数,并减少残余块中特征融合引起的参数增长。
在这里插入图片描述

为了充分利用特征信息并保持梯度状态,Fn在Fn、LF和前一个梯度的输出之间执行跳连接特征映射通过残差块时的RDB。通过将以前的RDB输出信息与当前RDB输出特征相结合,保证了层次信息不会丢失,并形成局部残差学习。

(2) Global residual learning

RDB的全局信息集成可以更有效地从以前和当前的局部特征中学习更有效的特征,并稳定更广泛网络的训练。全局特征融合(GFF)拼接8 RDB的输出:
在这里插入图片描述
HGFF是由1×1卷积和3×3卷积组成的复合函数。使用1×1卷积层自适应融合不同RDB层的特征,然后引入3×3卷积层进一步提取特征以进行全局残差学习。在确保深层结构的同时,为了确保网络中各层之间的最大信息流,通过浅层特征F0和全局融合特征FGF之间的残余连接来获得FDF。最后,卷积层将特征向量恢复到图像中,减少了不必要的内容结构和无关图像域的信息丢失。
在这里插入图片描述

(3) Feature attention mechanism

生物科学家发现,当许多动物专注于视觉活动时,他们会首先观察整个视野,获得一个值得注意的焦点区域,慢慢聚焦并形成一个注意力焦点,然后视觉中心会命令眼球将更多注意力放在该区域,以获得更丰富完整的图像细节。本文中的特征注意机制来自文献[23]中提出的非局部神经网络。对于图像生成任务,张等人[24]提出了自注意力生成对抗网络(SAGAN),该网络将非局部神经网络和生成对抗网络相结合,可以处理远程和多级图像依赖。如图6所示,传统卷积神经网络模型在特征地图的局部点生成图像细节,而自注意力机制基于所有特征点生成细节,因此每个位置的细节与远端的细节很好地协调。

由于生成网络中的卷积神经网络受到卷积核大小的限制,它无法捕获有限网络层次中的全局依赖性。为了增加局部和全局特征之间的依赖信息,引入了特征注意力模型,如图7所示。结合全局和局部空间特征信息,建立图像每个位置像素之间的近距离和远距离相关性,提高生成图像的协调性和质量。

在图7中,特征注意力模块采用输出特征张量x∈ 前一隐层信道数C的RC×N,大小N=高度×宽度作为输入,使用两个卷积核大小为1×1,信道数为C的卷积网络C’ = C / 8 ,,得到两个特征空间f和g,如公式(6)所示:
在这里插入图片描述
其中。通过乘以张量计算两个特征空间f和g的相似性Sij,并使用softmax函数归一化权重훽j、 在计算位置j的值时,对位置i的值进行修正,从而获得特征注意层的参数。

在这里插入图片描述

注意力权重矩阵由以下公式组成:훽j、 i,表示第i个位置特征对第j个位置特征的影响。两个位置特征越相似,它们之间的相关性越大。特征注意力机制的最终输出如公式(8)所示:
在这里插入图片描述
在公式中,h是输入信息x和权重矩阵Wh的乘积∈ 为了在局部依赖的基础上增加全局依赖,在矩阵中加入注意模块和原始卷积特征映射。y是输出特征图,注意层的输出乘以比例参数,并累积原始输入特征图。最后,通过注意力机制的卷积输出为:

在这里插入图片描述
在训练过程中,比例参数γ从0增加。该网络首先更依赖于局部区域,然后逐渐向远程区域分配权重以更新学习。

在这里插入图片描述

在这里插入图片描述

3.2 Discriminative network

为了更好地判断图像的局部性,本文使用基于补丁的网络结构对图像进行身份验证。如图8所示,通用两分类器输出真或假向量,其表示整个图像的评估。基于面片的鉴别器将输入图像映射为N×N个面片,并分别判断每个面片是真是假。最后,取平均值作为最终输出。基于面片的网络的优点是D的输入变小,计算量小,训练速度快,因此模型可以更加关注细节。通过识别每个面片,提取并表征局部图像特征。这有助于局部特征和全局特征的融合,以实现更高质量的图像生成。

如图9所示,鉴别器的网络结构均由卷积组成。输入图像为256×256字体图像。第一个卷积模块由卷积层和激活函数泄漏Relu(LReLU)组成。在第二、第三和第四卷积层之后是BatchNorm(BN)和LReLU,这可以提高网络速度并尽可能避免模式崩溃。卷积核大小为4×4,图像大小减半,通道数翻倍。前三层的幻灯片步长为2,后两层为1。丢弃池层可以增强模型对图像细节的描述。最后的卷积层将输出映射到概率分数[0,1]。

3.3 Loss function

为了生成具有良好视觉效果和结构完整性的字体图像,生成器将像素损失、感知损失和结构一致性损失与适当的权重相结合,形成一个新的细化损失函数。该鉴别器使用WGAN-GP的损失函数,通过wasserstein距离测量两个分布之间的距离和差异,并使用梯度惩罚机制代替权重剪裁。通过生成器和鉴别器之间的对抗训练,实现了不同汉字字体之间的风格转换。

(1) Generator loss function

本文使用生成的字体和真实字体之间的L1距离作为像素级损失,以便生成的图像和目标图像尽可能相似。因为其优化过程比交叉熵损失更稳定,并且比均方误差和L2距离的约束结果更尖锐。生成的图像为G(x,l),对应的地面真实目标图像为y,则L1损耗表示为公式(10):
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

为了更好地表征图像的主观质量,使用了图像样式转换中常用的感知损失[25]。本文使用的深度卷积网络是在ImageNet上预训练的VGG-19网络分类任务。生成的图像是G(x),对应的地面真实图像是y。我们在VGG-19网络中使用三个中间层来约束特征的相似性,即conv3\u 4、conv4\u 4和conv5\u 4层。如公式(11)所示。
在这里插入图片描述
其中φi是VGG19的i层网络。

对于同一标签下的汉字,虽然训练数据中的不同样本图像具有不同的字体样式,但生成的汉字应尽量保持相应标签下的正确笔划结构。在模型训练过程中,需要限制生成器G学习的映射函数的范围,并减少不规则笔划数据引起的干扰。因此,为了测量生成的字体图像与真实字体图像之间的差异,本文提出了结构一致性损失。它可以减少生成的图像和真实图像之间的字体结构差异,并限制生成器G的映射范围。结构一致性损失表示为:
在这里插入图片描述
在这里插入图片描述
【哪里μx和μy是图像的平均值;是图像的方差;是协方差;c1和c2用于保持稳定常数。】

对像素损失、感知损失和结构一致性损失进行加权和叠加,以获得生成网络的损失函数,该损失函数表示损失函数的权重系数。

在这里插入图片描述

(2) Discriminator loss function

在原始GAN[18]中,当两个分布之间没有重叠时,Jensen-Shannon散度无法为生成器提供连续有效的梯度,这导致模型失败。wasserstein距离反映了从一个分布到另一个分布的最小损失。即使没有重叠,它也可以测量两个分布之间的距离,并为生成器提供连续有效的梯度。因此,瓦瑟斯坦生成对抗网络(WGAN)[26]使用瓦瑟斯坦距离来测量两个分布之间的差异。wasserstein距离也称为土方工程距离,定义如下:
在这里插入图片描述
WGAN的鉴别器定义为D,Wi∈ [−c、 c]目标函数为:
在这里插入图片描述
然而,WGAN的权重削减实践过于直接和粗鲁,这可能会导致梯度消失或梯度爆炸。针对这个问题,WGANP网络[27]改进了WGAN网络,并提出使用梯度惩罚机制代替权重裁剪。Lipschitz极限可以通过设置附加损耗来表示[(||∇∼xD(∼x) | | 2− K] 2,将K设置为1,并结合WGAN的原始损耗。在本文中,鉴别器的输入数据与图像标签y集成,标签信息指导生成器的样本生成。鉴别器D的损失函数如下:
在这里插入图片描述
∼x通过xr和xg、xr之间的线上的随机差进行采样∼ Pr,xr∼ 公共关系,휀 ∼ 均匀[0,1]。

WGAN-GP进一步稳定了GAN的训练过程,并确保生成结果的质量。鉴别器目标函数的大小表示网络训练过程。L(D)值越小,网络训练度越好,通过目标函数的变化,直观地显示网络训练的质量和收敛性,解决了网络训练不稳定的问题。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4 Experiments

4.1 Data sets

为了验证本文的算法,需要大量的汉字样本数据。研究中使用的字体来自public founder字体库。TrueType字体由python脚本解码,以构建775个字体样本数据。字体图像按9:1的比例分为训练集和测试集。700个汉字用作训练集,75个字符用作测试集。字体图像大小为256×256。本文选择的源域字体为宋体,目标域字体为其他六种样式,如黑体、靖宇、增白、马拉、本末和兴凯。

本文使用了均方误差(MSE)、信噪比(PSNR)、结构相似性(SSIM)和视觉信息保真度四个不同的客观指标(VIF),以及用户版本(UV)的主观指标。它们用于从不同级别的图像低频信息、结构信息和图像感知来评估生成图像的质量。
在这里插入图片描述

4.2 Network model training

本文采用对抗训练的思想对汉字字体传输网络进行了优化。模型输入图片的大小为256×256。在训练期间,损失函数的权重设置为휆像素=10,휆感知=1,휆SSIM=1。Adma算法(β1=0.5,β2=0.9)用于优化训练过程中的梯度。Heusel等人[28]提出的TTUR策略用于补偿鉴别器的缓慢学习。鉴别器和生成器使用不同的学习速率来平衡其训练速度。鉴别器和生成器的学习率分别为0.0002和0.0001。迭代次数为100。
在这里插入图片描述
在这里插入图片描述

4.3 Experimental analysis of different methods

基于图像变换的方法是字体生成的主要方法,也是本文的基础。本节将FTFNet与五种基于图像转换的字体生成方法进行比较。它们是Pix2Pix[19]、AEGG[13]、HCCG[14]、Zi2zi[12]和DCFont[16]。选择宋体作为源字体(S字体),其他五种字体作为目标字体(T字体)。为了展示该方法在字体细节生成中的优势,本文将一些笔划细节放大了4倍。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在图10中,宋体被转换成靖宇体,测试并显示了三个汉字“韩”、“柔”和“易”。Pix2Pix生成的字体具有严重的假轮廓、缺失的细节和不完整的结构。这是因为Pix2Pix网络主要研究图像转换。中文字体不仅要达到完整的字体结构,还要清晰地再现笔画轮廓的细节。因此,不可能使用准确的语义,更好地学习字体的风格。AEGG法“韩”字边缘参差不齐,轮廓不清。HCCG生成的汉字轮廓是平滑的,但从字体的整体结构来看,如“易”,存在笔划变形。Zi2Zi方法生成完整的字体结构,但存在噪声和伪轮廓。用于生成字体的DCFont方法更加详细和完整。由于字体结构复杂,笔划数量大,五种比较方法在生成目标字体时,既不能完全保持汉字字体,也不能学习字体的详细特征。与其他方法相比,从视觉评价的角度来看,本文的FTFNet生成的字体平滑,字体形状准确完整,字体的拓扑细节保持良好。

每种字体样式都不同,字体细节也不同。对于具有类似字体结构和源字体的字体,如图所示。11和12,分别是海蒂和本莫。字体笔划粗细均匀,网络学习功能也有所减少,因此生成的效果比其他字体更逼真。如图所示。13和14,这是马拉字体和增白字体的生成效果。与靖宇字体一样,它们的结构与原始字体(宋体)风格有很大的变化,因此生成的结果在字形结构中有一个小偏差。然而,本文对字体细节具有良好的生成效果,并将整体生成效果与主流深度学习算法进行了比较。FTFNet网络增强了局部残差学习和全局特征融合。字体生成效果大大提高,细节逼真。

如表1所示,FTFNet生成的五种字体在5个指标上超过了其他比较方法。MSE指标平均下降0.0985。PSNR、SSIM和VIF指标平均增加1.2855、0.3205和0.0365。同时,用户视觉评估的定量指标也超过75%。他们证明,本文的模型能够充分学习字体的局部细节特征和全局结构特征,能够很好地适应数据分布。在保留汉字拓扑结构信息的同时,可以很好地生成详细的风格字体的特征,生成的字体效果质量高,生成的效果边缘平滑,字体清晰,字体风格迁移效果最好。

4.4 Comparative analysis of generated network

生成器引入剩余密集网络。残余致密块体将残余块体和致密块体结合在一起。与ResNet和DenseNet相比,剩余密集网络加强了各层之间的特征传递。CNN网络使用DCGAN的[29]生成器组成原理,U-Net使用编码器-解码器和跳过连接[30]。将CNN、U-Net、ResNet和DenseNet的实验与本文的方法进行了比较。我们把凯蒂转让给兴凯。实验效果图如图15所示。CNN生成的实验结果非常差,几乎看不到字体的风格特征。U-net网络和ResNet网络对于粘附的字体细节存在遗漏一些笔划的现象。DenseNet和resdenet生成的字体结果相似,字体连续笔划的细节不够完整。从视觉上看,本文的方法在字体细节上略有改进,字体结构完整。结合表2中的评价指标,MSE的平均下降为0.1066,PSNR的平均增加为2.0807,SSIM的平均增加值为0.1297,VIF平均增加0.0247,用户评价指数也达到80%。本文的方法在字体生成的细节方面有了很大的改进。字体和样式保持最佳。

4.5 Experimental analysis of loss function ablation

为了研究FTFNet网络损耗函数的功能,本节对模型损耗函数进行了烧蚀实验。在删除不同损失函数的情况下,比较生成相同目标字体的效果。

(1) Generator loss function

分别研究去除像素损失、感知损失和结构相似性损失后的图像生成效果和指标评估结果。L1损失函数作为像素损失,用于测量图像像素级的差异,这使得网络在考虑图像像素信息重建的同时,关注图像特征的信息。感知损失是一种特征级损失。其目的是在卷积神经网络中使迁移前后的图像特征表达更接近,从而保留图像的某些因素。SSIM损失函数改善了生成图像和目标图像之间的分布相似性。本文以宋体为源字体,靖宇体为目标字体,比较了损耗函数的烧蚀实验效果。

如图16所示,在去除像素损失后,无法学习样式字体的特征。生成的字体仅在源歌曲字体上轻微变形,导致更多的噪声点。去除感知损失的生成效应具有严重的伪轮廓,字体的样式细节失真。去除结构相似性损失的笔划细节变形和缺失。与其他方法相比,本文中生成的字体有一些改进,并且接近目标字体的样式。客观评价指标如表3所示。在对每个损失函数进行合理加权后,可以同时加强图像浅层和深层特征的约束,并提高生成图像的整体质量。

(2) Discriminator loss function

为了解决训练梯度消失的问题,提出了LSGAN[31]、WGAN[26]和WGAN-GP[27]。传统的GAN使用简单的交叉熵损失进行更新。LSGAN随着均方误差损失而更新,但LSGAN对异常值的过度惩罚可能会导致样本生成的多样性降低。WGAN使用wasserstein距离而不是Jensen-Shannon距离来测量真实样本和生成样本之间的距离。WGAN-GP使用梯度惩罚来满足lipschitz连续性条件。本文使用LSGAN、WGAN和WGAN-GP的目标函数作为实验的判别损失函数。实验结果如图17所示。LSGAN生成的字体图像具有严重的假轮廓和扭曲笔划。WGAN和WGAN-GP在轮廓上具有良好的过渡。WGAN-GP比WGAN训练更稳定,在细节上更接近目标图像。结合表4中的客观评价,本文中的损失函数比其他两个损失函数具有更好的生成效果。

5 Summary

本文提出了一种基于局部和全局特征学习的中文字体迁移方法。我们将每个汉字字体视为一幅图片,不依赖于早期的预处理和后期的笔划重组。该网络模型引入了残差密集网络,增强了局部残差学习和全局特征融合,增强了网络层之间的信息传递。同时,在下采样层引入了特征注意机制,可以捕捉局部特征和全局特征之间的依赖关系。本文提出的算法有效地提高了中文字体生成的质量,实现了不同字体的风格迁移。然而,本文中的网络模型明确地学习了从特定源样式到给定目标样式的转换,因此学习的模型不能推广到新样式。因此,如何在不进行再训练的情况下学习更多的字体样式特征并提取更复杂的特征模式也是图像样式转换领域的研究方向。

致谢这项工作得到了两个基金的支持。他们是:基于人工智能的古代碑文书法文化传承技术研究,62076200,中国国家自然科学基金;基于人工智能字体生成技术应用研究,2020JM468,陕西省教育厅自然科学基金。

References

  1. Yu Kai (2010) Research on some key technologies of computer
    calligraphy, Zhejiang University
  2. Xu S, Jin T, Jiang H et al (2009) Automatic generation of personal
    Chinese handwriting by capturing the characteristics of personal
    1547Pattern Analysis and Applications (2021) 24:1533–1547
    1 3
    handwriting[C]. In: Proc of the 21st innovative applications of
    artificial intelligence conference. [S.I.]: IAAI-09, pp 191–196
  3. Zhou B, Wang W, Chen Z (2011) Easy generation of personal
    Chinese handwritten fonts
  4. Chang J, Gu Y (2017) Chinese typography transfer. arXiv: Com-
    puter Vision and Pattern Recognition
  5. Zheng Z, Zhang F (2018) Coconditional autoencoding adversar-
    ial networks for Chinese font feature learning. arXiv: Computer
    Vision and Pattern Recognition
  6. Atarsaikhan G, Iwana B K, Narusawa A et al (2017) Neural font
    style transfer. In: Iapr international conference on document analy-
    sis & recognition
  7. Upchurch P, Snavely N, Bala K et al (2016) From A to Z: super-
    vised transfer of style and content using deep neural network gen-
    erators. arXiv: Computer Vision and Pattern Recognition
  8. Baluja S 2017 Learning typographic style: from discrimination to
    synthesis. machine Vis Appl 28(5): 551–568
  9. Kumarbhunia A, Kumarbhunia A, Banerjee P et al (2018) Word
    level font-to-font image translation using convolutional recurrent
    generative adversarial networks. In: international conference on
    pattern recognition, pp 3645–3650
  10. Zhang X Y, Yin F, Zhang Y M et al (2018) Drawing and recog-
    nizing Chinese characters with recurrent neural network. IEEE
    TransPattern Anal Machine Intell 40(99):849–862
  11. Tian. ReWrite. Retrieved from https:// github. com/ kaonashi -tyc
    /Rewrite/. (2016)
  12. Tian. ReWrite. Retrieved from https:// github. com/ kaonashi-tyc/
    zi2zi/. (2017)
  13. Lyu P, Bai X, Yao C et al (2017) Auto-encoder guided GAN for
    Chinese calligraphy synthesis. In: international conference on
    document analysis and recognition, pp 1095–1100
  14. Chang B, Zhang Q, Pan S et al (2018) Generating Handwritten
    Chinese Characters Using CycleGAN. Workshop on applications
    of computer vision, pp 199–207
  15. Zhu J Y, Park T, Isola P et al (2017) Unpaired image-to-image
    translation using cycle-consistent adversarial networks. In: Pro-
    ceedings of the IEEE international conference on computer vision,
    pp 2223–2232
  16. Jiang Y, Lian Z, Tang Y et al (2017) DCFont: an end-to-end deep
    chinese font generation system. In: international conference on
    computer graphics and interactive techniques
  17. Mirza M, Osindero S (2014) Conditional generative adversarial
    nets. arXiv:1411.1784
  18. Goodfellow I, Pouget-Abadie J, Mirza M et al (2014) Generative
    adversarial nets. Advances in neural information processing sys-
    tems, pp 2672–2680
  19. Isola P, Zhu JY ,Zhou T et al (2017) Image-to-image translation
    with conditional adversarial networks. Computer vision and pat-
    tern recognition (CVPR), pp 5967–5976
  20. He K, Zhang X, Ren S et al (2016) Deep residual learning for
    image recognition. In: Proceedings of the IEEE conference on
    computer vision and pattern recognition. IEEE, pp 770–778
  21. Huang G, Liu Z, Weinberger KQ, van der Maaten L (2017)
    Densely connected convolutional networks. CVPR
  22. Zhang Y, Tian Y, Kong Y et al (2018) Residual dense network for
    image super-resolution. In: Proceedings of the IEEE conference
    on computer vision and pattern recognition, pp 2472–2481
  23. Wang X, Girshick R, Gupta A et al (2017) Non-local neu-
    ral networks[C]. Computer vision and pattern recognition, pp
    7794–7803
  24. Zhang H, Goodfellow I, Metaxas DN et al (2018) Self-attention
    generative adversarial networks. arXiv: Machine Learning
  25. Johnson J, Alahi A, Li FF Perceptual losses for real-time style
    transfer and super-resolution. In: European conference on com-
    puter vision
  26. Arjovsky M, Chintala S, Bottou L (2017) Wasserstein GAN[J].
    arXiv:1701.07875
  27. Gulrajani I, Ahmed F, Arjovsky M et al (2017) Improved training
    of Wasserstein GAN. arXiv:1704. 00028
  28. Heusel M, Ramsauer H, Unterthiner T, Nessler B, Hochreiter S
    (2017) Gans trained by a two time-scale update rule converge to a
    local nash equilibrium. In: Proceedings of the 31th conference on
    neural information processing systems, Long Beach, California,
    US: MIT Press, pp 6626−6637
  29. Zhu W, Miao J, Qing L et al (2015) Unsupervised representation
    learning with deep convolutional generative adversarial networks
    computer science. arXiv:1511.06434
  30. Zhang Lyumin, Ji Yi, Lin Xin et al (2017) Style transfer for anime
    sketches with enhanced residual U-net and auxiliary classifier
    GAN [C]. In: Proc of the 4th Asian conference on pattern recog-
    nition. Piscataway, NJ: IEEE Press, pp 506–511
  31. Mao X, Li Q, Xie H et al (2017) Least squares generative adver-
    sarial networks. In: International conference on computer vision,
    pp 2813–2821
原网站

版权声明
本文为[啊菜来了]所创,转载请带上原文链接,感谢
https://blog.csdn.net/m0_61985580/article/details/126138251