当前位置:网站首页>卷积神经网络在深度学习中新发展的5篇论文推荐
卷积神经网络在深度学习中新发展的5篇论文推荐
2022-07-04 19:11:00 【deephub】
1、Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification
Yuya Yamamoto, Juhan Nam, Hiroko Terasawa
https://arxiv.org/pdf/2206.12230
歌唱技术是利用音色、音高和声音的其他成分的时间波动来进行富有表现力的声乐表演。它们的分类是一项具有挑战性的任务,这主要是因为两个因素:1)歌唱技术的波动种类繁多,受多种因素的影响;2)现有数据集不平衡。为了解决这些问题,论文开发了一种新的基于变形卷积的音频特征学习方法,利用类加权损失函数对特征提取器和分类器进行解耦训练。实验结果表明:1)可变形卷积提高了分类效果,特别是应用于最后两层卷积时;2)对分类器进行再训练,并通过平滑的反频率加权交叉熵损失函数,提高了分类性能。
2、CNN-based fully automatic wrist cartilage volume quantification in MR Image
Nikita Vladimirov, Ekaterina Brui, Anatoliy Levchuk, Vladimir Fokin, Aleksandr Efimtcev, David Bendahan
https://arxiv.org/pdf/2206.11127
软骨缺失的检测对骨关节炎和类风湿关节炎的诊断至关重要。到目前为止已有大量关于关节磁共振图像软骨评估的自动分割工具的论文。与膝关节或髋关节相比,腕关节软骨的结构更为复杂,针对大关节开发的自动工具无法用于腕关节软骨的分割。但是全自动腕关节软骨分割方法具有很高的临床价值,所以论文通过优化U-Net架构的深度和增加注意层(U-Net_AL),评估了U-Net架构的四种优变体的性能。并·将相应的结果与之前设计的基于patch的卷积神经网络(CNN)的结果进行比较。分割质量的评估基于使用几种形态学(2D DSC、3D DSC、精度)和体积指标与手动分割进行的比较分析。这四种网络在分割的同质性和质量上都优于基于patch的CNN。U-Net_AL计算的三维DSC中值(0.817)显著大于其他网络计算的相应三维DSC值。此外U-Net_AL CNN提供了最小的平均体积误差(17%)和相对于真实值最高的Pearson相关系数(0.765)。使用U-Net_AL计算的再现性比手动分割的再现性更大。带有附加注意力层的U-net卷积神经网络提供了最佳的手腕软骨分割性能。为了在临床条件下使用,经过训练的网络可以对代表一组特定患者的数据集进行微调。
3、EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications
Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khan
https://arxiv.org/pdf/2206.10589
为了追求精度的不断提高,通常需要开发大型和复杂的神经网络。这种模型需要很高的计算资源,因此不能部署在边缘设备上。所以构建资源高效的通用网络在多个应用领域都收到了很大的关注。这篇论文的工作有效地结合了CNN和Transformer模型的优势,并提出了一种新的高效混合架构EdgeNeXt。特别是在EdgeNeXt中,引入了分割深度转置注意力(SDTA)编码器,该编码器将输入分割为多个信道组,并利用深度卷积和跨信道维度的自注意力来隐式增加接收场并编码多尺度特征。通过在分类、检测和分割任务上的大量实验,证明了提出的方法的优点:相对较低的计算要求并优于最先进的方法。以 2.2% 的绝对增益和 28% 的 FLOP 减少的绝对增益超过了 MobileViT。EdgeNeXt模型具有5.6M参数,在ImageNet-1K上实现了79.4% top-1精度。
4、Scaling up Kernels in 3D CNNs
Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya Jia
https://arxiv.org/abs/2206.10555
2D CNN 和 ViT 的最新进展表明,大内核对于足够的感受野和高性能至关重要。受这些论文的启发,改论文研究了 3D 大内核设计的可行性和挑战。证明了在 3D CNN 中应用大卷积核在性能和效率上有更多的困难。在 2D CNN 中运行良好的现有技术在 3D 网络中是无效的,包括流行的 depth-wise convolutions。为了克服这些问题,论文提出了空间组卷积及其大内核模块(SW-LK 块)。避免了传统的 3D 大内核的优化和效率问题。论文提出的大内核 3D CNN 网络,即 LargeKernel3D,对各种 3D 任务(包括语义分割和对象检测)产生了重大改进。它在ScanNetv2语义分割上实现了73.9%的mIoU,在NDS nuScenes对象检测基准上实现了72.8%,在nuScenes LIDAR排行榜上排名第一。通过简单的多模态融合,NDS 进一步提升至 74.2%。LargeKernel3D 获得了与其 CNN 和 Transformer 相当或更好的结果。并首次证明大内核对于 3D 网络是可行且必不可少的。
5、MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth Estimates from Multi-exposure Stereo Images for HDR 3D Applications
Rohit Choudhary, Mansi Sharma, Uma T V, Rithvik Anil
https://arxiv.org/pdf/2206.10375
显示技术中的HDR捕获、处理和显示解决方案是至关重要的。在开发高性价比的3D HDR视频内容中,多曝光立体图像序列的深度估计是一项必不可少的任务。这篇论文提出并开发了一种新的深度架构用于多重曝光立体声深度估计。提出的体系结构有两个新的组件。1、对传统的立体深度估计中使用的立体匹配技术进行了改进,部署了一种立体迁移学习方法,该方法避开了成本体积构造的要求,采用基于ResNet的不同权重的双编码器和单解码器CNN进行特征融合,并使用基于effentnet的块来学习视差。2、利用鲁棒的视差特征融合方法,将不同曝光水平下立体图像的视差图进行组合。用不同的曝光获得的视差图合并使用权重图计算不同的质量。最终得到的预测视差图具有更强的鲁棒性,并保留了深度不连续的最佳特征。论文提出的CNN架构在具有挑战性的场景流和不同曝光的Middlebury立体数据集上,在定量和定性方面都超过了最先进的单眼和立体深度估计方法。该架构在复杂的自然场景中也表现得非常好,证明了它对各种3D HDR应用程序都是有用的。
https://avoid.overfit.cn/post/518cdba7f3174604bb8236cee180e353
作者:monodeep
边栏推荐
- node强缓存和协商缓存实战示例
- Is it safe for Great Wall Securities to open an account? Stock account opening process online account opening
- 最长的可整合子数组的长度
- Lingyun going to sea | 10 jump &huawei cloud: jointly help Africa's inclusive financial services
- 关于联邦学习和激励的相关概念(1)
- idea插件
- Oracle database, numbers Force 2 decimal places to display-Alibaba Cloud
- E-week finance | Q1 the number of active people in the insurance industry was 86.8867 million, and the licenses of 19 Payment institutions were cancelled
- Flet教程之 06 TextButton基础入门(教程含源码)
- Flet教程之 05 OutlinedButton基础入门(教程含源码)
猜你喜欢
复杂因子计算优化案例:深度不平衡、买卖压力指标、波动率计算
二叉树的四种遍历方式以及中序后序、前序中序、前序后序、层序创建二叉树【专为力扣刷题而打造】
How is the entered query SQL statement executed?
What if the WiFi of win11 system always drops? Solution of WiFi total drop in win11 system
What does the neural network Internet of things mean? Popular explanation
Practice examples to understand JS strong cache negotiation cache
Ziguang zhanrui completed the first 5g R17 IOT NTN satellite on the Internet of things in the world
精选综述 | 用于白内障分级/分类的机器学习技术
Jiuqi ny8b062d MCU specification /datasheet
Dynamic memory management
随机推荐
电脑页面不能全屏怎么办?Win11页面不能全屏的解决方法
Installation and use of VMware Tools and open VM tools: solve the problems of incomplete screen and unable to transfer files of virtual machines
go笔记(3)Go语言fmt包的用法
Every time I look at the interface documents of my colleagues, I get confused and have a lot of problems...
电脑共享打印机拒绝访问要怎么办
What if the win11 shared file cannot be opened? The solution of win11 shared file cannot be opened
Cdga | six principles that data governance has to adhere to
浏览器渲染页面过程
Lingyun going to sea | Wenhua online & Huawei cloud: creating a new solution for smart teaching in Africa
记录线上bug解决list(未完待续7/4)
为什么最大速度是光速
Informatics Olympiad 1336: [example 3-1] find roots and children
ICML 2022 | meta proposes a robust multi-objective Bayesian optimization method to effectively deal with input noise
FS4061A升压8.4V充电IC芯片和FS4061B升压12.6V充电IC芯片规格书datasheet
Flet教程之 06 TextButton基础入门(教程含源码)
Write it down once Net analysis of thread burst height of an industrial control data acquisition platform
BFC面试简述
What should I do if my computer sharing printer refuses access
go笔记(1)go语言介绍以及特点
Flet教程之 05 OutlinedButton基础入门(教程含源码)