当前位置:网站首页>多模态 参考资料汇总
多模态 参考资料汇总
2022-08-03 19:24:00 【friedrichor】
介绍
数据集
- The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database
数据库范围:情绪表达的识别与分析、人类二元互动分析、情绪敏感的人机界面和虚拟代理的设计
信息:关键词:情感、多模式、表演、二元;语言:英语;10名演员:5男5女;情绪激发技巧:即兴创作和脚本
可用的方式:动作捕捉人脸信息;演讲;视频;头部运动和头部角度信息;对话转录;词级、音节级和音素级对齐 - MS COCO (Microsoft Common Objects in Context)
MS COCO 数据集的第一个版本于 2014 年发布。它包含 164K 图像,拆分为训练 (83K)、验证 (41K) 和测试 (41K) 集。2015 年发布了额外的 81K 图像测试集,包括以前的所有测试图像和 40K 新图像。
目标检测:具有 80 个对象类别的边界框和每个实例的分割掩码,
字幕:图像的自然语言描述(参见 MS COCO 字幕),
关键点检测:包含超过 200,000 张图像和 250,000 个用关键点标记的人员实例(17 个可能的关键点,例如左眼、鼻子、右臀部、右脚踝),
填充图像分割: 具有 91 个填充类别的每像素分割掩码,例如草、墙、天空,
全景:全场景分割,有 80 个事物类别(例如人、自行车、大象)和 91 个事物类别的子集(草、天空、道路),
dense pose:超过 39,000 张图像和 56,000 个使用 DensePose 注释标记的人员实例——每个标记的人员都使用实例 ID 以及属于该人体的图像像素与模板 3D 模型之间的映射进行注释。注释仅对训练和验证图像公开可用。
论文+代码
- 多模态预训练模型综述(论文+代码汇总)
- Recent Advances in Vision and Language PreTrained Models (VL-PTMs)(视觉和语言预训练模型 (VL-PTM) 的最新进展)(论文+代码汇总,最后更新于2021/06/14)
…
边栏推荐
- ctfshow php features
- awk语法-02-运算、数组、格式化输出
- 关于2022年度深圳市技术攻关重大项目的申报通知
- 阿里二面:多线程间的通信方式有几种?举例说明
- LeetCode 952. Calculate Maximum Component Size by Common Factor
- Handler source code analysis
- Network protocol-TCP, UDP difference and TCP three-way handshake, four wave
- Matlab论文插图绘制模板第42期—气泡矩阵图(相关系数矩阵图)
- 【木马免杀】
- 利用net-snmp的库实现snmpget,snmpset
猜你喜欢
随机推荐
X86函数调用模型分析
【统计机器学习】线性回归模型
C#爬虫之通过Selenium获取浏览器请求响应结果
Postgresql source code (65) analysis of the working principle of the new snapshot system Globalvis
力扣刷题之合并两个有序数组
LeetCode 622. 设计循环队列
LeetCode 952. Calculate Maximum Component Size by Common Factor
Execute the mysql script file in the docker mysql container and solve the garbled characters
分享即时通讯开发之WebSocket:概念、原理、易错常识、动手实践
ERROR: You don‘t have the SNMP perl module installed.
epoll + 线程池 + 前后置服务器分离
力扣刷题之爬楼梯(7/30)
【C语言学习笔记(五)】while循环与for循环
梅科尔工作室-14天华为培训六
面试突击:什么是粘包和半包?怎么解决?
告诉你0基础怎么学好游戏建模?
JumpServer开源堡垒机完成龙芯架构兼容性认证
手把手教你定位线上MySQL慢查询问题,包教包会
阿里巴巴政委体系-第六章、阿里政委体系运作
标准C语言学习总结11