当前位置:网站首页>多模态 参考资料汇总
多模态 参考资料汇总
2022-08-03 19:24:00 【friedrichor】
介绍
数据集
- The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database
数据库范围:情绪表达的识别与分析、人类二元互动分析、情绪敏感的人机界面和虚拟代理的设计
信息:关键词:情感、多模式、表演、二元;语言:英语;10名演员:5男5女;情绪激发技巧:即兴创作和脚本
可用的方式:动作捕捉人脸信息;演讲;视频;头部运动和头部角度信息;对话转录;词级、音节级和音素级对齐 - MS COCO (Microsoft Common Objects in Context)
MS COCO 数据集的第一个版本于 2014 年发布。它包含 164K 图像,拆分为训练 (83K)、验证 (41K) 和测试 (41K) 集。2015 年发布了额外的 81K 图像测试集,包括以前的所有测试图像和 40K 新图像。
目标检测:具有 80 个对象类别的边界框和每个实例的分割掩码,
字幕:图像的自然语言描述(参见 MS COCO 字幕),
关键点检测:包含超过 200,000 张图像和 250,000 个用关键点标记的人员实例(17 个可能的关键点,例如左眼、鼻子、右臀部、右脚踝),
填充图像分割: 具有 91 个填充类别的每像素分割掩码,例如草、墙、天空,
全景:全场景分割,有 80 个事物类别(例如人、自行车、大象)和 91 个事物类别的子集(草、天空、道路),
dense pose:超过 39,000 张图像和 56,000 个使用 DensePose 注释标记的人员实例——每个标记的人员都使用实例 ID 以及属于该人体的图像像素与模板 3D 模型之间的映射进行注释。注释仅对训练和验证图像公开可用。
论文+代码
- 多模态预训练模型综述(论文+代码汇总)
- Recent Advances in Vision and Language PreTrained Models (VL-PTMs)(视觉和语言预训练模型 (VL-PTM) 的最新进展)(论文+代码汇总,最后更新于2021/06/14)
…
边栏推荐
- 普通用户如何利用小红书赚钱呢?小红书的流量是真的吗?
- 【木马免杀】
- LeetCode 952. 按公因数计算最大组件大小
- 软件测试回归案例,什么是回归测试?
- Force is brushed buckle problem for the sum of two Numbers
- Kettle 读取 Excel 数据输出到 Oracle 详解
- 力扣刷题之有效的正方形(每日一题7/29)
- Word另存为PDF后无导航栏解决办法
- MySQL 主从,6 分钟带你掌握!
- When does MySQL use table locks and when to use row locks?You should know this
猜你喜欢
MySQL基础
ctfshow php features
盘点在线帮助中心对企业能够起到的作用
Radondb mysql installation problems
盲僧发现了华点——教你如何使用API接口获取数据
告诉你0基础怎么学好游戏建模?
Reveal how the five operational management level of hundreds of millions of easily flow system
Zhong Hua, senior architect of Ali: China-Taiwan strategic thinking and architecture practice; including internal implementation manual
Compose原理-compose中是如何实现事件分法的
FreeRTOS Intermediate
随机推荐
X86函数调用模型分析
Postgresql source code (64) Query execution - data structure and execution process before submodule Executor (2) execution
X86 function call model analysis
盲僧发现了华点——教你如何使用API接口获取数据
盘点在线帮助中心对企业能够起到的作用
Radondb mysql installation problems
dpkg强制安装软件
Brush the topic of mobile zero power button
要想成为黑客,离不开这十大基础知识
Jingdong cloud released a new generation of distributed database StarDB 5.0
【C语言学习笔记(五)】while循环与for循环
Climbing Stairs (7/30)
Network protocol-TCP, UDP difference and TCP three-way handshake, four wave
epoll + 线程池 + 前后置服务器分离
【Azure 事件中心】使用Azure AD认证方式创建Event Hub Consume Client + 自定义Event Position
系统太多,多账号互通如何实现?
【WPS-OFFICE-Word】 WPS中样式的运作原理?样式自动更新、自动改变如何处理?样式的管理方法?
Calculation of the array serial number of Likou brush questions (one question per day 7/28)
Shell编程之循环语句
梅科尔工作室-14天华为培训六