当前位置:网站首页>苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景
苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景
2022-08-03 11:52:00 【AI科技大本营】

整理 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
前有DALL.E文本生成图像,现有将文字变成 3D场景。近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D 场景的神经架构 NeRFs,可以根据文字生成 3D 室内场景。

目前为止,NeRFs 主要用做 3D 模型和 3D 场景的一种神经存储介质,然后可以从不同的相机视角进行渲染。

最新 AI 系统 GAUDI
如果说 NeRFs 从不同角度逼真地渲染图像的能力可以用于生成 AI 呢?
此前,OpenAI 的 DALL-E 2 或 Google 的 Imagen 和 Parti 等 AI 系统展示了 AI 将文本生成图像的潜力,但内容也仅限于 2D 图像和图形。
2021 年末时,谷歌通过 Dream Fields 首次展示了 3D AI 生成系统,将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构,可以根据文字提示创建 3D 场景。
例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。

Apple GAUDI 是 3D 内饰专家
虽然谷歌致力于使用 Dream Fields 生成单个对象,但将生成 AI 扩展到完全不受约束的 3D 场景仍是一个尚未解决的问题。这背后极有可能的原因之一是摄像机位置的限制。
虽然对于单个对象,每个摄像机位置都可以映射到一个圆顶,但在 3D 场景中,这些摄像机位置会受到对象和墙壁等障碍物的限制。
对于这个问题,GAUDI 模型的解决方案是:相机姿态解码器对可能的相机位置进行预测,并确保输出是 3D 场景架构的有效位置。
场景的场景解码器预测三平面表示,这是一种 3D 画布,辐射场解码器在其上使用体积渲染方程绘制后续图像。
在对四个不同数据集(包括室内扫描数据集 ARKitScences)的实验中,研究人员表明 GAUDI 可以重建学习视图并匹配现有方法的质量。
虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高,但这也说明了 AI 在图像和视频技术这生成的另一种可能。
参考链接:
https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/

往期回顾
分享
点收藏
点点赞
点在看边栏推荐
- [论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读:二进制和源代码对比
- 国内数字藏品与国外NFT主要有以下六大方面的区别
- 零信任架构分析【扬帆】
- Take you understand the principle of CDN technology
- LyScript implements memory stack scanning
- flink流批一体有啥条件,数据源是从mysql批量分片读取,为啥设置成批量模式就不行
- bash case用法
- RICON:NER SOTA 又来!
- 【一起学Rust】Rust包管理工具Cargo初步了解
- Knowledge Graph Question Answering System Based on League of Legends
猜你喜欢

Android 技术面试准备(含面试题及答案)

【MySQL功法】第4话 · 和kiko一起探索MySQL中的运算符

mysql advanced (twenty-four) method summary of defense against SQL injection

"Digital Economy Panorama White Paper" Financial Digital User Chapter released!

一个扛住 100 亿次请求的红包系统,写得太好了!!

4500字归纳总结,一名软件测试工程师需要掌握的技能大全

【倒计时5天】探索音画质量提升背后的秘密,千元大礼等你来拿

微信小程序获取用户手机号码
【一起学Rust】Rust学习前准备——注释和格式化输出

Five super handy phone open-source automation tools, which is suitable for you?
随机推荐
基于Sikuli GUI图像识别框架的PC客户端自动化测试实践
小身材有大作用——光模块寿命分析(二)
thymeleaf中的日期格式转化
asdn涨薪技术之apifox+Jenkins如何玩转接口自动化测试
【JS 逆向百例】某网站加速乐 Cookie 混淆逆向详解
增加WebView对localStorage的支持
零信任的基本概念【新航海】
深度学习:文本CNN-textcnn
《数字经济全景白皮书》金融数字用户篇 重磅发布!
用C语言解决A+B问题,A-B问题,A*B问题
从零开始Blazor Server(6)--基于策略的权限验证
-找树根-
ssh 免密登录了解下
c语言进阶篇:内存函数
【MySQL】数据库进阶之索引内容详解(上篇 索引分类与操作)
[错题]电路维修
当前页面的脚本发生错误如何解决_电脑出现当前页面脚本错误怎么办
国内数字藏品与国外NFT主要有以下六大方面的区别
PC client automation testing practice based on Sikuli GUI image recognition framework
赛灵思MPSOC裸机下的 USB调试实验