李飞飞空间智能突破：首个模型出炉，一张图生成3D场景

讯知在线 • 2024年12月7日下午1:37 • 商业 • 0 views

空间智能突破：李飞飞首个模型出炉，一张图生成3D场景

作为人工智能领域最具影响力的女性和华人之一，斯坦福大学教授李飞飞近日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。

开创性技术，交互式3D场景

虽然已有众多AI工具可以将照片转换为3D模型和场景，但World Labs声称，他们所生成场景的独特之处在于它们具有交互性，而且是可修改的。

“（我们的技术）能让你走进任何一张图像，并以3D的形式对其进行探索。”World Labs在一篇博客文章中写道。

纽约大学助理教授谢赛宁表示，“想象是生成式的，控制是3D的。”

实时渲染，自由探索

在World Labs网站的演示中，这些由AI生成的场景均通过浏览器实时渲染而成。用户可以使用箭头键或键盘（WASD）键移动，然后单击并拖动鼠标实现交互，从而自由探索场景。

具体而言，该AI工具配备了可操控的滑块来调节模拟景深（DoF）与模拟推拉变焦（dolly zoom）。当使用者将景深效果调至越强时，背景中的物体便会越发模糊，为整个视觉体验增添了更多层次感与真实感。

多维交互，打造真实感

此外，该工具也支持调整摄像机的位置和视野、更改对象颜色，通过3D场景结构创建聚光灯特效、创建自动运行的动态效果等交互方式。

World Labs指出，大多数生成模型预测的是像素，而预测3D场景则具有许多优势。例如，场景更加持久，一旦生成，它就会一直存在。即使把视线移开然后又回来，场景也不会改变。此外，用户可以实时控制、实时移动场景。用户可以仔细观察花朵的细节，也可以偷看角落里露出的物体。

数字世界新范式

“大多数生成式AI工具生成的都是图像或视频等二维内容，”World Labs表示，“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”

目前，World Labs已向公众开放了Waitlist候补名单申请，但部分创作者已受邀将其整合到了现有的工作流程中。例如，内容创作者埃里克·索洛里奥发现，这项技术完美地填补了他创作过程中的空白，可以“让角色布置和精确的镜头调度变得更容易”。

未来愿景，空间智能

在李飞飞的构想里，“所有空间智能的生物所具备的行动能力，是与生俱来的。因为，它能够将感知与行动进行关联。”

她曾表示，“如果想让AI超越其自身当前的能力，我们需要的是，不仅仅能够看到、会说话的AI，而且是一个可以行动的AI。”

尽管如此，《连线》杂志的记者曾指出，World Labs的愿景与此前迅速消退的热炒概念“元宇宙”有些相似。对此，World Labs的创始人则解释说，元宇宙之所以短暂，是因为当时的热潮基于一些有前景的硬件，但缺乏真正的互动内容，而他们认为，世界模型或能够填补这一空白。

团队实力，估值超十亿

World Labs于今年1月成立，由李飞飞和贾斯汀·约翰逊、克里斯托夫·拉斯纳和本·米尔登霍尔联合创立。三人均在AI领域拥有丰富的经验。

据Tech Crunch报道，World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资，现公司估值超过10亿美元，计划在2025年推出首款正式产品。

总部位于旧金山的World Labs目前拥有20名员工。其突破性的技术，预示着空间智能领域的新时代即将到来。

原创文章，作者：讯知在线，如若转载，请注明出处：http://bbs.xzxci.cn/2024/12/07/30090.shtml