日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

0.5秒,無需GPU,Stability AI與華人團(tuán)隊(duì)VAST開源單圖生成3D模型

機(jī)器之心報(bào)道

機(jī)器之心編輯部

最近,文生視頻模型 Sora 掀起了新一輪生成式 AI 模型浪潮,模型的多模態(tài)能力引起廣泛關(guān)注。

現(xiàn)在,AI 模型在 3D 內(nèi)容生成方面又有了新突破。

專長于視覺內(nèi)容生成的 Stability AI 繼圖片生成(Stable Difussion 3 上線)、視頻生成(Stable Video 上線)后緊接在 3D 領(lǐng)域發(fā)力,今天宣布攜手華人團(tuán)隊(duì) VAST 開源單圖生成 3D 模型 TripoSR。

0.5秒,無需GPU,Stability AI與華人團(tuán)隊(duì)VAST開源單圖生成3D模型

TripoSR 能夠在 0.5s 的時(shí)間內(nèi)由單張圖片生成高質(zhì)量的 3D 模型,甚至無需 GPU 即可運(yùn)行。

0.5秒,無需GPU,Stability AI與華人團(tuán)隊(duì)VAST開源單圖生成3D模型

  • TripoSR 模型代碼:https://github.com/VAST-AI-Research/TripoSR
  • TripoSR 模型權(quán)重:https://huggingface.co/stabilityai/TripoSR
  • TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR

視頻鏈接:https://mp.weixin.qq.com/s/zbTk0YHEhXurS1RPaN0KNw

TripoSR 在 NVIDIA A100 上測試時(shí),它能夠在大約 0.5 秒內(nèi)生成草圖質(zhì)量的帶紋理 3D 網(wǎng)格模型,性能超越了其他開源圖像到 3D 模型,如 OpenLRM。除了速度之外,TripoSR 對(duì)有無 GPU 的用戶都完全可用。

TripoSR 的靈感來源于 2023 年 11 月 Adobe 提出的 LRM,這是一個(gè)用于圖生 3D 的大規(guī)模重建模型(Large Reconstruction Model,簡稱 LRM),可以基于任意單張輸入圖像在數(shù)秒鐘得到圖像對(duì)應(yīng)的三維模型。

LRM 突破性地將圖生 3D 模型任務(wù)表述成了一個(gè)序列到序列的翻譯任務(wù) —— 把輸入圖像和輸出的 3D 模型分別想象成兩種不同的語言,圖生 3D 任務(wù)可以被理解為把圖像語言翻譯成 3D 模型語言的過程。圖像語言中的 “單詞”(類比語言模型的 token 和視頻模型的 patch)是用戶輸入圖像切分成的一個(gè)個(gè)小塊;而在 LRM 方法中,3D 模型語言的 “單詞” 是一種被稱為 “三平面(triplane)” 的三維表示中的一個(gè)個(gè)小塊,LRM 做的事情就是把圖像語言中的 “單詞” 翻譯成 3D 模型語言中的 “單詞”,實(shí)現(xiàn)輸入圖像輸出 3D 模型。

在 transformer 架構(gòu)的支撐下,LRM 在一百余萬公開三維數(shù)據(jù)上進(jìn)行了訓(xùn)練,展示出了現(xiàn)象級(jí)的圖生 3D 效果和效率,因此在學(xué)界、業(yè)界均引起了很大的轟動(dòng)。然而其相關(guān)代碼和模型均不開源,巨大的訓(xùn)練代價(jià)(128 塊 A100 運(yùn)行一周)也令小型研究組織望而生畏,這些因素極大阻礙了該項(xiàng)技術(shù)的平民化發(fā)展。

本次 Tripo AI 和 Stability AI 聯(lián)合共同推出了首個(gè) LRM 的高質(zhì)量開源實(shí)現(xiàn) – TripoSR,可以幾乎實(shí)時(shí)根據(jù)用戶提供的圖像生成高質(zhì)量的三維模型,極大地填補(bǔ)了 3D 生成式人工智能領(lǐng)域的一個(gè)關(guān)鍵空白。

0.5秒,無需GPU,Stability AI與華人團(tuán)隊(duì)VAST開源單圖生成3D模型

視頻鏈接:https://mp.weixin.qq.com/s/zbTk0YHEhXurS1RPaN0KNw

根據(jù) Stability 的博客和技術(shù)報(bào)告,該模型基于 LRM 的原始算法,通過精細(xì)篩選和渲染的 Objaverse 數(shù)據(jù)集子集以及一系列的模型和訓(xùn)練改進(jìn),顯著提高了從有限訓(xùn)練數(shù)據(jù)中泛化的能力,同時(shí)也增強(qiáng)了 3D 重建的保真度。直至 TripoSR 的出現(xiàn),學(xué)術(shù)界和開源界一直缺少一個(gè)開放、快速、且具備強(qiáng)大泛化能力的 3D 生成基礎(chǔ)模型和框架。之前盡管存在如 threestudio 這樣受到廣泛關(guān)注的開源項(xiàng)目,但由于其依賴的技術(shù)(比如 score distillation sampling)需要較長的優(yōu)化和計(jì)算時(shí)間,使得生成一個(gè) 3D 模型既緩慢又資源消耗巨大。Stability AI 此前在這一路線上發(fā)布的 Stable Zero123 項(xiàng)目及其在 threestudio 中的集成嘗試,雖然取得了一定進(jìn)展,但仍未能充分解決這些問題。

TripoSR 開源使全球的研究人員、開發(fā)者和創(chuàng)意工作者能夠訪問到最先進(jìn)的 3D 生成 AI 模型,使各類公司能夠利用 3D 內(nèi)容創(chuàng)建更復(fù)雜的產(chǎn)品和服務(wù)、探索 3D 行業(yè)新的創(chuàng)造可能性,促進(jìn)一個(gè)更加活躍和有競爭力的市場。

0.5秒,無需GPU,Stability AI與華人團(tuán)隊(duì)VAST開源單圖生成3D模型

圖表顯示了 3D 性能的 F-Score(越高越好)與推理時(shí)間(越低越好)的關(guān)系。

3D 內(nèi)容生成技術(shù)在計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺領(lǐng)域近年來經(jīng)歷著穩(wěn)步的發(fā)展。在過去一年多時(shí)間內(nèi),特別是隨著大規(guī)模公開 3D 數(shù)據(jù)集的出現(xiàn)以及 2D 圖像視頻領(lǐng)域強(qiáng)大生成模型的進(jìn)步,3D 生成技術(shù)實(shí)現(xiàn)了巨大和快速的進(jìn)步,引起了工業(yè)界廣泛關(guān)注。在這一背景下,諸如 DreamFusion(由 Google Research 團(tuán)隊(duì)提出)等基于 score distillation sampling(SDS)的技術(shù),雖然在多視角生成 3D 模型方面取得了突破,但在實(shí)際應(yīng)用中仍面臨生成時(shí)間長、難以精細(xì)控制生成模型等限制。

與此相對(duì),基于大規(guī)模 3D 數(shù)據(jù)集和大規(guī)??蓴U(kuò)展模型架構(gòu)的生成技術(shù)方案,如此次發(fā)布的 TripoSR,展現(xiàn)了在不同 3D 數(shù)據(jù)集上進(jìn)行高效訓(xùn)練的能力,其生成 3D 模型過程僅需快速前向推理,并能在生成過程中易于對(duì) 3D 模型結(jié)果進(jìn)行精細(xì)控制。該類技術(shù)的出現(xiàn),不僅為 3D 生成技術(shù)的快速發(fā)展開辟了新的道路,也為業(yè)界的更廣泛應(yīng)用提供了新的可能性。

0.5秒,無需GPU,Stability AI與華人團(tuán)隊(duì)VAST開源單圖生成3D模型0.5秒,無需GPU,Stability AI與華人團(tuán)隊(duì)VAST開源單圖生成3D模型

圖片和數(shù)據(jù)來源:TripoSR: Fast 3D Object Reconstruction from a Single Image

值得關(guān)注的是,Stability AI 此次與 Tripo AI 聯(lián)合開源。Tripo AI 背后的研究機(jī)構(gòu) VAST AI Research 作為 3D 內(nèi)容生成領(lǐng)域的新銳研究團(tuán)隊(duì),從創(chuàng)立之初就致力于開源社區(qū)貢獻(xiàn),相繼開源了 Wonder3D、CSD、TGS 等優(yōu)質(zhì)研究工作的代碼和權(quán)重。

Tripo 是 VAST 自 2023 年 12 月推出的通用 3D 生成模型(www.tripo3d.ai)。能實(shí)現(xiàn) 8 秒內(nèi)通過文字或圖片生成 3D 網(wǎng)格模型,并通過 5 分鐘進(jìn)行精細(xì)化生成,生成模型質(zhì)量在幾何和材質(zhì)層面都接近手工水平。

根據(jù) VAST AI Research 的博客,AI 在 3D 生成領(lǐng)域的長足發(fā)展需要采取一種 “通用方法”,跳出對(duì)人類經(jīng)驗(yàn)的依賴,通過更龐大的數(shù)據(jù)、更可擴(kuò)展的模型和充分利用強(qiáng)大計(jì)算能力來 “學(xué)習(xí)”。這一 “通用方法” 應(yīng)包含多種模態(tài)訓(xùn)練數(shù)據(jù)的統(tǒng)一、多種模態(tài)控制條件的統(tǒng)一以及多種模態(tài)通用的生成模型基礎(chǔ)架構(gòu)。

為實(shí)現(xiàn)這一目標(biāo),VAST 認(rèn)為需要從表示、模型和數(shù)據(jù)三個(gè)方向進(jìn)行工作。其中,“表示” 的選擇至關(guān)重要,需要尋找一種既靈活、又利于計(jì)算的 3D 表示形式,同時(shí)確保與現(xiàn)有圖形管線的兼容性。此外,探索 “3D tokenizer” 也是一種有前景的方向,將 3D 表示轉(zhuǎn)化為類似于語言 token 的形式,有助于將現(xiàn)有的理解和生成模型應(yīng)用于 3D 領(lǐng)域。

在 “模型” 層面,VAST 的研究旨在充分利用大模型在其他模態(tài)下的先驗(yàn)知識(shí)、設(shè)計(jì)準(zhǔn)則和訓(xùn)練經(jīng)驗(yàn),以增強(qiáng)模型對(duì) 3D 數(shù)據(jù)的學(xué)習(xí)能力。而 “數(shù)據(jù)” 層面的挑戰(zhàn)也不容忽視,優(yōu)質(zhì)、原生、多樣化的 3D 數(shù)據(jù)集資源的稀缺限制了模型的最終表現(xiàn)和泛化能力。

TripoSR 讓我們看到了生成式 AI 模型在 3D 方向的潛力,我們期待 2024 年 3D 生成領(lǐng)域?qū)?huì)有更多新的探索。

參考鏈接:

https://stability.ai/news/triposr-3d-generation?utm_source=x&utm_medium=website&utm_campaign=blog

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢
分享本頁
返回頂部
抚宁县| 深水埗区| 贡山| 赫章县| 扎赉特旗| 开江县| 滨州市| 孟连| 富民县| 洞口县| 长宁县| 桐城市| 高唐县| 孟州市| 当阳市| 寿光市| 武强县| 南平市| 都江堰市| 榆林市| 社旗县| 罗源县| 行唐县| 富宁县| 武穴市| 兴安县| 永清县| 崇信县| 沅江市| 巴里| 东乡| 宁河县| 铜陵市| 克什克腾旗| 南召县| 寿光市| 依安县| 绥滨县| 开鲁县| 漾濞| 都安|