2025년 12월 19일 금요일

MS의 오픈소스 생성 3D툴, Trellis.2

MS의 오픈소스 생성 3D툴, Trellis.2

TRELLIS.2는 마이크로소프트와 칭화대 연구진이 개발한 고성능 3D 자산 생성 모델로, 이미지 한 장만으로 정교한 3D 오브젝트를 구현합니다. 이 시스템은 O-Voxel이라는 독창적인 표현 방식과 희소 압축 VAE 기술을 도입하여, 데이터 용량은 대폭 줄이면서도 복잡한 구조와 PBR 텍스처를 정확하게 묘사합니다. 특히 일반적인 모델들이 처리하기 힘든 비매니폴드 기하 구조나 내부 형태까지 완벽하게 지원하며, 최대 1536³ 해상도의 고품질 결과물을 단 1분 내외로 빠르게 생성합니다. 사용자들은 이 오픈 소스 모델을 통해 별도의 최적화 과정 없이도 실사 같은 금속성, 거칠기, 투명도가 반영된 3D 메시를 즉각적으로 얻을 수 있습니다. 결과적으로 이 기술은 효율적인 대규모 생성 AI 학습의 새로운 지평을 열었으며, 누구나 손쉽게 전문가 수준의 3D 콘텐츠를 제작할 수 있는 환경을 제공합니다.
-
아래 링크에서 바로 데모를 해볼 수 있습니다.

홈페이지 링크

마이크로소프트도 미쳤습니다 (오픈소스) | TRELLIS

----

TRELLIS.2: 3D 생성을 위한 네이티브 및 컴팩트 구조화 잠재 공간
작성자: 이영운

핵심 요약
TRELLIS.2는 오픈소스 40억(4B) 파라미터 이미지-3D 변환 모델로, 최대 1536³ 해상도의 물리 기반 렌더링(PBR) 텍스처 에셋을 생성합니다. 이 모델의 핵심은 네이티브 3D VAE(Variational Autoencoder)와 16배의 공간 압축률을 달성하는 새로운 잠재 공간 표현 방식에 있으며, 이를 통해 효율적이고 확장 가능한 고품질 3D 에셋 생성을 실현합니다.
주요 기술 혁신으로는 정밀한 기하학적 구조와 복잡한 외형을 동시에 인코딩하는 새로운 희소 복셀 구조인 **O-Voxel(Omni-Voxel)**과, 이 복셀 데이터를 인지적 손실 없이 고도로 압축하는 **SC-VAE(Sparse Compression VAE)**가 있습니다. 이 기술들을 통해 TRELLIS.2는 개방형 표면, 비다양체(non-manifold) 구조 등 복잡한 토폴로지를 견고하게 처리하며, PBR 속성을 완벽하게 지원하여 사실적인 렌더링을 가능하게 합니다. 또한, 렌더링과 최적화 과정이 필요 없는 최소한의 전후 처리 파이프라인을 통해 신속한 에셋 변환을 지원합니다.
주요 특징 및 성능
고품질, 고해상도 및 효율성
TRELLIS.2는 40억 개의 파라미터를 가진 대규모 모델로, 바닐라 DiT(Diffusion Transformers)를 사용하여 탁월한 충실도와 효율성으로 고해상도 텍스처 에셋을 생성합니다. 네이티브하고 컴팩트한 구조화 잠재 공간을 기반으로 하여 충실도와 압축률을 동시에 극대화했습니다.
NVIDIA H100 GPU 기준 생성 시간:
* 512³ 해상도: 3초 (형상 2초 + 재질 1초)
* 1024³ 해상도: 17초 (형상 10초 + 재질 7초)
* 1536³ 해상도: 60초 (형상 35초 + 재질 25초)
임의의 토폴로지 처리
이 방법론은 기존의 등가곡면 필드(iso-surface fields)가 가진 제약을 극복하고 복잡한 구조를 견고하게 처리합니다. 지원하는 주요 기하학적 특징은 다음과 같습니다.
* 개방형 표면 (Open Surfaces)
* 비다양체 기하학 (Non-manifold Geometry)
* 밀폐된 내부 구조 (Enclosed Interior Structures)
풍부한 텍스처 모델링
TRELLIS.2는 임의의 표면 속성을 모델링하여 사실적인 조명 재현(relighting)과 물리 기반 렌더링(PBR)을 가능하게 합니다. 지원하는 주요 PBR 속성은 다음과 같습니다.
* 기본 색상 (Base Color)
* 거칠기 (Roughness)
* 금속성 (Metallic)
* 불투명도 (Opacity / Alpha 채널)
최소화된 에셋 처리
학습 및 추론을 위한 데이터 처리 과정이 매우 간단하며, 렌더링이나 최적화 과정 없이 즉각적인 변환을 지원합니다.
* 텍스처 메시 → O-Voxel 변환: 단일 CPU에서 10초 미만
* O-Voxel → 텍스처 메시 변환: CUDA 가속 시 100밀리초 미만

핵심 기술 혁신
TRELLIS.2의 파이프라인은 3D 메시를 O-Voxel이라는 새로운 표현으로 변환하는 '즉각적인 양방향 변환'으로 시작합니다. 이후 **SC-VAE(Sparse Compression VAE)**가 이 복셀들을 컴팩트한 구조화 잠재 공간으로 인코딩합니다.
O-Voxel (Omni-Voxel Representation)
O-Voxel은 정밀한 기하학적 구조(Geometry)와 복잡한 외형(Appearance)을 동시에 인코딩하기 위해 설계된 새로운 "필드-프리(field-free)" 희소 복셀 구조입니다.
* GEO (기하학, fshape): '유연한 이중 그리드(Flexible Dual Grids)' 표현을 사용하여 날카로운 모서리를 보존하면서 임의의 토폴로지를 처리합니다.
* MAT (외형, fmat): Base Color, Metallic, Roughness, Alpha 등 전체 PBR 속성을 지원하여 풍부한 표면 재질을 정확하게 모델링합니다.
SC-VAE (Sparse Compression VAE)
SC-VAE는 '희소 잔차 자동 인코딩(Sparse Residual Autoencoding)' 기법을 사용하는 희소 압축 3D VAE입니다. 이 모델은 복셀 데이터를 직접 압축하는 역할을 수행합니다.
* 압축률: 16배 다운샘플링
* 잠재 공간 토큰: 1024³ 해상도의 텍스처 3D 에셋을 약 9,600개의 잠재 토큰으로 인코딩합니다.
* 품질: 인지 가능한 수준의 저하가 거의 없이 고도로 컴팩트한 표현으로 압축하여 효율적인 대규모 생성 모델링을 가능하게 합니다.
프로젝트 정보 및 책임 있는 AI 고려사항

저자 및 소속
* 주요 저자: Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, Ruicheng Wang, Zelong Lv, Yu Deng, Hongyuan Zhu, Yue Dong, Hao Zhao, Nicholas Jing Yuan, Jiaolong Yang
* 소속 기관: 칭화대학교, Microsoft Research, 중국과학기술대학교(USTC), Microsoft AI

책임 있는 AI 및 자료 고지
* 프로젝트 성격: TRELLIS.2는 순수 연구 프로젝트입니다.
* 데이터셋: 프로젝트에 사용된 데이터셋은 공개된 것이며, 개인 식별 정보나 유해 콘텐츠가 없는지 검토되었습니다. 그러나 데이터가 인터넷에서 수집되었기 때문에 잠재적인 편향이 존재할 수 있습니다.
* 자료 사용: 이 페이지에서 제공되는 자료는 기술 보고서에 설명된 3D 생성 기술 탐구를 위한 학술 및 연구 목적으로만 제공됩니다. 상업적 이용을 목적으로 하지 않습니다.
* 지적 재산권: 페이지의 콘텐츠가 저작권 등 지적 재산권을 침해한다고 판단될 경우, 이메일(jiaoyan at microsoft.com)을 통해 삭제 요청을 제출할 수 있습니다.
----

댓글 없음:

댓글 쓰기

MS의 오픈소스 생성 3D툴, Trellis.2

MS의 오픈소스 생성 3D툴, Trellis.2 TRELLIS.2는 마이크로소프트와 칭화대 연구진이 개발한 고성능 3D 자산 생성 모델로, 이미지 한 장만으로 정교한 3D 오브젝트를 구현합니다. 이 시스템은 O-Voxel이라는 독창적인 표현 방식과 희...