marmot_ai

[논문 리뷰] (ICLR 2025) Privacy-Aware Lifelong Learning

marmot_ai — Sun, 18 May 2025 14:47:00 +0900

1. Problem Definition

Continual Learning + Machine Unlearning을 다룬 기존 연구들

- LSF (리뷰, IJCAI 2021)는 exact unlearning이 불가능함

- LIRF (Github, ECCV 2022), CLMUL (Github, arXiv 2024), ECIL-MU (arXiv 2024)도 마찬가지로 exact unlearning이 불가능함

- CLPU (리뷰, CoLLAs 2022)는 exact unlearning은 가능하지만, unlearn할 태스크는 따로 모델을 복사해두기 때문에 memory inefficient하고, knowledge transfer도 불가능함

LSF, CLPU와 동일하게 PALL도 Unlearning할 데이터에는 접근이 불가능하다. (Continual 세팅이니까)

따라서 PALL에서는 4가지를 동시에 다루고자 함

1) preventing catastrophic forgetting

2) forward knowledge transfer

3) exact task unlearning -> episodic memory rehearsal 사용

4) minimizing memory requirements -> task-specific sparse subnetworks 사용

instance, class 단위가 아닌 task 단위 unlearning을 수행한다.

2. PALL Problem Setting

- 모든 태스크는 한번만 학습된다고 가정함 (CLPU에서는 여러번 학습될 수 있었음)

- learning인 경우, 현재 태스크의 데이터셋으로 모델 학습이 목표

- unlearning인 경우, scratch에서 retain set들로 학습한 distribution = 이전 태스크까지의 모델에서 현재 태스크를 지운 distribution 동일해지는 것이 목표

* CLPU는 permanantly, temporarily 학습되는 태스크가 나눠져있었다면, 여기서는 모두 temporarily 학습되는 더 general한 세팅이다.

3. Method

Architecture based approach

- 각 task 용 subnetwork를 학습

- 다른 task를 학습할 때는 나머지는 고정

- 선택적으로 재사용해서 knowledge transfer 가능하게 함

Episodic memory rehearsal

- unlearning 할 때, 해당 태스크의 subnetwork weight를 initialize

- shared paremeter가 initialize 되었을 때 성능 저하를 막기 위해서 유지할 태스크들의 exemplar로 retraining

(유지될 태스크의 exemplar만 저장해둬야 하니까, unlearning task를 미리 알고있다는 세팅)

- 학습되는 파라미터는 모델 weight와 importance score이다.

- importance score를 binary mask로 만들고 weight에 곱해서 남은 부분만 optimize한다.

- 이전 태스크까지의 mask를 모두 모은 cummulative binary mask를 곱해서 현재 태스크의 weight를 업데이트한다.

- score를 업데이트할 때는 마스킹하지 않기 때문에 다른 태스크들끼리 공유되는 파라미터가 생김 -> knowledge transfer 가능

- inference할때는 저장해놓은 태스크 별 mask를 사용하기 때문에 catastrophic forgetting 없음

- 태스크 별 exemplars, logits도 나중에 unlearning을 위해 저장해둔다.

- unlearn할 태스크의 mask를 weight에 곱해서 남은 부분을 initialize한다. -> exact unlearning 가능

- learning할 때 태스크들끼리 overlap되는 파라미터가 있었기 때문에 다른 태스크의 성능이 저하될 수 있음 -> rehearsal 데이터로 짧게 retraining한다.

- 즉, retain set으로 영향 받은 파라미터들을 재학습한다.

[논문 리뷰] (CoLLAs 2022) Continual Learning and Private Unlearning

marmot_ai — Sat, 17 May 2025 18:38:52 +0900

1. Problem Setting

Continual Learning and Private Unlearning (CLPU) 세팅을 새롭게 제안한다.

Learning with Selective Forgetting (Link)가 유사한 세팅이지만, LSF는 완전하게 forgetting (=unlearning)하지 못한다.

즉, CLPU는 continual learning 세팅에서 exact unlearning (학습됐던 흔적이 아예 없도록)을 목적으로 하는 첫 논문이라고 주장한다.

(참고)

- Exact Unlearning: retained dataset으로 학습된 distribution = 전체로 학습하고 forget set을 지운 distribution

- Approximate Unlearning: 완벽하게 지우지는 않고 근사하는 것

2. CLPU

각 태스크에서는 task ID, task dataset, learning instruction을 받는다.

Learning instruction은 3가지가 있다.

즉, 다음에 unlearning 될 태스크는 미리 알고있다는 세팅이다.

R, T 인 경우에는,

(첫째줄) 현재 태스크의 데이터로 현재 태스크 학습

(둘째줄) 이전까지 R,T였던 태스크들의 데이터로 weight 유지하도록 학습

F 인 경우에는,

(셋째줄) 't-1까지 학습한 모델에서 t 정보 제거한 distribution' = 'init 모델에서 R,T인 태스크들 학습한 distribution' 동일하도록 학습

CL, MU와 차이점을 정리하면

1) CL의 knowledge transfer + MU의 특정 태스크 제거 & 다른 태스크는 유지

2) 태스크 순서가 중요함

3) Unlearning할 데이터를 갖고있지 않음

3. Method

Case 1: 처음으로 학습하는 태스크이고, unlearn 하지 않을 태스크

- main 모델에 학습

- 현재 태스크 데이터로 학습 & 이전 태스크 memory로 regularization 학습

Case 2: 나중에 unlearn 될 태스크

- main 모델을 하나 복사해서 temporary network 만들고, temporary network를 학습

- 현재 태스크의 데이터로 학습 & 이전 태스크 memory로 regularization 학습

Case 3: 학습했던 태스크이고, unlearn 하지 않을 태스크

- main 모델에 학습

- 학습됐던 태스크라서 전체 데이터셋에 접근 불가능, 현재 태스크 & 이전 태스크의 memory로 학습

Case 4: unlearn 하는 태스크

- Case 2에서 학습했던 temporary network를 제거

Unlearn하기 전까지 저장해두는 temporary network 때문에 memory inefficient하다.

4. Experiments

데이터셋: rotation MNIST, permutation MNIST, split CIFAR-10, split CIFAR-100

태스크:

- MNIST: 각 태스크 당 10개 클래스 x 5개 태스크

- CIFAR-10: 2개 클래스 x 5개 태스크

- CIFAR-100: 20개 클래스 x 5개 태스크

태스크 순서:

Metric:

1) continual learning 성능

- ACC: 학습이 다 끝났을 때 모든 태스크의 accuracy의 평균

- FM: 각 태스크를 처음 배웠을 때랑 모두 끝났을 때 성능 차이

2) unlearning 성능

JS-ratio, IRR에서 좋은 성능을 달성했다.

Limitation은 추가 모델을 사용하기 때문에 memory inefficient하다는 점이다.

Learning with Selective ForgetLearning with Selective Forgettingting

[논문 리뷰] (IJCAI 2021) Learning with Selective Forgetting

marmot_ai — Sat, 17 May 2025 16:31:32 +0900

1. Problem Setting

Lifelong leearning 시나리오에서 class-level forgetting을 처음 고려한 논문이다.

= Learning with selective forgetting (LSF)

TIL 세팅에서 각 태스크마다 특정 클래스들을 학습하는데, 각 태스크에서 앞에 30%의 클래스를 지우는 것이 목적이다.

LSF 태스크 소개

- Preservation set: 이전에 학습되었고, k번째 태스크에서 유지되어야 하는 클래스

- Deletion set: 이전에 학습되었고, k번째 태스크에서 잊어야 하는 클래스

즉, k번째 태스크에서 주어지는 정보는 k번째 데이터셋과, 유지될 클래스 정보(preservation set)가 주어지는 것이다.

이전 태스크의 데이터에는 접근이 불가능하다.

학습이 모두 끝나면, preservation set에 있는 클래스는 정답을 예측해야 하고, 아니면 오답을 예측해야 한다.

2. Method

Method

2-1. Mnemonic Code

각 태스크에서 각 클래스마다 랜덤 synthetic image(=mnemonic code, 입력 이미지와 동일한 크기의 grid마다 랜덤 색깔이 들어있는 이미지)를 만든다.

각 태스크에서 모델을 학습할 때, 원본 이미지 + mnemonic code로 augmentation된 이미지로 동시에 학습한다.

Augmentation은 아래 수식처럼 mixup 방식으로 만든다.

이렇게 학습하면 feature space 상에서 같은 클래스의 샘플들의 feature는 code를 anchor 삼아서 그 근처에 위치하게 될 것이다.

k번째 태스크에서 만약 p번째 태스크의 클래스 c를 forgettting하고 싶다면, 아래서 설명할 selective forgetting loss를 지우려는 클래스를 제외하고 적용한다.

2-2. Loss Function

- for learning a new task

1) classification loss: original image와 label 사이의 AMS (additive margin softmax) loss

2) mnemonic loss. : augmented image와 label 사이의 AMS (additive margin softmax) loss

- for maintaining previous tasks

3) selective forgetting loss: mnemonic code와 label 사이의 AMS loss (preservation set만)

(Q.. augmented image가 아닌 code만 입력으로 넣고 레이블이랑 loss 계산하는게 무슨 의미인지 모르겠음)

4) regularization loss: LwF (Learning without Forgetting), EWC (Elastic Weight Consolidation), MAS (Memory Aware Synapses)를 preservation set에만 적용

* Ours_E: LwF + EWC

* Ours_M: LwF + MAS

3. Analysis

데이터셋: Permuted MNIST

- 10개 클래스로 이루어진 태스크 3개

- 각 태스크에서 0,1,2번째 클래스가 deletion set / 3~9번째 클래스는 preservation set

- Vanilla (classification loss), EWC, EWC*, Ours_E

- Accuracy: Ours를 보면 deletion set에서는 성능이 확실히 떨어지고, preservation set에서는 성능이 확실히 유지된다.

- t-SNE: orange (preservation set)은 잘 응집되어 있고, blue (task2에서 deletion set)은 잘 흩어져 있고, green (task2에서는 perservation이었으니까 뭉쳐있고, task3에서는 deletion이니까 흩어짐)

4. Experiments

데이터셋: CIFAR-100, CUB200-2011, Stanford Cars

- 각 태스크의 처음 30% 클래스가 deletion set, 나머지는 preservation set으로 설정

모델: ResNet-18, 마지막 linear layer는 태스크마다 존재

베이스라인

Metric:

- A_k: k번째 태스크까지 학습한 후에 preservation set의 average accuracy

- F_k: k번째 태스크까지 학습한 후에 deletion set의 (task l까지 학습했을 때 p의 accuracy - task k까지 학습했을 때 p의 accuracy)의 최댓값

- S_k: A_k와 F_k의 harmonic mean

SOTA 성능을 달성함

태스크 별 클래스 수, deletion set의 비율을 다양하게 실험했을 때도 SOTA 성능.

Limitation은 forget set의 정보를 완전히 지우는 exact learning이 불가능하다는 점이다.

Camera Parameters (1) - Coordinates

marmot_ai — Sun, 23 Feb 2025 16:40:50 +0900

Camera parameter를 이해하기 위해서는 4가지 coordinate에 대해 이해해야 합니다.

1) World coordinate ($O_w$): object가 존재하는 실세계의 좌표계

2) Camera coordinate ($O_c$): 카메라를 기준으로 정해진 좌표계

3) Image coordinate ($O_i$): 2D로 projection된 평면의 좌표계

4) Pixel coordinate ($O_p$): projection된 이미지를 opencv 등으로 저장할 때 사용하는 좌표계 (ex: 좌상단이 원점)

추가로, Virtual image plane이라는 개념도 있습니다.

Image plane은 실제 object가 상하,좌우로 반전되어 projection되기 때문에,

대신에 계산의 편리함을 위해서 camera coordinate과 world coordinate 사이에 image plane과 동일한 크기이지만 반전되지 않은 가상의 image plane을 나타내는 개념입니다.

이미지 출처: https://www.mathworks.com/help/vision/ug/camera-calibration.html

윈도우에서 프로세스 kill 하는 법

marmot_ai — Mon, 20 Jan 2025 11:02:43 +0900

윈도우에서 특정 port를 사용하는 프로세스 확인하고 Kill 하는 명령어입니다.

a1111 stable diffusion 실행하다가 중간에 비정상적으로 종료될 때 필요해서 정리..

ex) port 번호가 8188일 때

netstat -ano | findstr :8188
taskkill /PID 프로세스ID /F

Camera parameter에서 position과 orientation

marmot_ai — Sun, 19 Jan 2025 20:47:08 +0900

Camera parameter는 intrinsic parameter와 extrinsic parameter로 나눌 수 있습니다.

이 중에 extrinsic parameter는 다시 카메라의 position + orientation 정보로 표현됩니다.

Position은 3D 월드 좌표계에서 카메라의 위치를 x,y,z 값으로 표현합니다. (Translation vector로도 표현됩니다)

Orientation은 카메라가 바라보는 방향입니다. (3x3 Rotation matrix, Euler angle, Quarternion 등으로 표현될 수 있습니다)

[논문 리뷰] (arXiv 2024) DiffusionGS: Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

marmot_ai — Sun, 19 Jan 2025 18:01:06 +0900

https://caiyuanhao1998.github.io/project/DiffusionGS/

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

Existing feed-forward image-to-3D methods mainly rely on 2D multi-view diffusion models that cannot guarantee 3D consistency. These methods easily collapse when changing the prompt view direction and mainly handle object-centric prompt images. In this pape

caiyuanhao1998.github.io

Single image가 주어졌을 때, object 또는 scene의 3D model을 생성하는 연구입니다.

IntantMesh (이전글)와 같은 기존 image-to-3d generation 논문들은 주로 2D multi-view diffusion model로 만들어진 sparse view images로 3d reconstruction을 하는 두 단계로 진행이 됐습니다. 이렇게 설계된 모델은 view consistency가 유지되지 못한다는 이슈가 있습니다.

또한, 주로 object 이미지에 대한 3d model을 생성할 수 있었습니다. Triplane NeRF와 같이 resolution에 한계가 있는 구조를 사용했기 때문입니다.

Diffusiongs에서는

1) 2D multi-view diffusion 대신 single-stage로 3D gaussian point clound를 생성하는 diffusion 모델을 디자인하여

object 뿐만 아니라 scene 이미지도 3d로 reconstruction할 수 있도록 했고,

2) 이를 위해서 scene-object mixed training strategy를 제안합니다.

3) 또한 RPPC (Reference-Point Plucker Coordinates)를 제안해서 depth, geometry 정보를 더 잘 추출하도록 합니다.

글을 작성하는 시점에서는 아직 코드가 공개되지는 않았지만 데모 페이지의 결과는 굉장히 좋고, A100 GPU로 6초면 single image로부터 3d model을 생성할 수 있다고 합니다.

Method

Diffusiongs

Preliminary of Diffusion

DDPM (Link) 논문에서 소개된 Diffusion 모델은

- forward (noising) process에서 real data $x_0$에 noise를 추가해서 $x_t$ ($t$는 timestep)를 만들고,

- reverse (denoising) process에서 neural network가 그 노이즈를 예측하도록 학습됩니다.

2D multi-view diffusion 기반 방식들 (One-2-3-45++, Zero-1-to-3, IntantMesh, LGM 등)도 camera parameter를 condition으로 받아서 그에 맞는 이미지를 생성하도록 학습됩니다. 그러나 3d model 자체를 만드는게 아니기 때문에 view misalignment 문제가 있을 수밖에 없습니다.

Our 3D Diffusion

따라서 condition에 맞는 이미지를 그때그때 생성하는 대신, 아예 3D Gaussian point clouds를 생성할 수 있는 diffusion 모델을 제안합니다.

학습 시에 모델의 Input은

1장의 clean condition image $\mathbf{x}_{con}$와 viewpoint $\mathbf{v}_{con}$

N장의 noisy images $\mathcal{X}_t=\left\{\mathbf{x}_t^{(1)}, \mathbf{x}_t^{(2)}, \cdots, \mathbf{x}_t^{(N)}\right\}$와 viewpoint $\mathcal{V}_t=\left\{\mathbf{v}_t^{(1)}, \mathbf{v}_t^{(2)}, \cdots, \mathbf{v}_t^{(N)}\right\}$입니다.

이때 GT 이미지는 $\mathcal{X}_0=\left\{\mathbf{x}_0^{(1)}, \mathbf{x}_0^{(2)}, \cdots, \mathbf{x}_0^{(N)}\right\}$입니다.

DDPM과 마찬가지로 forward pass에서 noise를 추가하지만, reverse process에서는 3d Gaussian $\mathcal{G}_\theta$을 예측합니다. (Gaussian의 개수를 고정하기 위해서 Splatter Image 논문의 방식을 사용했다고 합니다)

따라서 수식은 이렇게 되는데

$$
\mathcal{G}_\theta\left(\mathcal{X}_t \mid \mathbf{x}_{c o n}, \mathbf{v}_{c o n}, t, \mathcal{V}\right)=\left\{G_t^{(k)}\left(\boldsymbol{\mu}_t^{(k)}, \mathbf{\Sigma}_t^{(k)}, \alpha_t^{(k)}, \boldsymbol{c}_t^{(k)}\right)\right\}
$$

총 $N_g = (N+1)HW$개의 pixel이 있을 때, $k$번째 픽셀에서의 Gaussian $G_t^{(k)}$을 예측하는데,

Gaussian은 3dgs와 유사하게 center position $\boldsymbol{\mu}_t^{(k)}$, covariance $\boldsymbol{\Sigma}_t^{(k)}$, opacity $\alpha_t^{(k)}$, RGB color $\boldsymbol{c}_t^{(k)}$로 표현됩니다.

$\boldsymbol{\mu}_t^{(k)}=\boldsymbol{o}^{(k)}+u_t^{(k)} \boldsymbol{d}^{(k)}$ 여기서 center position을 origin $\boldsymbol{o}^{(k)}$과 direction $\boldsymbol{d}^{(k)}$으로 표현하고,

$u_t^{(k)}=w_t^{(k)} u_{\text {near }}+\left(1-w_t^{(k)}\right) u_{f a r}$ 여기서 distance $u_t^{(k)}$는 $u_{near}$과 $u_{far}$의 가중치 $w_t^{(k)}$로 표현됩니다.

즉, 한 픽셀 $k$에서 3D Gaussian은

$\boldsymbol{o}^{(k)} \in \mathbb{R}$, // origin

$\boldsymbol{d}^{(k)} \in \mathbb{R}$, // direction

$\boldsymbol{w}^{(k)} \in \mathbb{R}$, // weight

$\mathbf{R}_t^{(k)} \in \mathbb{R}^4$, // rotation (quarternion)

$\mathbf{S}_t^{(k)} \in \mathbb{R}^3$, // scale (x,y,z)

$\alpha_t^{(k)}\in \mathbb{R}$, // opacity

$c_t^{(k)}\in \mathbb{R}^3$ // color (r,g,b)

해서 총 14개의 값으로 표현됩니다. (제가 이해한 바로는...)

Denoiser Architecture

많은 ViT 논문에서처럼 input image와 viewpoint가 concat되고, patchify되고, linearly projection되고, positional embedding과 concat되어서 Transformer block의 input token이 됩니다.

Transformer block은 MSA (multi-head self-attention) + MLP + 2LN (layer norm)으로 구성됩니다.

Output token은 Gaussian decoder (그림에서 MLP)를 통과하여, 위에서 설명한 것처럼 14차원을 갖는 per-pixel Gaussian maps $\hat{\mathcal{H}}=\left\{\hat{\mathbf{H}}_{c o n}, \hat{\mathbf{H}}^{(1)}, \cdots, \hat{\mathbf{H}}^{(N)}\right\}$이 됩니다.

총 N+1장의 이미지로부터 얻어진 N+1개의 Gaussian maps $\hat{\mathcal{H}}$은 Gaussian point clouds $\mathcal{G}_\theta$로 합쳐집니다.

Diffusion에서 사용되는 timestep condition은 adaptive layer normalization 방식으로 Transformer block과 Gaussian decoder에 들어갑니다.

Gaussian Rendering

우리는 Gaussian point clouds $\mathcal{G}_\theta$에 대한 GT는 없고 2D 이미지 GT만 있기 때문에, Gaussian을 2D 이미지로 렌더링하여 loss를 계산합니다.

렌더링 방식은 3dgs의 tile-based rasterization 방식과 동일한 것 같습니다.

Total loss는 L2 loss와 VGG-19를 활용한 perceptual loss로 구성됩니다.

$$
\mathcal{L}_{d e}=\mathcal{L}_2\left(\hat{\mathcal{X}}_{(0, t)}, \mathcal{X}_0\right)+\lambda \cdot \mathcal{L}_{\mathrm{VGG}}\left(\hat{\mathcal{X}}_{(0, t)}, \mathcal{X}_0\right)
$$

Scene-Object Mixed Training Strategy

이제까지 모델 구조와 Input/Output이 어떻게 구성되는지 봤다면 여기부터는 추가로 제안하는 training strategy에 대한 내용입니다.

특히 이 논문은 object만 생성하던 기존 연구와 다르게 scene에 대한 3d model도 생성하기 위한 방법을 제안합니다.

object와 scene은 도메인 차이가 있기 때문에 그냥 한번에 같이 학습하면 artifact가 생기거나 학습이 수렴하지 않습니다.

- Object는 주로 빈 배경으로, 이미지 가운데에 있고, 카메라가 object를 중심으로 회전하고, imaging range/depth가 제한됩니다

- Scene은 빈 배경 대신 dense image representation이 있고, 카메라는 궤도를 따라 연속적으로 움직이고, imaging range/depth 범위가 더 넓습니다.

Viewpoint Selecting

Reference-Point Plucker Coordinate

Dual Gaussian Decoder

Overall Training Objective

LLM 모델 학습 시 Accelerate + DeepSpeed 사용법

marmot_ai — Fri, 17 Jan 2025 13:14:49 +0900

https://github.com/huggingface/accelerate/blob/main/README.md#launching-training-using-deepspeed

accelerate/README.md at main · huggingface/accelerate

A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed suppo...

github.com

Accelerate 라이브러리는 Pytorch Distributed Training을 위해 HuggingFace에서 만든 라이브러리입니다.

터미널에 아래 커맨드라인을 입력하면 config 파일을 세팅할 수 있습니다.

accelerate config

그 중에 DeepSpeed를 사용할지 묻는 질문에 yes 선택해서 쭉 입력하시면 됩니다.

DeepSpeed config는 stage 2를 사용하는 경우 다음과 같이 생겼는데, 자세한 세팅은 Link에서 확인할 수 있습니다.

{
    "fp16": {
        "enabled": "auto",
        "loss_scale": 0,
        "loss_scale_window": 1000,
        "initial_scale_power": 16,
        "hysteresis": 2,
        "min_loss_scale": 1
    },
    "zero_optimization": {
        "stage": 2,
        "allgather_partitions": true,
        "allgather_bucket_size": 2e8,
        "overlap_comm": true,
        "reduce_scatter": true,
        "reduce_bucket_size": 2e8,
        "contiguous_gradients": true
    },
    "gradient_accumulation_steps": "auto",
    "gradient_clipping": "auto",
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto"
}

그러면 default_config.yaml 파일이 자동으로 생기고 다음 커맨드라인으로 코드를 실행할 수 있습니다.

accelerate launch main.py

SfM과 MVS의 차이

marmot_ai — Wed, 8 Jan 2025 20:09:01 +0900

SfM(Structure from Motion)은 Multi-view 이미지들이 입력으로 들어왔을 때, camera parameter (intrinsic + extrinsic)와 spare point cloud를 생성하는 방법입니다.

MVS(Multi-View Stereo)는 일반적으로 SfM 이후에 실행되며, SfM의 출력을 이용하여 dense point cloud를 생성하기 위한 방법입니다.

[논문 리뷰] (SIGGRAPH 2023) 3D Gaussian Splatting for Real-Time Radiance Field Rendering

marmot_ai — Wed, 8 Jan 2025 20:04:47 +0900

https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

3D Gaussian Splatting for Real-Time Radiance Field Rendering

[Müller 2022] Müller, T., Evans, A., Schied, C. and Keller, A., 2022. Instant neural graphics primitives with a multiresolution hash encoding [Hedman 2018] Hedman, P., Philip, J., Price, T., Frahm, J.M., Drettakis, G. and Brostow, G., 2018. Deep blending

repo-sam.inria.fr

NeRF와 같이 camera pose가 주어지면 novel view synthesis하는 태스크를 푼 연구입니다.

"We introduce three key elements that allow us to achieve state-of-the-art visual quality while maintaining competitive training times and importantly allow high-quality real-time (≥ 30 fps) novel-view synthesis at 1080p resolution."

3D gaussian splatting은 퀄리티와 효율성을 획기적으로 개선했고, 이후에 다양한 태스크에 3dgs를 적용하는 논문이 수없이 많이 나오고 있습니다.

이를 가능하게 한 main contribution은 아래와 같습니다.

1. 3D Gaussians으로 scene representation

기존 NeRF 기반 방법들처럼 SfM에서 얻어진 camere pose가 input으로 사용됨
특히, SfM의 산출물인 sparse point cloud로 3D Gaussians을 initialize함

2. 3D Gaussians을 optimization하는 adaptive density control 방법 제안

3. Tile-based rasterization을 통해 real-time rendering 가능

Differentiable 3D Gaussian Splatting

3D Gaussian 개념을 사용한 이유는 differentiable (미분 가능)하고, 2D splat으로 projection하기 쉽고 렌더링을 위한 빠른 $\alpha$-blending이 가능하기 때문입니다.

본 논문에서 사용하는 3D Gaussian은 다음과 같이 정의됩니다.

이때, 가우시안은 아래와 같이 3D covariance matrix $\Sigma$로 표현됩니다.

$$G(x)=e^{-\frac{1}{2}(x)^T \Sigma^{-1}(x)}$$

가우시안의 평균은 SfM의 point cloud로 초기화되고, 공분산은 learnable parameter입니다.

3D 가우시안은 그대로 사용되지 않고, 렌더링을 위해 2D 가우시안으로 projection됩니다.

world -> camera 변환을 위한 viewing transformation $W$,

camera -> image 변환을 위한 projectve transformation의 Jacobian $J$를 사용하여

다음과 같이 2D 가우시안으로 projection됩니다.

$$
\Sigma^{\prime}=J W \Sigma W^T J^T
$$

뒤에 Transpose가 붙는 이유는 symmetric하게 만들기 위함이라고 합니다.

$\Sigma^{\prime}$에서 앞에 2x2만 추출하면 기존 point-based 방법들에서 사용하는 planar point + normal과 같은 의미를 갖게 됩니다.

3D Covariance $\Sigma$를 바로 optimize해서 학습하면 좋겠지만, covariance matrix는 positive semi-definite (모든 값이 양수)여야 하는데, gradient descent로 모델을 학습하면 이 조건이 지켜지지 않기 때문에 covariance matrix를 scaling matrix S와 roataion matrix R로 표현합니다.

$$
\Sigma=R S S^T R^T
$$

S, R은 learnable parameter로써 따로 optimize됩니다.

R은 실제로는 쿼터니언 (q)으로 표현되고, q를 normalize하여 사용합니다.

Optimization with Adaptive Density Control of 3D Gaussian

이전까지는 3D Gaussian을 어떻게 표현하는지를 설명했고, 이 파트에서는 3D Gaussian을 어떻게 학습하는지에 대한 내용을 설명합니다.

Trainable parameter는 다음과 같습니다:

position $p$, 투명도 $\alpha$, covariance $\Sigma$, color $c$

이 parameter들을 optimize하는 과정과 gaussian의 density (=개수)를 control하는 과정이 섞여있기 때문에

이 논문에서는 "interleaved adaptive density control"이라는 표현이 자주 사용됩니다.

Optimization

SfM으로 초기화된 point clouds (= geometry = gaussian)은 정확하지 않기 때문에,

geometry를 create, destroy, move하는 과정이 필요합니다.

각 trainable parameter에 대한 조금 디테일한 설명들이 논문에 나와있습니다.

$\alpha$는 [0,1) 값을 갖고 smooth gradient를 얻도록 sigmoid activation을 사용하고,

scale $S$도 비슷한 이유로 exponential activation을 사용하고,

$\Sigma$는 가장 가까운 세 점까지의 거리의 평균이 되는 isotropic Gaussian으로 초기화하고,

$p$에는 exponential decay scheduling을 적용합니다.

Loss function은 L1 loss와 D-SSIM loss를 사용합니다.

$$
\mathcal{L}=(1-\lambda) \mathcal{L}_1+\lambda \mathcal{L}_{\mathrm{D}-\mathrm{SSIM}}
$$

Adaptive Control of Gaussian

위에서 설명한 것처럼 SfM으로 초기화된 point clouds (= geometry = gaussian)은 정확하지 않기 때문에,

geometry를 refine하는 과정이 필요합니다.

100 iteration마다 Remove, Split, Clone 과정을 진행합니다. Pseudo code에서 주황색 박스 부분을 보면 이해할 수 있습니다.

1) Remove: opacity $\alpha$가 threshold $\epsilon_{\alpha}$보다 낮으면 투명해서 object가 없는 부분으로 간주하고 제거합니다.

Gaussian이 너무 적은 범위 또는 너무 큰 범위를 차지하고 있는 경우도 수정해주어야 합니다.

논문에서는 두 경우 모두 잘 recon되지 않았기 때문에 view-space positional gradient가 크다는 것을 확인했습니다.

2) Clone: 가우시안의 Scale이 작은 경우 (=under reconstruction), 같은 크기의 가우시안을 복사해서 gradient 방향에 둡니다.

3) Split: 가우시안의 Scale이 큰 경우 (=over reconstruction), 두 개의 가우시안으로 쪼개고, 각각의 크기를 1.6배 줄입니다. 쪼갠 가우시안의 위치는 원래 가우시안에서 PDF로 샘플링합니다.

즉, Clone은 가우시안의 개수와 volume이 모두 증가하고 & Split은 개수는 증가하지만 전체 volume은 유지됩니다.

추가로 3000 iteration마다 opacity $\alpha$를 0으로 초기화하여 카메라 근처에 떠다니는 floater들을 제거할 수 있었다고 합니다.

Fast Differentiable Rasterization for Gaussians

이 부분은 코드로 봐야겠다..