이미지 생성 AI의 역사 — '아직 멀었어'의 연대기

이미지 생성 AI의 역사 — ‘아직 멀었어’의 연대기

2025년 12월, 인스타그램 스토리에 연재했던 글을 옮기고 다듬었습니다.

요새는 창작자를 위한 AI 툴이 정말 많다. 하도 많아서 머리가 아플 지경이다. 이런 툴을 대하는 사람들을 옆에서 지켜본 결과, AI 기술에 대한 반응은 크게 세 부류로 나뉘었다.

첫째는 기술을 재빠르게 수용하고, 자신의 것으로 만드는 부류. 둘째는 “아직 멀었어~” 하며 기술을 부정하는 부류. 마지막으로 딱히 별생각 없는 중간 어딘가.

나는 이 중에서 두 번째 부류의 사람들이 세 번째 부류의 사람들보다 더 위험할 수 있다고 생각한다. 다양한 AI 서비스를 사용하며 당장 무엇이 안 되는지 현실적으로 파악하는 것은 아주 좋고, 중요하다. 안 써본 사람들보다는 써본 사람이 낫다. 그러나, 지금 당장 무언가가 작동하지 않는다고 해서 그것의 미래 가치마저 부정하는 건 좀 문제가 있다.

내가 AI 발전의 미래에 대해 무한 긍정을 하기에 이런 생각을 하는 것이냐 하면 틀렸다. 오히려 반대다. 나는 꽤 오래 AI를 공부했고, 대학원에서 박사과정까지 해 가며 AI의 발전을 지켜봐 왔다. 그렇게 AI를 공부하면 할수록, 드는 생각은 이거였다.

‘여기서 더 발전할 게 있나?’

2013 — VAE: ‘이걸 어디다 써?’

2013년, Auto-Encoding Variational Bayes (VAE)가 등장했다. 이때 AI가 만들어낸 이미지는 이미지 수준이 아니었다. 사이즈는 코딱지만 하고(28×28의 흑백 이미지를 겨우 생성했다), 흐릿하고, 뭉개져 있었으며, 기껏해야 MNIST라고 하는 흑백 숫자를 흉내 내거나 흐물거리는 얼굴 형상을 만드는 정도였다.

그때 사람들은 ‘기술적으로는 우아한데, 이걸 어디다 써?’라고 말했다. 사람들은 이걸 수학적인 문제로만 봤지, 창작의 도구로 보지 못했다. 나는 이때 대학 들어가기도 전이었다.

VAE가 재구성한 MNIST 숫자 VAE가 MNIST 손글씨 숫자를 재구성한 결과 — 흐릿하고 뭉개진다. 출처: mdhabibi/DeepLearning-VAE · 논문: Auto-Encoding Variational Bayes (Kingma & Welling, 2013)

2015 — DCGAN

2년 뒤인 2015년, Convolution에 GAN의 학습 방식을 도입한 DCGAN(Deep Convolutional GAN)이 나왔다.

GAN이라는 방법이 안정화되면서, 이미지가 쬐금 더 나아졌다. 그러나 이미지의 퀄리티는 끔찍한 수준이었다. 학습 또한 너무 불안정해서 조금만 잘못 건드려도 노이즈만 뱉어내기 일쑤였으며, 큰 사이즈의 이미지를 학습하는 건 엄두도 못 낼 정도였다.

DCGAN으로 생성한 얼굴. 출처: carpedm20/DCGAN-tensorflow · 논문: Radford et al., 2015

2018 — PGGAN, 그리고 StyleGAN

3년이 지난 2018년, GAN의 전성기가 도래했다. Progressive Growing of GANs(PGGAN) 논문은 저해상도에서 시작해 고해상도로 이미지를 키워나가며 학습하는 방식을 제안했다. 이 방식으로 1024픽셀의 고화질 이미지를 만들어낼 수 있었다. 결과물은 꽤 인상적이긴 했지만, 아직까지도 어디 쓸 수준은 아니었다.

PGGAN으로 생성한 얼굴 PGGAN. 출처: tkarras/progressive_growing_of_gans · 논문: Karras et al., 2017

이어서 A Style-Based Generator Architecture for Generative Adversarial Networks라는 논문이 엔비디아에서 나왔다. StyleGAN의 등장이다. 저자들은 더 나은 잠재 공간을 만드는 방법과 스타일을 레이어마다 주입하는 방법을 제안해서 이미지 퀄리티를 비약적으로 향상시켰다. 이 기술은 존재하지 않는 사람의 얼굴을 솜털 하나까지 그려냈다. 당시 학습에 사용된 FFHQ 데이터셋은 5만 장의 얼굴 이미지로 구성되어 있었는데, 그때 기준으로 이건 엄청난 숫자였다. 참고로, 최근의 이미지 데이터셋, 예를 들면 LAION-5B 데이터셋에는 이미지가 ‘50억’ 장 포함되어 있다.

StyleGAN이 생성한 얼굴들 StyleGAN. 출처: NVlabs/stylegan · 논문: Karras et al., 2018

아무튼 그때 사람들의 반응은 이랬다.

‘와, 얼굴은 좀 진짜 같다. 근데 딱 거기까지 아닌가? 배경은 뭉개지고, 여러 사물이 섞인 복잡한 장면은 전혀 못 그리잖아. 그냥 증명사진 생성기 정도네.’

그렇다. StyleGAN은 데이터가 잘 정렬되어 있는 FFHQ에서는 잘 학습됐지만, 정렬되지 않은 데이터에서 이미지를 생성하는 건 여전히 참 어려운 일이었고, 생성하는 이미지의 퀄리티도 썩 좋지 않았다. 누가 봐도 기괴하고, 가짜 같았다.

2020 — VQGAN

2020년, 분위기가 조금씩 달라졌다. Taming Transformers for High-Resolution Image Synthesis(VQGAN)라는 논문이 등장했다. 이 논문은 Vector Quantization과 트랜스포머 아키텍처를 이미지 생성에 도입했고, 이건 아주 훌륭한 아이디어였다. 이 모델은 꽤 괜찮은 이미지를 생성해냈다. 그럼에도 여전히, ‘멋진데 어따 쓰지?’라고 생각했다.

VQGAN 생성 결과 VQGAN. 출처: CompVis/taming-transformers · 논문: Esser et al., 2020

이맘때쯤 나도 VQGAN을 가지고 놀았다. 그냥 재미있는 이미지를 만드는 장난감 정도였다.

디퓨전의 등장 — DDPM

GAN이 주춤하는 사이, 물리학에서 영감을 받은 Denoising Diffusion Probabilistic Models(DDPM) 논문이 나왔다. 소위 말하는 디퓨전 모델의 등장이다. 노이즈를 점진적으로 걷어내며 이미지를 만드는 이 방식은 GAN보다 훨씬 안정적이고 다양한 이미지를 만들어냈다.

하지만 여전히, 작은 이미지에서나 작동하는 데다 생성 품질도 좋지 않았다. 조악한 256×256의 이미지를 어따 쓴단 말인가?

논문: Denoising Diffusion Probabilistic Models (Ho et al., 2020)

2021 — GLIDE와 DALL·E

2021년, 아무 이미지나 생성하던 디퓨전 모델을 CFG를 통해 가이드하는 방법을 제안한 GLIDE 같은 논문이 등장하기 시작했다. 또, OpenAI나 다른 빅테크 기업들에서 DALL·E 같은 서비스를 시작했다. 이런 서비스들은 ‘아보카도 모양의 의자’를 그려달라고 하면 그려줬다.

DALL·E가 생성한 '아보카도 모양의 안락의자' DALL·E의 상징이 된 ‘아보카도 안락의자’. 출처: OpenAI / MIT Technology Review · DALL·E 논문: Ramesh et al., 2021 · GLIDE 논문: Nichol et al., 2021

신기하긴 한데, 여전히 해상도가 너무 낮고 만화 같았다. 그리고 디테일을 조절할 수도 없었다. 한마디로 그냥 재미있는 장난감이었다. 인간의 것으로 여겨지던 창의성을 AI 모델에서 발견하는 건 좀 놀라웠지만, 여전히 그 퀄리티는 작품이라기보단 인터넷 짤방도 안 되는 수준이었다.

2021 — Stable Diffusion

그리고 High-Resolution Image Synthesis with Latent Diffusion Models(LDM, 2021), 즉 우리가 아는 스테이블 디퓨전(Stable Diffusion)이 등장했다. 이때부터 AI는 텍스트를 이해하고, 고해상도의 복잡한 그림을 그리고, 꽤 그럴듯한 결과물을 쏟아내기 시작했다. 조금씩 두려워하는 사람들이 생겼다.

Stable Diffusion 생성 결과 Stable Diffusion (LDM). 출처: CompVis/stable-diffusion · 논문: Rombach et al., 2021

그럼에도 여전히 일부 사람들은 이렇게 반응했다. ‘대단하네. 근데 손가락이 6개잖아? 나는 딱 봐도 구별할 수 있어. 글씨도 못 쓰네. 역시 디테일은 인간을 못 따라와. 그리고 너무 무거워서 내 컴퓨터에선 안 돌아가.’

2022 — DiT, 트랜스포머 위로

2022년, Scalable Diffusion Models with Transformers(DiT)가 등장한다. 이제 디퓨전 모델은 오래된 UNet 구조를 버리고, 트랜스포머 아키텍처 위에서 돌아가기 시작했다. Video Diffusion Models와 같이 video나 audio 생성에서도 diffusion이 도입되기 시작했다. 이 시점 즈음부터는 슬슬 창작자들이 스스로 AI에 관심을 가지기 시작했다.

DiT 생성 결과 DiT. 출처: facebookresearch/DiT · 논문: Peebles & Xie, 2022

2024 — MMDiT, 텍스트와 이미지를 따로

DiT가 트랜스포머를 디퓨전에 들여왔다면, 그다음은 MMDiT(Multimodal Diffusion Transformer)였다. Stable Diffusion 3가 채택한 이 구조는 텍스트와 이미지를 하나로 뭉뚱그리지 않고, 각각 별도의 가중치로 처리한 뒤 어텐션에서 만나게 한다. 거기에 Rectified Flow라는 더 곧은 학습 방식을 얹었다.

결과는? 그토록 안 되던 것들이 되기 시작했다. 손가락은 멀쩡해졌고, 그림 속 글씨도 제법 또박또박 써낸다. FLUX를 비롯한 요즘 잘나가는 모델들이 대부분 이 계열이다. 불과 몇 년 전 ‘글씨도 못 쓰네’라고 비웃던 그 약점이, 이렇게 메워졌다.

Stable Diffusion 3.5(MMDiT)가 생성한 '말을 탄 우주비행사' Stable Diffusion 3.5 (MMDiT) 생성 예시. 출처: Wikimedia Commons · 논문: Esser et al., 2024 (SD3)

그리고 현재

그 후 시간이 흘러 현재가 됐다. ‘아직 멀었어’라는 말의 유통기한, 2013년의 흐릿한 흑백 숫자에서 2025년의 나노바나나까지. 10년 좀 더 걸렸다.

‘아직 멀었어’가 위험한 이유

매 단계마다 사람들은 ‘아직 멀었어’, ‘이건 안 되잖아’라고 말했다. 나도 그랬다. ‘여기서 뭘 더 아이디어를 낼 수 있지?’, ‘더 기술이 발전할 건덕지가 있나?’ 이건 그 당시에는 꽤 정확한 판단으로 보였다. 그렇지만 지금은 아니다.

기술을 부정하는 두 번째 부류의 사람들이 위험한 이유는 여기에 있다. 그들은 현재의 한계를 기술의 본질적인 한계로 착각한다. ‘AI는 손을 못 그려’라고 단정 짓고 관심을 끄는 순간, 그다음 단계로 넘어간 기술을 따라잡는 데 시간이 걸린다. 다시 돌아봤을 때 격차는 이미 크게 벌어져 있을 것이다. 따라잡을 필요가 없다면 안 따라잡아도 되겠지만… 그런 사람이 얼마나 있을까?

지금 우리가 해야 할 일은 무엇이 안 되는지를 비웃는 게 아니라, 지금 안 되는 것이 6개월, 1년, 10년 뒤에 해결된다면 무엇이 바뀔지를 고민하는 것이다. 안 되는 것을 파악하는 것은 아주 중요하다. 그러나, 안 되는 것에만 집착해 원래의 편안하고 익숙한 방식으로 다시 돌아가는 건 매우 위험하다.

쌓아올려진 것

OpenAI 공동창업자 일리야 수츠케버는 한 인터뷰에서 이렇게 말했다. 흑백 이미지를 만들던 때와 지금 투입되는 자본의 차이는 상상을 초월한다고. 지금의 상황은 어딘가에서 갑자기 짠! 하고 등장한 것이 아니다.

앞에서 본 것과 같이, 모두가 당시에 할 수 있는 최선의 노력을 했고, 그게 차곡차곡 쌓아올려져 여기까지 온 것이다.

회의적인 사람은 수도 없이 많았다. 나도 그랬고.