2025년 2월에 인스타 스토리에 쓴 글을 옮겨왔습니다.

몇 년 전까지만 해도 인간 수준의 AI 디자이너가 근시일 내에 탄생할 것이라 생각했지만, 최근에는 만족스러운 수준의 디자인 AI가 아주 빠른 시간 내에는 등장하지 못할 것 같다는 회의적인 방향으로 마음이 기울고 있다.

그 이유는 크게 세 가지인데, 대부분 기술 자체의 한계보다도 기술 외적인 것에서 기인한다.

1. 작은 시장

디자인 시장은 작다. 상상 이상으로 작다. 세계 디자인 시장 규모는 600억 달러로 추산된다. 반면에 이제 막 생겨나기 시작한 인공지능 시장의 규모는 1,700억 달러로 추정된다. 갓 생겨난 AI 시장이 디자인 시장보다도 두 배 넘게 큰 것이다. 만약 당신이 투자자라면, 어디에 당신의 피같은 돈을 투자하겠는가?

딥식이 상대적으로 적은 액수로 괜찮은 성능의 LLM을 학습시킨 게 화제였지만, AI를 학습시키는 데는 여전히 천문학적인 액수의 자본이 요구된다. 그 돈을 가지고 어떤 AI를 만들겠는가? 어떤 시장에 사용될 기술을 개발하도록 투자하겠는가? 연평균 성장률이 33.2%로 추정되는 LLM 시장? 아니면, 연평균 성장률이 5%에 불과한 디자인 시장? 답은 뻔하다.

2. 데이터와 실제 세상과의 괴리

지금 가장 잘나가는 AI 모델 중 하나인 GPT는 엄청나게 많은 텍스트 데이터와 그보다는 적은 이미지 데이터를 가지고 멀티모달로 학습한다. 내 생각에, LLM이 잘 되는 이유는 텍스트 데이터가 어마어마하게 많은데 구하기도 쉽기 때문이다. 반면, 이미지 데이터는 용량부터가 텍스트에 비해 어마어마하게 크다. 영상은 말할 것도 없다. 그래서 GPT가 텍스트로 된 문제는 엄청나게 잘 풀 수 있어도, 이미지를 다루는 데는 아직 서툰 것이다. (순전히 내 추측이다.)

그러나 디자인은 시각에 의존하고, 시각은 물리적 세상과 매우 밀접한 관계가 있다. GPT가 지금 존재하는 모든 데이터를 아무리 잘 학습한다 한들, 물리적 세상에 대한 GPT의 이해는 피상적인 것에 불과하다. 비유하자면 고도의 책상물림으로 세상을 공부한 인간이라고 할 수 있겠다. 그래서 요새 빅테크들이 로봇을 만들고 난리를 치는 것이다.

인간은 보통 60프레임까지 인식할 수 있다고 한다. 게이밍 모니터를 쓰는 사람들은 아니라고들 하지만, 그렇다고 치자. 하루 잠을 여덟시간 잔다면 16시간을 깨어있는 것인데, 이 16시간 동안 우리는 ‘본다’. 이렇게 따지면 하루에만 3,456,000장의 이미지를 보는 셈이다.

평생 보아온 이미지의 수를 다 합하면 엄청난 숫자가 된다. 심지어 우리가 보는 데이터가 용량으로 따지면 더 크다. 우리는 0에서 255를 넘는 엄청나게 넓은 Dynamic Range로 세상을 본다. 이 모든 데이터가 양질의 학습 데이터는 아니겠지만, 숫자나 용량으로 따지면 천문학적인 수가 된다. 사진기로 찍은 사진만 RGB 0부터 255의 영역 내에서만 볼 수 있는 GPT와는 쨉이 안 되는 것이다.

3. 보간이 어려운 지점

현대의 인공지능 모델들은 주어진 데이터 사이에서 패턴을 찾아 보간(interpolation)하는 데 매우 뛰어나다. 이미지 생성 AI나 디자인 AI도 기존에 학습한 데이터를 기반으로 새로운 결과물을 만들어내지만, 이는 본질적으로 기존 데이터의 변형이나 조합에 가깝다. 그러나 디자인 작업에서는 단순한 보간만으로 해결할 수 없는 창의적인 도전 과제가 많다.

다만, 어쩌면 창의성 또한 넓은 의미에서 보간일 수 있다. 모든 연구에는 related work가 존재한다. 완전히 새로운 것은 아주 드물다. 거인의 어깨 위에 올라서서 본다는 말이 괜히 있는 말이 아니다. 그러나, 적어도 지금까지의 AI에서 인간 디자이너만큼 뛰어난 보간을 보기는 어려웠던 것 같다.