뮤직비디오 VFX 제작기
지난 5월, ‘애니그마 테크놀로지스’는 가수 우원재의 새로운 노래 ‘Ransome’의 뮤직비디오 제작에 참여하는 특별한 기회를 얻었습니다.
저희 애니그마는 카이스트 비주얼 미디어 랩의 석사 및 박사 과정 학생들이 결성한 스타트업으로, 최근에는 얼굴 애니메이션 분야에서의 전문성을 바탕으로 AI를 활용한 립싱크 기술 개발에 주력하고 있습니다. 이번 뮤직비디오 제작은 그러한 기술을 활용할 수 있는 완벽한 시기였습니다.
사실 요즘같은 시대에 인공지능으로 얼굴을 바꾼다는 건 크게 놀라운 일은 아닙니다. 딥페이크와 같은 기술은 이미 얼굴 조작의 대명사가 되었고, 그보다 옛날에도 Face2Face와 같은 논문들이 퍼블리시되곤 했으니까요.
그런데 여기서 한번 짚고 넘어가고 싶은 건 Face Swap과 Face Reenactment는 굉장히 비슷해 보이면서도 다른 개념이라는 겁니다. 심지어 이 분야의 연구자조차도 두 개념을 혼동하곤 합니다. 디즈니 리서치의 2020년 논문 섹션 2.4에서도 이러한 부분을 지적하고 있어요. 사실 저희가 푸는 문제는 소스 얼굴을 타겟 얼굴과 바꿔치기하는 Face Swap이 아니라 소스 얼굴의 표정으로 타겟 얼굴을 조종하는 Face Reenactment에 더 가깝습니다.
사실 딥페이크 뿐 아니라 수많은 Face Swap/Reenactment 기술이 나와 있습니다. 일견 이러한 기술들이 잘 작동하는 것처럼 보이겠지만, 실제 프로덕션에서 사용할 때는 이야기가 달라집니다. 많은 경우 해상도가 낮거나, 사람이 달라져 버리거나, 그 사람의 입모양을 잘 따라가지 못하는 등 여러 문제를 가지고 있습니다.
저희는 Deferred Neural Rendering과 같은 연구를 참고했습니다. 이 논문의 아이디어는 심플하지만, 효과적입니다. 3D 모델을 일종의 중간 매개체, Intermediate Representation으로 사용하고 최종 렌더 결과는 뉴럴 네트워크에게 맡기는 것이죠.
해당 기술을 사용하기 위해서 우원재씨의 얼굴 비디오에 3D 모델을 피팅해야 했습니다. 저희는 3D Morphable Model, 3DMM을 사용했습니다. 3DMM은 다양한 얼굴을 표현할 수 있는 통계에 기반한 모델이라고 보시면 됩니다. 이렇게 Neural Rendering과 3DMM을 합쳐서 사용하는 사례는 얼굴 연구 분야에서는 아주 흔한 일입니다.
여기에 추가적으로 3D 얼굴이 음성으로부터 표정을 생성하도록 만드는 기술이 들어갑니다. 이런 기술을 일반적으로 Speech to Animation이라고 부르는데요. NVidia의 2017년 연구나 JALI, VOCA, MakeItTalk 등등 이 분야에서도 수많은 연구가 진행되고 있습니다. 저희 연구실의 주요 연구 분야 중 하나이기도 하구요.
저희 기술을 실제 프로덕션에 적용하기 위해 좌충우돌하는 부분이 많았지만 그만큼 값진 경험이었습니다. 기회를 주신 윤준희 감독님께 다시 한 번 감사드려요. :)
Comments