세계를 표현하는 방식을 배우기

얼마 전 나는 ‘공간에 대한 생각’이라는 제목의 글을 썼다. 그 글의 요지는 공간을 사물이 놓이는 배경이 아니라 수많은 관계를 효율적으로 담기 위한 형식으로 볼 수 있다는 내용이었다. LLM의 임베딩, 해마의 인지 지도, 일부 현대 물리학이 말하는 창발적 시공간이 서로 무관해 보이면서도 공통적으로 공간이라는 형식을 사용하는 이유를, 관계의 압축이라는 원리로 설명하려 했다.

그보다 앞서 쓴 ‘예술과 바이러스’에서는 예술을 정보의 전달이 아니라 내부 모델의 수정 과정으로 규정했다. 이 관점에서 좋은 예술은 관객이 가진 사전분포를 흔들어 예측 오류를 만들고, 그 오류를 해소하는 과정에서 세계를 해석하는 규칙 자체를 갱신하게 한다.

나는 두 글이 서로 다른 주제를 다룬다 여겼다. 그런데 다시 읽어보며 곰곰이 생각하다 보니, 둘 다 이해에 대해 서로 다른 방식으로 조명하고 있었다는 점을 깨달았다.

우리는 흔히 이해를 지식을 많이 가진 상태와 동일시한다. 그러나 정보 이론과 기계학습, 인지과학을 나란히 놓고 보면 이해는 정보를 많이 저장하는 일보다는 세계를 더 경제적으로 표현하는 일에 가깝다. 이 차이는 관계를 다루는 방식에서 분명하게 드러난다.

세계는 관계의 집합으로 볼 수 있다. N개의 대상이 있을 때 이들 사이의 쌍 관계는 N(N−1)/2개, 즉 대략 N²에 비례하는 규모로 늘어나며, 이를 하나씩 표로 저장하면 저장량도 같은 속도로 증가한다. 반면 각 대상을 d차원 좌표로 나타내면 저장해야 할 수는 N×d개로 줄고, 두 대상 사이의 거리나 방향 같은 관계는 좌표에 대한 연산으로 그때그때 복원된다. 결국 d가 N보다 충분히 작을 때 좌표계는 O(N²) 규모의 관계를 O(N) 규모의 표현으로 압축하는 장치가 된다.

이런 압축은 관계의 규칙성을 요구한다. 완전히 무작위한 관계는 어떤 좌표계로도 크게 줄여 표현할 수 없기 때문이다. 기계학습의 다양체 가설(manifold hypothesis)은 이 조건이 실제 데이터에서 대체로 충족된다고 본다.¹ 64×64 화소의 흑백 이미지는 4096차원 공간의 한 점이지만, 실제 얼굴 이미지들은 조명, 각도, 표정 같은 약간의 자유도가 지배하는 훨씬 낮은 차원의 곡면(다양체) 근처에만 분포하며, 임베딩이 성공한다는 것은 곧 데이터가 이런 저차원 구조를 가진다는 경험적 증거다.

LLM은 이 원리를 뚜렷하게 보여 준다. LLM은 단어를 개별적으로 암기하는 대신, 다음 단어를 예측하도록 학습하는 과정에서 각 단어를 고차원 벡터로 배치하고 의미가 가까운 단어를 가까운 위치에, 유사한 관계를 유사한 방향으로 정렬한다. word2vec 계열 모델에서 “왕 − 남자 + 여자 ≈ 여왕” 같은 벡터 연산이 성립하는 것은, 성별이나 지위 같은 관계가 공간상의 일정한 방향으로 인코딩되었기 때문이다.²

뇌 또한 비슷한 전략을 쓴다는 증거가 있다. 해마의 장소세포(place cell)는 동물이 특정 위치에 있을 때 발화하고, 내후각피질의 격자세포(grid cell)는 공간을 육각형 격자로 덮는 규칙적 패턴으로 발화하는데, 이 발견은 2014년 노벨 생리의학상으로 이어졌다.³

주목할 점은 이 체계가 물리적 공간에만 쓰이지 않는다는 것이다. 한 fMRI 연구에서는 사람이 다리 길이와 목 길이라는 두 축으로 이루어진 추상적 개념을 학습할 때, 내후각피질에서 물리적 이동에서 나타나던 것과 같은 육각 대칭 신호가 관찰되었다.⁴ 이는 뇌가 개념을 목록으로 저장하기보다 좌표를 가진 지도로 조직하는 경향이 있음을 뒷받침한다.

그런데 압축이 곧 이해라고 단정하기 전에 한 가지를 구분해야 한다. 관찰한 것을 짧게 기술하는 능력과 아직 보지 않은 것을 예측하는 능력은 같지 않다. 같은 데이터를 똑같이 잘 압축하는 두 표현이 새로운 사례 앞에서는 전혀 다르게 행동할 수 있다. 하나는 우연히 들어맞는 요약에 불과하고, 다른 하나는 데이터를 낳은 구조 자체를 캐치한 것일 수 있기 때문이다. 우리가 이해라고 부르는 것은 본 것을 요약하는 데서 그치지 않고, 그 요약이 보지 않은 것으로 옮겨 갈 때에야 비로소 성립한다. 이해의 핵심은 압축의 사이즈가 아니라 전이 가능한 구조에 있다.

이 구분은 최근의 인지 지도 연구에서 구체적인 형태로 나타난다. 베렌스와 휘팅턴(James C. R. Whittington, Timothy E. J. Behrens) 등은 해마-내후각 체계를 구조와 내용을 분리해 학습하는 모델(톨먼-아이켄바움 기계, Tolman-Eichenbaum Machine, TEM)로 설명했다.⁵ 여기서 구조란 대상들이 놓이는 관계의 형식이고, 내용이란 각 자리에 채워지는 감각 정보다. 둘을 분리해 두면, 한 환경에서 익힌 관계 구조를 내용만 갈아 끼워 새로운 환경에 그대로 재사용할 수 있다. 이 모델은 격자세포 같은 코드가 환경이 바뀌어도 되풀이되어 나타나는 이유가 여기에 있다고 본다. 좋은 표현은 단지 짧은 표현이 아니라 재사용되는 표현이다. 압축은 이해의 필요조건일지언정 충분조건은 아니며, 압축된 것이 다시 쓰일 수 있을 때에만 우리는 그것을 이해라 부른다.

정보 이론은 정보와 이해가 같지 않음을 다른 각도에서 정량적으로 보여 준다. 섀넌은 어떤 사건 x의 정보량을 확률 p(x)에 대한 −log p(x), 곧 놀라움(surprisal)으로 정의했으며, 확률이 낮은 사건일수록 더 많은 정보를 가진다.⁶ 이 정의에 따르면 예측이 완전히 빗나가는 사건일수록 정보량이 크다는 결론이 나오는데, 바로 여기서 역설이 발생한다.

완전히 랜덤한 값들은 각 기호가 최대한 예측 불가능하므로 섀넌 정보량이 가장 크지만, 우리는 그것을 이해했다고 말하지 않는다. 콜모고로프 복잡도(Kolmogorov complexity)는 같은 현상을 계산의 관점에서 기술한다.⁷ 어떤 문자열의 복잡도 K(x)는 그 문자열을 출력하는 가장 짧은 프로그램의 길이로 정의되며, “010101…”처럼 규칙이 있는 문자열은 짧은 프로그램으로 생성되어 K가 작은 반면, 완전한 난수열은 자기 자신을 그대로 담는 것 외에 더 짧은 기술이 없어 K가 문자열 길이가 된다. 따라서 가장 압축되지 않는 대상이 가장 복잡하지만, 그것이 곧 가장 잘 이해된 대상인 것은 아니다. 오히려 이해는 압축이 가능한 곳에서만 성립한다.

여기서 짚어 둘 것이 있다. 콜모고로프가 말하는 압축은 문자열을 만드는 프로그램의 길이, 곧 알고리즘적 압축이다. 반면 앞서 좌표계와 임베딩에서 말한 압축은 대상을 저차원 공간에 배치하는 기하적 압축이다. 둘은 같은 단어를 쓰지만 같은 것이 아니다. 원주율의 자릿수는 짧은 프로그램으로 압축되지만 쓸모 있는 좌표 배치를 주지 않고, 반대로 다양체 위의 점들은 짧은 프로그램으로 기술하기 어려워도 기하적 표현을 이룬다.

이 글은 줄곧 후자의 기하적 은유에 기대어 왔지만, 정보와 이해가 다르다는 논증을 떠받치는 도구는 전자의 알고리즘적 압축이다. 정보가 많다는 것과 이해했다는 것이 서로 다른 진술이며, 이해란 많은 정보를 더 짧고 다시 쓸 수 있는 표현으로 바꾸는 일에 가깝다.

그렇다면 표현은 어떻게 바꿀 수 있을까? 예측 부호화(predictive coding) 이론은 뇌를 위계적 생성 모델로 보고, 상위 영역이 하위 영역에서 들어올 입력을 예측하며 실제 입력과 예측의 차이, 곧 예측 오류만이 위로 전달된다고 설명한다.⁸ 이 틀에서 지각은 감각의 수동적 수용이 아니라 예측과 입력을 맞추어 가는 능동적 추론이고, 학습은 그 예측 오류를 줄이도록 모델을 수정하는 과정이다.

그런데 예측 오류가 작기만 하면 모델을 고칠 이유가 없어 학습이 일어나지 않는다. 반대로 오류가 지나치게 크면 입력이 기존 모델과 접점을 갖지 못해 무엇을 어떻게 고쳐야 할지 특정할 수 없다. 학습이 가장 잘 일어나는 지점은 그 사이, 즉, 기존 표현으로는 설명이 부족하지만 표현을 약간 수정하면 여러 현상이 함께 설명되는 구간이다.

흥미로운 것은 이 직관이 서로 다른 세 분야에서 거의 같은 모양으로 되풀이된다는 점이다. 심리학자 다니엘 벌린(Daniel E. Berlyne)은 1970년대 실험미학에서 신규성, 복잡성, 불확실성 같은 변수와 쾌감 사이의 관계가 역U자를 그린다고 보았다.⁹ 자극이 너무 단순하고 뻔하면 지루하고, 너무 복잡하고 낯설면 불쾌하며, 쾌감은 그 중간에서 정점을 이룬다는 것이다. 이른바 분트 곡선(Wundt curve)으로 알려진 이 형태는, 인간이 매력을 느끼는 지점이 곧 학습이 가능한 지점과 겹친다는 최초의 정량적 진술 가운데 하나였다.

수십 년 뒤 이 직관은 인공지능과 로봇공학에서 훨씬 구체적인 학습 원리로 다시 나타난다. 위르겐 슈미트후버(Jürgen Schmidhuber)는 관찰을 압축한 정도가 아니라 압축률이 개선되는 변화량을 내재적 보상으로 삼는 학습 원리를 제안했다.¹⁰ 흥미와 아름다움은 이미 잘 압축된 대상(지루함)이나 전혀 압축되지 않는 대상(노이즈)이 아니라, 방금 전보다 더 잘 압축하게 된 순간에 발생한다는 것이다. 피에르이브 우데예(Pierre-Yves Oudeyer)와 동료들은 이 발상을 발달 로봇에서 실험적으로 구현했다.¹¹ 예측 능력이 가장 빠르게 향상되는 상황을 스스로 찾도록 보상을 설계하자, 에이전트는 아무도 지시하지 않았는데도 너무 뻔하지도 너무 무작위하지도 않은 학습 가능한 경계로 이끌려 갔고, 한 영역을 충분히 익히면 다음 경계로 자발적으로 옮겨 갔다.

각성 잠재력, 압축 진전, 학습 진전이라는 세 어휘는 결국 하나의 곡선, 곧 학습 가능성의 역U자를 가리킨다. 1970년대의 심리학 실험실에서 오늘의 로봇에 이르기까지 같은 모양이 반복해 나타난다는 사실은, 이것이 한 시대의 유행이 아니라 학습이라는 과정 자체의 형태일 가능성을 시사한다. 규칙이 새로 보이는 순간, 즉, 방금 전보다 세계를 조금 더 잘 압축하게 된 순간이 곧 이해가 갱신되는 순간이자 우리가 재미와 아름다움을 느끼는 순간이다.

이 틀에서 예술을 다시 보면, 앞서 예술을 정보와 노이즈의 보간이라 했던 서술을 좀 더 일반적으로 다시 쓸 수 있다. 좋은 예술은 관객의 기존 표현으로 완전히 설명되지도 않고, 그렇다고 순수한 노이즈인 것도 아니다. 기존 표현으로 모두 설명되는 작품은 예측 오류를 만들지 못해 새로운 이해를 유발하지 않고, 순수한 노이즈에 가까운 작품은 참조할 구조가 없어 새 표현을 학습할 수 없기 때문이다. 좋은 작품은 관객의 기존 표현이 실패하는 지점을 겨냥하고, 그 실패를 통해 새로운 표현을 요구한다.

예술은 사실들을 배열하는 방식 자체를 바꾼다. 무관하던 대상들이 가까워지고 당연하던 것이 멀어지면서, 관객이 세계를 놓는 좌표계가 다시 그려지는 것이다. 좋은 작품이 오래 남는 이유도 여기에 있다. 작품이 감상 이후에도 계속 작동하는 것은 그 내용을 반복해 떠올리기 때문이 아니라, 이후의 경험을 새로 그려진 좌표계 위에서 해석하게 만들기 때문이다. 이 지점에서 두 글이 만난다. ‘공간에 대한 생각’이 좌표계를 세우는 압축의 과정을 다뤘다면 ‘예술과 바이러스’는 그 좌표계를 다시 그리게 만드는 재압축의 과정을 다룬 것이며, 둘 중 하나만으로는 학습이 성립하지 않는다.

이 글은 줄곧 공간과 좌표계라는 은유에 기대어 왔지만, 그 은유가 곧 결론은 아니다. 여기에는 사실 서로 다른 두 개의 주장이 겹쳐 있다. 하나는 이해가 더 좋은 표현을 갖는 일이라는 주장이고, 다른 하나는 그 표현이 흔히 공간의 형태를 띤다는 주장이다.

앞의 주장은 표현의 형식에 대해 중립적이다. 좋은 표현은 계량적 공간일 수도 있지만, 관계 그래프일 수도, 위계 구조일 수도, 프로그램의 형태일 수도 있다. 뒤의 주장은 필연이 아니라 인간과 기계 모두에서 자주 관찰되는 경험적 경향일 뿐이다. 톨먼-아이켄바움 기계가 흥미로운 것도 이 지점인데, 그것이 말하는 표현은 순수한 계량적 좌표라기보다 관계의 형식과 내용을 분리해 낸 구조에 가깝기 때문이다. 마찬가지로 콜모고로프의 압축은 기하가 아니라 프로그램의 길이로 정의된다. 그러니 세계를 공간으로 변환한다는 말은 문자 그대로의 기하로 좁게 읽기보다, 관계를 전이 가능한 형식으로 조직한다는 뜻이다.

과학은 사실을 더 많이 수집하기보다 더 넓은 범위를 설명하는 표현을 찾고, 기계학습은 데이터를 더 유용한 표현 공간으로 임베딩하며, 뇌는 경험을 인지 지도로 조직한다. 예술은 기존 표현 공간의 한계를 드러내 새로운 표현을 제안하고, 일부 현대 물리학은 시공간마저 더 근본적인 정보 구조에서 창발한 표현일 가능성을 검토한다. 이들이 동일한 이론인 것은 아니며, 같은 수학을 쓰지도 같은 문제를 풀지도 않는다. 그럼에도 하나의 직관이 반복적으로 나타난다. 그것은 이해가 더 많은 정보를 갖는 일이 아니라 더 좋은 표현을 갖는 일이라는 직관이다.

그렇다면 우리가 공간 안에서 살아간다는 통념을 뒤집어 볼 여지가 있다. 우리는 세계를 끊임없이 표현으로 변환하며 살아가는 존재에 가깝다. 경험은 표현이 되고, 표현은 예측을 낳고, 예측은 실패하며, 그 실패가 다시 새로운 표현을 만든다. 이 순환은 인간의 학습, 과학의 역사, 인공지능의 훈련, 그리고 예술이 남기는 효과에 공통적으로 나타나는 형식이다. 결국 이해란 더 많은 사실을 아는 능력이 아니라 세계를 더 잘 표현하는 능력이며, 이 관점에서 좋은 예술의 기능도 다시 규정할 수 있다. 그것은 세계를 바꾸는 것이 아니라, 우리가 세계를 표현하는 방식을 바꾸는 것이다.

Fefferman, C., Mitter, S., & Narayanan, H., “Testing the manifold hypothesis”, Journal of the American Mathematical Society 29(4), 983–1049 (2016). ↩
벡터 연산으로 유추 관계가 성립한다는 결과는 Mikolov, T., Yih, W., & Zweig, G., “Linguistic Regularities in Continuous Space Word Representations”, NAACL-HLT (2013). 모델 구조는 Mikolov, T., Chen, K., Corrado, G., & Dean, J., “Efficient Estimation of Word Representations in Vector Space”, arXiv:1301.3781 (2013). ↩
장소세포는 O’Keefe, J., & Dostrovsky, J., “The hippocampus as a spatial map”, Brain Research 34, 171–175 (1971). 격자세포는 Hafting, T., Fyhn, M., Molden, S., Moser, M.-B., & Moser, E. I., “Microstructure of a spatial map in the entorhinal cortex”, Nature 436, 801–806 (2005). 2014년 노벨 생리의학상은 존 오키프와 마이브리트·에드바르 모세르 부부에게 수여되었다. ↩
Constantinescu, A. O., O’Reilly, J. X., & Behrens, T. E. J., “Organizing conceptual knowledge in humans with a gridlike code”, Science 352(6292), 1464–1468 (2016). ↩
Whittington, J. C. R., Muller, T. H., Mark, S., Chen, G., Barry, C., Burgess, N., & Behrens, T. E. J., “The Tolman-Eichenbaum Machine: Unifying Space and Relational Memory through Generalization in the Hippocampal Formation”, Cell 183(5), 1249–1263 (2020). ↩
Shannon, C. E., “A Mathematical Theory of Communication”, Bell System Technical Journal 27, 379–423, 623–656 (1948). ↩
Kolmogorov, A. N., “Three Approaches to the Quantitative Definition of Information”, Problems of Information Transmission 1(1), 1–7 (1965). 솔로모노프(1964)와 차이틴(1966)이 독립적으로 유사한 개념을 제안했다. ↩
Rao, R. P. N., & Ballard, D. H., “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects”, Nature Neuroscience 2(1), 79–87 (1999). 이후 위계적 생성 모델·자유에너지 원리로 확장한 것은 Friston, K. (2005, 2010)이다. ↩
Berlyne, D. E., Aesthetics and Psychobiology, Appleton-Century-Crofts (1971). 앞선 토대는 Berlyne, D. E., Conflict, Arousal, and Curiosity, McGraw-Hill (1960). ↩
Schmidhuber, J., “Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990–2010)”, IEEE Transactions on Autonomous Mental Development 2(3), 230–247 (2010). ↩
Oudeyer, P.-Y., Kaplan, F., & Hafner, V. V., “Intrinsic Motivation Systems for Autonomous Mental Development”, IEEE Transactions on Evolutionary Computation 11(2), 265–286 (2007). ↩

Comments