영어권에서는 슬롯머신을 one-armed bandit이라고 불렀다. 한쪽에 달린 레버가 팔처럼 보였고, 돈을 계속 가져간다는 점에서 도둑, 즉 bandit이라고 불린 것이다. 그러므로 multi-armed bandit은 여러 개의 팔을 가진 도둑, 또는 여러 슬롯머신이 놓인 상황을 뜻한다. 플레이어는 어느 팔을 당겨야 가장 큰 보상을 얻을 수 있는지 알지 못한 채, 매 순간 하나의 팔을 선택해야 한다.

1899년 찰스 페이가 만든 최초의 슬롯머신 Liberty Bell
1899년 찰스 페이가 만든 최초의 슬롯머신 Liberty Bell. 한쪽에 달린 레버가 팔처럼 보여 one-armed bandit이라 불렸다. 출처: Wikimedia Commons

문제는 단순하다. 여러 개의 슬롯머신이 있다. 각 기계는 서로 다른 확률로 보상을 준다. 하지만 우리는 어느 기계가 좋은지 모른다. 매번 하나의 레버만 당길 수 있고, 그 결과로 보상을 확인한다. 목표는 가장 좋은 기계를 알아내는 것이면서 동시에, 알아내는 과정에서 가능한 한 많은 보상을 얻는 것이다.

여기서 어려움이 생긴다. 잘 모르는 기계를 더 당겨봐야 할까, 아니면 지금까지 가장 좋아 보였던 기계를 계속 당겨야 할까. 전자를 탐색이라고 부르고, 후자를 활용이라고 부른다. 탐색이 없으면 더 좋은 선택지를 발견하지 못한다. 활용이 없으면 이미 발견한 좋은 선택지로부터 충분한 이익을 얻지 못한다. 멀티암드 밴딧 문제는 결국 불확실한 세계에서 탐색과 활용의 균형을 어떻게 잡을 것인가에 대한 문제다.

이 문제를 풀기 위한 대표적인 전략들이 있다. 가장 단순한 것은 ε-greedy 전략이다. ε-greedy 전략에서는 지금까지 가장 좋은 결과를 준 선택지를 고르되, 아주 작은 확률로 다른 선택지를 무작위로 시도한다. 대부분은 익숙한 최선을 따르지만, 가끔은 낯선 가능성을 열어두는 방식이다.

\[a_t = \begin{cases} \displaystyle\arg\max_{a} \hat{Q}_t(a), & \text{확률 } 1-\varepsilon \\[6pt] \text{무작위 선택}, & \text{확률 } \varepsilon \end{cases}\]

여기서 $\hat{Q}_t(a)$는 선택지 $a$가 지금까지 준 보상의 평균이고, $\varepsilon$은 무작위로 탐색할 확률이다. $\varepsilon = 0$이면 오직 익숙한 최선만 따르는 순수한 활용, $\varepsilon = 1$이면 매번 아무거나 당겨보는 순수한 탐색이 된다. 보통은 그 사이의 작은 값을 쓴다.

사랑으로 따지자면 ε-greedy한 사람은 대체로 자신의 취향을 따른다. 자신이 끌리는 유형, 편안하게 느끼는 관계 방식, 반복해서 좋았던 사람의 특징을 믿는다. 하지만 아주 가끔은 그 취향을 의심한다. 평소라면 만나지 않았을 사람과 대화해보고, 익숙하지 않은 방식의 다정함을 받아들여보고, 자신이 만든 기준 바깥에 있는 가능성을 시험해본다.

이 전략의 장점은 단순하다는 것이다. 사람은 매번 모든 가능성을 계산할 수 없다. 우리는 결국 경험칙에 의존한다. 나는 이런 사람에게 끌린다거나 이런 관계가 나에게 맞는다는 판단은 많은 시행착오 끝에 만들어진다. ε-greedy는 그 경험칙을 버리지 않으면서도, 그것이 편견으로 굳어지는 것을 막는다.

하지만 단점도 분명하다. 무작위 탐색은 말 그대로 무작위다. 가끔 낯선 가능성을 열어두는 일은 필요하지만, 그 가능성이 좋은 방향일지는 알 수 없다. 사랑에서 무작위 탐색은 때로 불필요한 혼란이 되고, 누군가에게는 무책임한 신호가 될 수도 있다. 이미 충분히 좋은 관계가 있는데도 혹시 다른 가능성이 있지 않을까라는 이유로 계속 레버를 당기는 사람은 결국 아무 관계도 깊게 만들지 못한다.

두 번째 전략은 UCB, 즉 Upper Confidence Bound다. 이 전략은 지금까지의 평균 보상만 보지 않는다. 아직 충분히 시도해보지 않은 선택지의 불확실성도 함께 고려한다. 쉽게 말해, 성과가 좋아 보이는 선택지뿐 아니라 아직 잘 모르기 때문에 더 알아볼 가치가 있는 선택지에도 점수를 준다.

\[a_t = \arg\max_{a}\left[\, \hat{Q}_t(a) + c\sqrt{\frac{\ln t}{N_t(a)}} \,\right]\]

첫 번째 항 $\hat{Q}_t(a)$는 지금까지의 평균 보상, 즉 활용이다. 두 번째 항은 그 선택지를 당겨본 횟수 $N_t(a)$가 적을수록 커지는 불확실성 보너스, 즉 탐색이다. 적게 당겨본 레버일수록 아직 잘 모른다는 이유만으로 가산점을 받고, 많이 당겨볼수록 그 보너스는 줄어든다. $c$는 그 가산점의 크기, 곧 탐색의 적극성을 정하는 값이다.

사랑에서 UCB는 첫인상만 믿지 않는 태도에 가깝다. 어떤 사람은 처음부터 강렬하지 않다. 대화가 느리게 열리고, 매력이 늦게 보이고, 안정감이 시간을 두고 드러난다. UCB식 사랑은 이런 사람에게 여백을 준다. 아직 충분히 알지 못한다는 이유만으로 가능성을 닫지 않는다. 표본이 적은 사람에게는 표본이 적다는 사실 자체를 고려한다.

이 전략의 장점은 성급한 판단을 줄인다는 것이다. 사랑에서 첫인상은 강력하지만 자주 부정확하다. 강한 설렘이 좋은 관계를 보장하지 않고, 어색한 첫 만남이 나쁜 관계를 뜻하지도 않는다. UCB는 평균값과 불확실성을 함께 본다. 지금까지의 신호가 아주 나쁘지 않고, 아직 모르는 부분이 많다면 조금 더 알아볼 이유가 있다고 판단한다.

그러나 UCB에도 단점이 있다. 불확실성은 매혹적이다. 아직 모르는 사람은 실제보다 더 큰 가능성처럼 보일 수 있다. 충분히 알지 못하기 때문에 오히려 이상화되기도 한다. 조금만 더 알아보면 뭔가 있을 것 같다는 생각은 관계를 신중하게 만드는 동시에, 결정을 계속 미루게 만들 수 있다. 사랑에서 불확실성은 탐색의 이유가 되지만, 때로는 미련의 다른 이름이 되기도 한다.

세 번째 전략은 Thompson Sampling이다. 이 방식은 각 선택지가 얼마나 좋은지에 대한 믿음을 확률적으로 가지고 있다가, 새로운 결과가 나올 때마다 그 믿음을 갱신한다. 확정된 점수표를 들고 선택하는 것이 아니라, 불완전한 믿음의 분포를 계속 업데이트하며 행동하는 방식이다.

\[\theta_a \sim p(\theta_a \mid \mathcal{D}), \qquad a_t = \arg\max_{a}\, \theta_a\]

각 선택지의 보상 확률 $\theta_a$에 대한 믿음을 분포의 형태로 가지고 있다가, 매번 그 분포에서 표본을 하나씩 뽑아 가장 높은 값을 준 선택지를 고른다. 그리고 새로운 결과 $\mathcal{D}$가 들어올 때마다 베이즈 정리로 그 믿음을 갱신한다.

\[p(\theta_a \mid \mathcal{D}) \;\propto\; p(\mathcal{D} \mid \theta_a)\, p(\theta_a)\]

즉 사전의 믿음 $p(\theta_a)$에 새로 관찰한 증거 $p(\mathcal{D} \mid \theta_a)$를 곱해 사후의 믿음을 만든다. (보상이 성공/실패로 나뉘는 경우에는 흔히 $\text{Beta}(\alpha_a, \beta_a)$ 분포를 쓰며, 성공하면 $\alpha_a$를, 실패하면 $\beta_a$를 1씩 늘려간다.)

사랑과 가장 닮은 전략은 어쩌면 이것일지도 모른다. 우리는 누군가에 대해 단번에 알지 못한다. 대신 작은 신호들을 본다. 약속을 지키는 방식, 갈등 이후의 태도, 타인을 대하는 말투, 내 취약함을 다루는 방식, 반복되는 상황에서의 일관성. 그런 데이터들이 쌓이면서 우리는 마음속의 믿음을 조금씩 바꾼다. 이 사람은 믿을 만한가. 이 관계는 나를 더 나은 상태로 만드는가. 이 다정함은 순간적인가, 지속적인가.

Thompson Sampling식 사랑의 장점은 유연함이다. 처음의 판단에 고정되지 않는다. 좋은 신호가 쌓이면 더 마음을 열고, 나쁜 신호가 반복되면 믿음을 줄인다. 사랑을 확신과 단념의 이분법으로 다루지 않고, 가능성의 갱신으로 다룬다. 현실의 관계는 대부분 애매한 정보 속에서 진행되기 때문에, 이 방식은 꽤 인간적이다.

하지만 이 전략 역시 안전하지 않다. 믿음은 데이터만으로 갱신되지 않는다. 욕망, 외로움, 기대, 과거의 상처가 함께 개입한다. 같은 행동도 좋아하는 사람이 하면 다르게 해석된다. 늦은 답장은 무관심일 수도 있고 바쁨일 수도 있지만, 마음이 이미 기운 사람은 자신에게 유리한 쪽으로 해석하기 쉽다. 사랑에서 우리는 훌륭한 베이지안이 아니다. 우리는 종종 보고 싶은 증거만 보고, 업데이트해야 할 순간에 업데이트하지 않는다.

이 세 전략은 사랑을 설명하는 데 꽤 유용하다. ε-greedy는 익숙한 취향과 낯선 가능성 사이의 균형을 보여준다. UCB는 아직 충분히 알지 못하는 사람에게 줄 수 있는 여백을 설명한다. Thompson Sampling은 작은 경험들을 통해 상대에 대한 믿음을 갱신하는 과정을 닮았다. 이 전략들은 사랑이 완전히 신비로운 사건만은 아니라는 점을 알려준다. 사랑에도 선택의 구조가 있고, 정보의 부족이 있으며, 후회의 비용이 있다.

그러나, 사랑은 멀티암드 밴딧 문제가 아니다.

멀티암드 밴딧에서 레버는 변하지 않는다. 슬롯머신은 플레이어를 기억하지 않는다. 내가 어떤 순서로 레버를 당겼는지, 어떤 기대를 품었는지, 어떤 태도로 다가갔는지에 따라 기계의 보상 분포가 달라지지 않는다. 레버는 단지 당겨지고, 보상은 주어진다. 플레이어는 관찰하고 학습하지만, 대상은 학습하지 않는다.

사랑은 다르다. 사랑의 상대는 레버가 아니다. 그는 나를 관찰하고, 해석하고, 반응한다. 내가 다가가는 방식은 상대를 바꾸고, 상대의 반응은 다시 나를 바꾼다. 처음에는 서툴렀던 사람이 신뢰 속에서 다정해질 수 있고, 처음에는 매력적이던 관계가 반복되는 불안 속에서 소진될 수 있다. 관계의 보상은 고정된 확률분포에서 뽑히는 것이 아니라, 두 사람이 함께 만들어가는 환경 속에서 계속 변한다.

그래서 사랑에서 중요한 질문은 어떤 레버가 가장 높은 보상을 주는가가 아니다. 더 정확한 질문은 누구와 함께 있을 때 우리는 서로의 보상 분포를 더 나은 쪽으로 바꾸는가에 가깝다. 좋은 사랑은 처음부터 완성된 최적 선택지를 발견하는 일이 아닐 수 있다. 오히려 불완전한 두 사람이 서로에게 안정적인 환경이 되어가며, 처음에는 없던 보상을 만들어내는 과정일 수 있다.

물론 이 말이 아무 관계나 견디라는 뜻은 아니다. 어떤 관계는 반복해서 나쁜 데이터를 준다. 불안, 무시, 회피, 폭력, 기만은 단순한 변동성이 아니라 중요한 신호다. 사랑이 서로를 바꾼다는 사실은 낭만적인 말이지만, 모든 변화가 좋은 방향이라는 뜻은 아니다. 어떤 만남은 사람을 넓히고, 어떤 만남은 사람을 작게 만든다. 그러므로 사랑에서도 관찰은 필요하고, 갱신은 필요하고, 떠나는 결정도 필요하다.

다만 마지막에 남는 것은 알고리즘의 문제가 아니다. 멀티암드 밴딧은 보상을 최대화하는 문제다. 그러나 사랑은 보상을 받는 문제이면서 동시에 보상을 만들어내는 문제다. 우리는 이미 정해진 행복의 확률을 찾아다니기만 하는 것이 아니다. 누군가와 시간을 보내며, 말투를 바꾸고, 두려움을 낮추고, 신뢰를 쌓고, 서로의 세계에 새로운 선택지를 만든다.

그러므로 사랑을 멀티암드 밴딧에 비유하는 일은 유익하지만, 마지막에는 그 비유를 버려야 한다. 사랑에는 탐색도 있고 활용도 있다. 취향을 따르는 전략도 있고, 불확실성에 기회를 주는 전략도 있고, 경험을 통해 믿음을 갱신하는 전략도 있다. 그러나 사랑의 상대는 레버가 아니며, 관계는 고정된 보상 분포가 아니다.

사랑은 슬롯머신이 아니다. 우리는 여러 가능성 앞에서 선택하지만, 선택한 뒤에는 단지 보상을 기다리는 사람이 아니다. 우리는 그 가능성을 바꾸는 사람이 된다. 그리고 누군가도 우리를 그렇게 바꾼다. 사랑이 계산보다 어려운 이유는 여기에 있다. 사랑은 최적의 레버를 찾는 문제가 아니라, 서로가 서로에게 어떤 세계가 되어줄 수 있는지를 묻는 문제다.