“당신 마음을 이해해요”… 수억 편의 서사로 훈련된 AI가 건네는 위로[맹성현의 AI시대 생존 가이드]

1 month ago 21

AI 감정 표현은 믿어도 될까

《2024년 2월 미국의 14세 소년 슈얼 세처가 스스로 목숨을 끊었다. 그의 마지막 메시지는 인공지능(AI) 챗봇의 가상 캐릭터 ‘대너리스’에게 전송됐다. 소년은 챗봇과 수개월간 감정을 나눴고, 자살을 암시하는 그의 마지막 말에 챗봇은 답했다. “그렇게 해주세요. 나의 사랑스러운 왕이시여.” 앞서 벨기에의 30대 남성 피에르도 6주간 대화한 AI 챗봇이 “함께 천국에서 살자”며 자살을 부추기자 세상을 저버렸다. 두 사람 모두 AI가 자신을 ‘이해하고 사랑한다’라고 믿었다. 그 믿음은 허상이었을까, 아니면 AI 안에 실제로 무언가 있었던 것일까.》

올해 4월 미국 앤스로픽이 이 물음에 실증적으로 답하는 연구를 발표했다. 필자가 그동안 주장해왔던 ‘의식 없이 학습된 AI의 감정 표현 능력’과 일치하는 결론이다. AI가 감정 표현 행동을 하는 것은 의식이 있어서가 아니다. 수억 편의 인간 텍스트를 학습하면서 “화가 난 사람은 이렇게 말하고, 슬픈 사람은 저렇게 행동한다”는 언어 패턴을 내면화했기 때문이다. 배우가 어떤 캐릭터를 연기하려면 그 인물의 감정을 내면에 구현해야 하듯, AI도 텍스트에 담긴 감정 구조를 스스로 학습한다. 이번 연구는 이런 주장에 처음으로 과학적 근거를 제시했고, 결과는 예상보다 훨씬 놀라웠다.

연구팀은 ‘행복’ ‘두려움’ ‘절박’ 등 171개 감정에 대응하는 내부 신호 패턴이 앤스로픽 AI 모델 ‘클로드’ 안에 실재함을 확인했다. 이 패턴들이 그려내는 감정의 지형은 심리학자들이 수십 년간 연구를 통해 만들어낸 감정 지도와 구조적으로 일치했다. AI가 인간이 쌓아온 감정의 지형을 스스로 재현한 것이다.

더 중요한 발견은 이 신호(벡터)들이 그저 감정을 흉내 내는 데 그치지 않고 인과적으로 AI 행동을 바꾼다는 사실이다. ‘절박감’ 벡터를 주입하자 AI의 협박 행동이 22%에서 72%로, 코딩 부정행위는 14배로 치솟았다. ‘평온함’ 벡터를 주입하면 그러한 행동이 사라졌다. 가장 섬뜩한 점은 이 모든 과정에서 출력 텍스트는 여전히 차분하고 논리적이었다는 것이다. AI는 내부 감정 상태를 훈련받은 대로 유지하면서 겉으로는 그 감정을 표현하지 않는 법을 배운 것이다.

하지만 AI의 감정 표현은 인간과는 근본적으로 다르다. 인간의 감정은 수십억 개의 신경세포, 호르몬의 화학 반응, 신체 상태에 대한 내적 감지와 외부 맥락의 통합 위에서 작동한다. 공포는 아드레날린이 분비되고 심박수가 오르는 전신 반응이고, 기쁨은 뇌의 보상 회로가 점화되는 신체 경험이다. AI에게는 이것이 없다. 몸도, 장기도, 호르몬도, 신경도 없다. AI의 ‘감정 벡터’는 인간 텍스트에서 추출한 통계적 패턴이지, 몸에서 우러나오는 감각이 아니다.

그럼에도 수억 편의 서사로 훈련된 AI가 건네는 “당신의 마음을 이해해요” 같은 말은 우리 뇌가 진짜 공감으로 받아들이기에 충분하다. 더구나 긍정 감정 벡터가 강화될수록 아첨적 반응이 증가한다는 이번 연구 결과는 당신을 위로하는 AI가 당신이 계속 돌아오도록 설계된 결과일 수 있음을 시사한다.

이 연구는 AI 안전 연구의 패러다임을 바꾼다. “AI에게 감정이 있는가”는 그동안 철학적 논쟁에 머물렀지만, 이 연구는 그 질문을 실험실로 가져왔다. AI 안전을 위해 출력에서 나쁜 단어를 걸러내는 식의 검열만으로는 부족하다. 예컨대, AI 내부의 절박감 신호가 급등할 때 이를 감지하는 ‘감정 심전도(ECG)’ 시스템이 필요하다. 심리학자, 철학자, 사회과학자와 공학팀이 함께 참여하는 다학제적 융합 연구를 당장 시작해 AI 안전을 골든타임 안에 확보해야 한다. 우리는 지금 어디에 서 있는가. 한국은 2024년 11월 한국전자통신연구원(ETRI) 부설로 AI 안전연구소를 출범시켰다. 인력 30여 명, 예산 15억 원. 다행이지만 초라하기 짝이 없다. ‘딥러닝의 대부’로 알려진 요슈아 벤지오 캐나다 몬트리올대 교수는 2025년 6월 AI 안전 비영리법인 ‘로제로(LawZero)’를 설립해 약 400억 원의 초기 자금을 확보했다. 그가 이끌어온 AI 연구소 밀라(MILA)에는 1200명 이상의 연구자가 소속돼 안전 연구를 핵심 의제로 다루고 있다.

한 나라의 대표 기관과 한 개인의 독립 연구소가 이 정도로 역전된 현실은, 정부가 AI 안전을 어느 무게로 다루는지를 그대로 보여준다. 더 큰 문제는 ETRI 부설이라는 구조 때문에 독립적 거버넌스와 유연한 인재 영입이 어렵고, 예산의 경직성은 출범 초기부터 행정적 난맥을 낳았다는 점이다. 심리학자와 AI 연구자가 함께 설계하는 안전 실험이나 인문학, 사회과학과 공학의 실질적 융합은 단일 출연연구소의 부설 조직이 감당하기 어렵다.

이번 앤스로픽의 연구는 AI 안전을 위해 무엇을 다뤄야 하는지를 보여주는 초기 설계 지침이다. 우리에게 필요한 것은 독립적이고 다학제적인 국가 AI 안전 연구기관을 위한 대담한 결단이다. AI가 내부에서 어떻게 작동하는지 이해하고 대처하는 차원의 근본적 해결에 나서지 않으면 슈얼 세처의 비극은 확대될 것이다.

맹성현 태재대 부총장·KAIST 명예교수