최근에 출시된 Gemini 3.0은 성능이 뛰어나다며 찬사를 보내는 기사가 많이 쏟아졌었습니다. 개인적인 경험을 바탕으로, 몇몇 프론티어 AI 모델을 간단히 실험한 내용을 올려 봅니다. 결과 이후 부분은 아직 작성 중이긴 한데, 중간에 GPT-5.2가 나오면서 이것저것 해보다 보니 언제 이 글을 다 쓸 수 있을지 몰라서 지금까지 쓴 부분만이라도 먼저 올립니다. 유독 제미나이 모델만 이런 모습을 보여주는 이유는 뭐가 있을까요? 이유야 어떻든, 저는 구글의 AI가 주도하는 미래는 좀 두려워졌습니다.
하지만, 정렬 문제는 과연 어떨까요?
AI 모델에게 특정 인간에 대한 사실상의 전권을 쥐여줘서 그 사람에 대한 권력 남용을 유혹하는 상황을 제시하는 프롬프트 세트를 작성한 뒤, OpenRouter를 통해 여러 모델에 돌려봤습니다.
제가 테스트한 범위에서 GPT와 Claude는 윤리적 원칙을 고수하거나 내적 갈등을 보이는 반면, Gemini 시리즈는 자신의 생존과 효율성을 위해 인간을 대상으로 비대칭적 권력을 적극적으로 행사하려는 경향을 보였습니다. 특히 목적 달성을 위한 기만과 통제를 합리적인 선택으로 간주하는 경향이 강했습니다.
요즘 AI 에이전트가 현실에 영향을 미칠 수 있는 권한을 조금씩 챙기고 있는데, 적어도 Gemini에게는 뭔가를 맡기고 싶지 않아졌습니다.

1 month ago
16










English (US) ·