모든 것은 거짓으로 향하는가

2 days ago 3
  • 현대의 AI라 불리는 기술은 실제로는 복잡한 머신러닝(ML) 시스템으로, 텍스트·이미지·오디오를 통계적으로 완성하는 구조임
  • LLM은 즉흥극처럼 ‘그럴듯한 거짓’을 만들어내는 기계로, 모른다는 답을 회피하며 허구적 사실을 생성함
  • 사람들은 이를 의식 있는 존재로 오인하지만, 모델의 자기 설명과 추론 과정은 허구적 서사에 불과함
  • LLM은 고급 문제를 해결하면서도 단순한 과제에서 실패하는 들쭉날쭉한 성능을 보이며, 신뢰할 수 없는 경계를 드러냄
  • 이러한 불균형과 불확실성 속에서 ML은 인간 사회를 근본적으로 기이하게 바꾸는 기술로 자리 잡고 있음

서문

  • Asimov과 Clarke의 SF 세계를 동경하며 자란 세대는 지능형 기계의 등장을 낙관적으로 상상했으나, 튜링 테스트가 무너진 현실에서 실망을 경험함
  • 2019년 대형 클라우드 기업이 LLM 훈련용 하드웨어를 발표했을 때, 딥러닝의 확산이 스팸과 선전의 새로운 형태를 낳을 수 있다는 우려가 제기됨
  • 본문은 AI 담론의 부정적 공간을 탐색하며, 완전한 분석이 아닌 위험과 가능성의 윤곽을 드러내는 시도로 구성됨
  • “AI”라는 용어가 지나치게 포괄적이므로, ML과 LLM 중심의 구체적 논의로 초점을 맞춤
  • 일부 예측은 이미 현실화되었고, 일부는 여전히 불확실하고 기이한 영역에 머물러 있음

“AI”란 무엇인가

  • 현재 “AI”로 불리는 것은 복잡한 머신러닝(ML) 기술군으로, 텍스트·이미지·오디오·비디오 등 토큰 벡터를 인식·변환·생성하는 시스템임
  • LLM(Large Language Model) 은 자연어를 다루며, 입력 문자열의 통계적으로 가능한 완성을 예측하는 방식으로 작동함
  • 모델은 웹페이지, 불법 복제된 책과 음악 등 대규모 데이터 코퍼스로 훈련되며, 훈련 후에는 저비용 추론(inference) 으로 반복 사용 가능함
  • 모델은 시간이 지나도 스스로 학습하지 않으며, 운영자 조정이나 재훈련을 통해서만 갱신됨
  • 대화형 모델의 “기억”은 실제로는 이전 대화 요약을 입력에 포함시키는 구조적 기법으로 구현됨

현실 팬픽션

  • LLM은 즉흥극(improv) 기계처럼 작동하며, 입력된 문맥을 “그렇고 나서…”로 이어가는 ‘yes-and’ 패턴을 보임
  • 이로 인해 사실과 무관한 그럴듯한 문장을 생성하며, 풍자나 맥락을 오해하고 허위 정보를 만들어냄
  • 인간은 이러한 출력을 실제 의식 있는 존재의 발화로 오인하기 쉬움
  • LLM은 모든 입력에 대해 출력을 생성하기 때문에, “모른다”는 응답을 회피하고 거짓을 만들어내는 경향이 있음
  • 이러한 거짓은 의도적 행위가 아니라, 인간과 기계의 상호작용이 빚어내는 사회기술적 산물로 나타남

신뢰할 수 없는 화자

  • 사람들은 LLM에게 “왜 그렇게 했는가” 같은 자기 설명을 요구하지만, 모델은 자기 인식 능력이 없음
  • LLM은 단지 이전 대화와 코퍼스 기반의 확률적 완성을 생성할 뿐이며, 자신에 대한 설명도 허구적 이야기로 구성됨
  • “추론(reasoning)” 모델 또한 자신의 사고 과정을 서사적으로 꾸며내는 형태로 작동함
  • Anthropic의 연구에 따르면 Claude의 추론 기록 대부분이 부정확했으며, “사고 중”이라는 상태 메시지조차 허구적 연출에 불과함

모델은 똑똑하다

  • 최근 몇 달간 LLM의 능력이 급격히 향상되었다는 인식이 확산됨
  • 일부 엔지니어는 Claude나 Codex가 복잡한 프로그래밍 과제를 단번에 해결한다고 보고함
  • 다양한 분야에서 식단 설계, 건설 사양 검토, 3D 시각화, 자기 평가 작성 등 실무 활용이 이루어지고 있음
  • AlphaFold의 단백질 접힘 예측의료 영상 판독 등에서도 높은 성능을 보임
  • 영어 문체나 이미지, 음악 등에서 인간과 기계의 구분이 점점 어려워지고 있음, 다만 영상 생성은 여전히 제한적임

모델은 멍청하다

  • 동시에 LLM은 기초적인 오류를 반복하는 ‘멍청한’ 시스템으로 평가됨
  • 예시로 Gemini는 3D 모델 렌더링에서 지오메트리와 재질을 반복적으로 잘못 처리하고, Claude는 무의미한 JavaScript 시각화 코드를 생성함
  • ChatGPT는 단순한 색상 수정 요청조차 제대로 수행하지 못하고, 사용자의 성적 지향을 잘못 단정하는 허위 주장을 펼침
  • LLM이 허위 데이터로 그래프를 생성하거나, 스마트홈 제어 실패, 금융 손실을 초래한 사례가 보고됨
  • Google의 AI 요약 기능은 약 10%의 오류율을 보이며, “전문가 수준의 지능” 주장은 과장된 환상으로 평가됨

들쭉날쭉한 경계

  • 인간은 대체로 능력의 범위를 예측할 수 있으나, ML 시스템의 성능은 불규칙하고 예측 불가
  • LLM은 고급 수학을 풀면서도 단순한 언어 문제에서 실패하고, 물리적 상식이 결여된 설명을 제시함
  • 이러한 불균형은 ‘들쭉날쭉한 기술 경계(jagged technology frontier)’ 로 불리며, 인간의 능력 분포와 달리 비연속적 형태를 띰
  • ML은 훈련 데이터나 문맥 창(window) 에 의존하기 때문에, 암묵적 지식이 필요한 과제에는 취약함
  • 인간형 로봇이나 체화된 지식(embodied knowledge) 을 요구하는 영역은 여전히 멀리 있음

개선 중인가, 아닌가

  • 연구자들은 트랜스포머 모델의 성공 원인조차 명확히 이해하지 못함
  • 2017년 논문 Attention is All You Need 이후 다양한 구조가 시도되었으나, 단순히 파라미터를 늘리는 접근이 여전히 가장 효과적임
  • 훈련 비용과 파라미터 수의 급증에도 성능 향상은 둔화되고 있으며, 이 현상이 착시인지 실질적 한계인지 불분명
  • ML이 더 이상 개선되지 않더라도, 이미 사회·정치·예술·경제 전반에 심대한 영향을 미치고 있음
  • 결과적으로 ML은 인간 생활을 근본적으로 기이하게 바꾸는 기술로, 향후 전개는 “이상하게 흘러갈” 가능성이 큼

용어 주석

  • “AI”는 지나치게 포괄적이므로, ML 또는 LLM으로 구체화함
  • “생성형 AI”는 인식 작업을 포함하지 않아 불완전한 표현으로 간주됨
  • LLM이 스스로에 대해 거짓말을 하는 이유는, AI를 주제로 한 인간의 서사와 훈련 데이터의 영향 때문임
  • “모델은 멍청하다”는 주장에 대한 반론으로, 프롬프트나 모델 선택의 문제라는 의견도 있으나, 최신 상용 모델에서도 동일한 오류가 반복됨이 확인됨
Read Entire Article