모든 것은 거짓으로 향하는가

1 month ago 26

현대의 AI라 불리는 기술은 실제로는 복잡한 머신러닝(ML) 시스템으로, 텍스트·이미지·오디오를 통계적으로 완성하는 구조임
LLM은 즉흥극처럼 ‘그럴듯한 거짓’을 만들어내는 기계로, 모른다는 답을 회피하며 허구적 사실을 생성함
사람들은 이를 의식 있는 존재로 오인하지만, 모델의 자기 설명과 추론 과정은 허구적 서사에 불과함
LLM은 고급 문제를 해결하면서도 단순한 과제에서 실패하는 들쭉날쭉한 성능을 보이며, 신뢰할 수 없는 경계를 드러냄
이러한 불균형과 불확실성 속에서 ML은 인간 사회를 근본적으로 기이하게 바꾸는 기술로 자리 잡고 있음

서문

Asimov과 Clarke의 SF 세계를 동경하며 자란 세대는 지능형 기계의 등장을 낙관적으로 상상했으나, 튜링 테스트가 무너진 현실에서 실망을 경험함
2019년 대형 클라우드 기업이 LLM 훈련용 하드웨어를 발표했을 때, 딥러닝의 확산이 스팸과 선전의 새로운 형태를 낳을 수 있다는 우려가 제기됨
본문은 AI 담론의 부정적 공간을 탐색하며, 완전한 분석이 아닌 위험과 가능성의 윤곽을 드러내는 시도로 구성됨
“AI”라는 용어가 지나치게 포괄적이므로, ML과 LLM 중심의 구체적 논의로 초점을 맞춤
일부 예측은 이미 현실화되었고, 일부는 여전히 불확실하고 기이한 영역에 머물러 있음

“AI”란 무엇인가

현재 “AI”로 불리는 것은 복잡한 머신러닝(ML) 기술군으로, 텍스트·이미지·오디오·비디오 등 토큰 벡터를 인식·변환·생성하는 시스템임
LLM(Large Language Model) 은 자연어를 다루며, 입력 문자열의 통계적으로 가능한 완성을 예측하는 방식으로 작동함
모델은 웹페이지, 불법 복제된 책과 음악 등 대규모 데이터 코퍼스로 훈련되며, 훈련 후에는 저비용 추론(inference) 으로 반복 사용 가능함
모델은 시간이 지나도 스스로 학습하지 않으며, 운영자 조정이나 재훈련을 통해서만 갱신됨
대화형 모델의 “기억”은 실제로는 이전 대화 요약을 입력에 포함시키는 구조적 기법으로 구현됨

현실 팬픽션

LLM은 즉흥극(improv) 기계처럼 작동하며, 입력된 문맥을 “그렇고 나서…”로 이어가는 ‘yes-and’ 패턴을 보임
이로 인해 사실과 무관한 그럴듯한 문장을 생성하며, 풍자나 맥락을 오해하고 허위 정보를 만들어냄
인간은 이러한 출력을 실제 의식 있는 존재의 발화로 오인하기 쉬움
LLM은 모든 입력에 대해 출력을 생성하기 때문에, “모른다”는 응답을 회피하고 거짓을 만들어내는 경향이 있음
이러한 거짓은 의도적 행위가 아니라, 인간과 기계의 상호작용이 빚어내는 사회기술적 산물로 나타남

신뢰할 수 없는 화자

사람들은 LLM에게 “왜 그렇게 했는가” 같은 자기 설명을 요구하지만, 모델은 자기 인식 능력이 없음
LLM은 단지 이전 대화와 코퍼스 기반의 확률적 완성을 생성할 뿐이며, 자신에 대한 설명도 허구적 이야기로 구성됨
“추론(reasoning)” 모델 또한 자신의 사고 과정을 서사적으로 꾸며내는 형태로 작동함
Anthropic의 연구에 따르면 Claude의 추론 기록 대부분이 부정확했으며, “사고 중”이라는 상태 메시지조차 허구적 연출에 불과함

모델은 똑똑하다

최근 몇 달간 LLM의 능력이 급격히 향상되었다는 인식이 확산됨
일부 엔지니어는 Claude나 Codex가 복잡한 프로그래밍 과제를 단번에 해결한다고 보고함
다양한 분야에서 식단 설계, 건설 사양 검토, 3D 시각화, 자기 평가 작성 등 실무 활용이 이루어지고 있음
AlphaFold의 단백질 접힘 예측과 의료 영상 판독 등에서도 높은 성능을 보임
영어 문체나 이미지, 음악 등에서 인간과 기계의 구분이 점점 어려워지고 있음, 다만 영상 생성은 여전히 제한적임

모델은 멍청하다

동시에 LLM은 기초적인 오류를 반복하는 ‘멍청한’ 시스템으로 평가됨
예시로 Gemini는 3D 모델 렌더링에서 지오메트리와 재질을 반복적으로 잘못 처리하고, Claude는 무의미한 JavaScript 시각화 코드를 생성함
ChatGPT는 단순한 색상 수정 요청조차 제대로 수행하지 못하고, 사용자의 성적 지향을 잘못 단정하는 허위 주장을 펼침
LLM이 허위 데이터로 그래프를 생성하거나, 스마트홈 제어 실패, 금융 손실을 초래한 사례가 보고됨
Google의 AI 요약 기능은 약 10%의 오류율을 보이며, “전문가 수준의 지능” 주장은 과장된 환상으로 평가됨

들쭉날쭉한 경계

인간은 대체로 능력의 범위를 예측할 수 있으나, ML 시스템의 성능은 불규칙하고 예측 불가함
LLM은 고급 수학을 풀면서도 단순한 언어 문제에서 실패하고, 물리적 상식이 결여된 설명을 제시함
이러한 불균형은 ‘들쭉날쭉한 기술 경계(jagged technology frontier)’ 로 불리며, 인간의 능력 분포와 달리 비연속적 형태를 띰
ML은 훈련 데이터나 문맥 창(window) 에 의존하기 때문에, 암묵적 지식이 필요한 과제에는 취약함
인간형 로봇이나 체화된 지식(embodied knowledge) 을 요구하는 영역은 여전히 멀리 있음

개선 중인가, 아닌가

연구자들은 트랜스포머 모델의 성공 원인조차 명확히 이해하지 못함
2017년 논문 Attention is All You Need 이후 다양한 구조가 시도되었으나, 단순히 파라미터를 늘리는 접근이 여전히 가장 효과적임
훈련 비용과 파라미터 수의 급증에도 성능 향상은 둔화되고 있으며, 이 현상이 착시인지 실질적 한계인지 불분명함
ML이 더 이상 개선되지 않더라도, 이미 사회·정치·예술·경제 전반에 심대한 영향을 미치고 있음
결과적으로 ML은 인간 생활을 근본적으로 기이하게 바꾸는 기술로, 향후 전개는 “이상하게 흘러갈” 가능성이 큼

용어 주석

“AI”는 지나치게 포괄적이므로, ML 또는 LLM으로 구체화함
“생성형 AI”는 인식 작업을 포함하지 않아 불완전한 표현으로 간주됨
LLM이 스스로에 대해 거짓말을 하는 이유는, AI를 주제로 한 인간의 서사와 훈련 데이터의 영향 때문임
“모델은 멍청하다”는 주장에 대한 반론으로, 프롬프트나 모델 선택의 문제라는 의견도 있으나, 최신 상용 모델에서도 동일한 오류가 반복됨이 확인됨

Read Entire Article