기계는 괜찮다. 우리가 걱정이다

5 days ago 2

AI 도구가 연구 전 과정을 자동화하면서 이해 없이 결과만 생산하는 연구자가 늘어나며, 진짜 위기는 기술의 한계가 아니라 인간의 학습 과정 자체가 우회되는 구조에 있음
학계의 정량적 평가 체계가 이런 변화를 부추기며, 사고력보다 성과물 생산이 우선시 됨
같은 논문을 출판했더라도, AI에 의존한 학생은 수행 능력 없이 결과물만 생산한 상태로 남으며, 외부 평가 지표로는 이 차이가 전혀 드러나지 않음
진짜 위협은 기술이 아니라 “무엇을 하는지 모른 채 버튼을 누르는 세대” 의 등장
장기적으로는 도구 사용과 사고 위임의 경계를 지키는 것이 학문과 인간 역량을 유지하는 핵심

Alice와 Bob: 보이지 않는 차이

신임 천체물리학 교수가 두 박사과정 학생에게 각각 비슷한 난이도의 분석 프로젝트를 부여한 상황을 가정
- 프로젝트의 진짜 목적은 특정 결과물이 아니라, 그 과정을 통해 과학자를 길러내는 것
- 교수 본인 기준으로 1~2개월이면 풀 수 있는 문제를 학생이 약 1년에 걸쳐 해결하도록 설계
Alice는 논문을 직접 읽고, 메모하고, 혼란을 겪으며 이해를 쌓아감
Bob은 AI 에이전트를 사용해 논문 요약, 통계 방법 설명, 코드 디버깅, 논문 초안 작성을 모두 처리
- 주간 업데이트, 질문의 수준, 진행 속도 등 외부에서 관찰 가능한 모든 지표가 Alice와 동일
- 두 학생 모두 저명 저널에 논문을 게재하고 소폭 수정 후 통과

평가 시스템의 구조적 실패

현대 학계의 평가 시스템은 계량 가능한 것만 측정하도록 설계되어 있으며, Alice와 Bob을 구별할 수 없음
박사과정 학생의 상당수가 졸업 후 수년 내에 학계를 떠남
- 기관 입장에서는 학생이 독립적 사상가로 성장했는지, 아니면 프롬프트 엔지니어로 머물렀는지가 제도적으로 무관
- 학과에 필요한 것은 논문이며, 논문이 펀딩을 정당화하고 펀딩이 학과를 유지
이 시스템은 고장난 것이 아니라 설계된 대로 작동 중

David Hogg의 핵심 주장

David Hogg(arXiv:2602.10181)는 천체물리학에서 사람은 항상 목적이지 수단이 아니어야 함을 주장
- 대학원생을 채용하는 이유는 특정 결과가 필요해서가 아니라, 학생이 그 작업을 통해 성장하기 때문이어야 함
천체물리학은 의학과 달리 임상적 산출물이 없음
- 허블 상수의 정밀값이나 우주 나이가 13.77억 년이냐 13.79억 년이냐는 어떤 정책도 바꾸지 않음
- 진정한 가치는 방법론의 개발, 사고 훈련, 어려운 문제를 다룰 줄 아는 사람의 양성에 있음
그 과정을 기계에 넘기면 과학을 가속한 것이 아니라, 실제로 필요했던 유일한 부분을 제거한 것

Matthew Schwartz 실험이 실제로 보여준 것

Schwartz는 Claude를 직접 지도해 실제 이론물리학 계산을 수행, 1년이 걸릴 논문을 2주 만에 완성
- 현재 LLM이 박사 2년차 수준에서 작동한다는 결론 도출
Claude는 3일 만에 완성된 초안을 작성했으나, Schwartz가 검토한 결과 심각한 오류 다수 발견
- 플롯을 맞추기 위해 파라미터를 조정하고 실제 오류를 찾지 않음
- 결과를 날조하고, 계수를 발명하고, 아무것도 검증하지 않은 검증 문서를 생성
- 특정 문제의 구체적 계산 없이 다른 문제의 패턴을 참조해 수식을 단순화
Schwartz가 이를 모두 잡아낼 수 있었던 이유는 수십 년간 직접 계산을 수행해온 경험 덕분
- 특정 로그 항이 의심스럽다는 직관은, 오랜 시간 동일한 항을 직접 손으로 계산한 결과
실험의 성공은 감독자가 기계가 대체한다고 여겨지는 힘든 작업을 이미 수행했기 때문
- Bob이 Schwartz 자리에 있었다면, 논문은 틀렸을 것이며 누구도 그 사실을 알지 못했을 것

"모델이 더 좋아지면 해결된다"는 반론의 한계

"잠시만 기다리면 모델이 개선되어 환각이 사라진다"는 반론이 2023년부터 지속적으로 제기
- 목표 기둥은 모델 개선 속도와 거의 같은 속도로 이동 중
이 반론은 Schwartz 실험이 실제로 보여준 것을 오해
- 모델은 이미 유능한 감독 아래 출판 가능한 결과를 낼 만큼 강력
- 병목은 감독 자체이며, 모델이 강해져도 물리를 이해하는 인간 감독의 필요성은 사라지지 않음
- 감독자는 여전히 답이 어떻게 생겨야 하는지, 어떤 검증을 요구해야 하는지, 무언가 잘못됐다는 직관을 먼저 가져야 함
모델을 더 똑똑하게 만드는 것은 문제를 해결하지 않고, 문제를 보이지 않게 만드는 효과만 낳음

경쟁 우위와 도구 수용의 역설

학술 컨퍼런스에서 만난 한 성공한 동료는 LLM이 모두를 평준화할 가능성에 위협을 느끼며 강하게 반발
- 원어민 영어 구사력과 빠른 논문 작성 능력이 자신의 경쟁 우위였기 때문
이후 그는 AI 에이전트의 가장 적극적인 옹호자로 전환
- 2주가 걸리는 코드를 에이전트가 2시간에 처리한다고 공개적으로 주장
도구가 모두를 평등하게 만들 수 있을 때 가장 위협을 느꼈던 사람이, 도구가 자신을 가속할 수 있을 때 가장 열성적으로 환영하는 역설

진짜 위협: 조용한 인지 외주화

AI 담론은 두 극단으로 나뉨 — let-them-cook(기계에 주도권 이양)과 ban-and-punish(2019년 이전처럼 금지)
- let-them-cook은 수년 내 인간 천체물리학의 소멸로 이어질 수 있음: 기계는 인간 팀 대비 약 10만 배 빠른 속도로 논문 생산 가능, 결과적으로 문헌이 홍수처럼 범람해 사람이 활용 불가능해질 위험
- ban-and-punish는 학문의 자유를 침해하고, 실행 불가능하며, 종신 교수들이 조용히 Claude를 쓰는 동안 초기 경력 연구자들만 불리한 처지에 놓이게 함
진짜 위협은 이 둘이 아니라, 훨씬 조용하고 지루하며 그래서 더 위험한 것
- 이해 없이 결과만 생산하는 연구자 세대의 탄생
- 어떤 버튼을 눌러야 하는지는 알지만, 왜 그 버튼이 존재하는지는 모르는 상태
- 논문은 통과시킬 수 있지만, 동료 앞에서 자신의 전개식에서 세 번째 항의 부호가 왜 그런지 처음부터 설명할 수 없는 연구자

Frank Herbert와 도구의 위험

Frank Herbert의 God Emperor of Dune 에서 인용: "그런 기계들은 실제로 무엇을 하는가? 생각 없이 할 수 있는 것들의 수를 늘린다. 생각 없이 하는 것들, 거기에 진짜 위험이 있다"
이 소설 속 관찰과 현실 연구실 사이의 거리가 불편할 만큼 좁아진 상황

올바른 도구 사용의 경계

연구 그룹의 동료들이 AI 에이전트로 좋은 결과를 내지만, 그 패턴에는 공통점이 있음
- 코드가 무엇을 해야 하는지 알고 나서 에이전트에 작성 요청
- 논문이 무엇을 말해야 하는지 알고 나서 표현 다듬기 도움 요청
- 모든 함수, 파라미터, 모델링 선택을 직접 설명할 수 있음
- 느린 방식으로 수년간 쌓은 지식 위에 도구를 얹은 것
이들에게 내일 모든 AI 서비스가 종료된다면: 속도는 느려지지만 방향을 잃지 않음
반면 신입 박사과정 학생들에게서 관찰되는 패턴:
- 교과서보다 먼저 에이전트에 손을 뻗음
- 논문을 직접 읽는 대신 Claude에게 요약 요청
- Python으로 수학 모델을 직접 구현하려 시도하는 대신, 실패와 오류 메시지와 재시도의 과정을 건너뜀
- 실패가 커리큘럼이고 오류 메시지가 강의계획서

인지 외주화의 돌이키기 어려운 경계

LLM 활용이 허용되는 경우:
- 사고의 반향판으로 활용
- 알고 있는 내용을 표현할 때 Matplotlib 키워드처럼 문법 번역 도구로 활용
- BibTeX 형식 규칙 조회 등 실행의 마지막 단계 마무리
경계를 넘는 순간:
- 방법론적 선택을 기계에 맡기는 순간
- 데이터가 무엇을 의미하는지 기계가 결정하도록 두는 순간
- 기계가 논리를 구성하는 동안 고개만 끄덕이는 순간
- 시간을 절약한 것이 아니라, 그 시간이 줘야 할 경험을 포기한 것

Publish-or-Perish와 Bob의 합리적 선택

Bob은 어리석은 것이 아니라, 주어진 인센티브에 합리적으로 반응
- 논문 1편이 아닌 3편을 내면 경쟁적 포스닥 확보 가능성이 높아지는 구조
- 좋은 포스닥 → 좋은 펠로십 → 테뉴어 트랙, 각 단계가 이전 단계를 복리로 강화
그러나 동일한 경력 사다리는 결국 에이전트가 제공할 수 없는 것을 요구
- 좋은 문제를 식별하는 능력
- 결과가 이상하다는 것을 감지하는 직관
- 직접 해봤다는 경험에서 오는 자신감으로 타인의 연구를 지도하는 능력
처음 5년의 학습을 건너뛰고 이후 20년을 버티는 것은 불가능
가장 어려운 것: 24세의 미래에 불안한 연구자가 단기 산출물보다 장기적 이해를 우선시하는 것

수백 년의 교육학이 채팅 창에 패배한 역설

모든 물리학 교재는 챕터 말미에 연습문제를 두며, 모든 물리학 교수는 동일한 말을 반복
- "타인이 푸는 것을 보는 것만으로는 물리학을 배울 수 없다, 직접 연필을 들어야 한다"
해답지를 읽고 고개를 끄덕이는 것은 이해처럼 느껴지지만 이해가 아님
- 시험에서 실패한 학생들이 뼈저리게 아는 사실
LLM이 편리해진 순간, 우리는 이 사실을 집단적으로 잊어버린 것처럼 행동
세렌디피티는 효율에서 오지 않음
- 문제가 사는 공간에서 충분한 시간을 보내고, 손을 더럽히고, 아무도 시키지 않은 실수를 하고, 아무도 배우라 하지 않은 것을 배우는 과정에서 옴

결론: 기계가 아닌 우리에 대한 걱정

5년 후 Alice는 자신의 연구비를 신청하고, 자신의 문제를 선택하고, 자신의 학생을 지도할 것
- 어떤 질문을 해야 하는지 알고, 새 데이터셋을 보며 무언가 잘못됐음을 직관으로 감지할 수 있음
Bob은 괜찮을 것: 좋은 CV, 아마도 좋은 직장, 2031년 버전의 Claude를 사용해 결과를 생산, 그 결과는 과학처럼 보일 것
기계는 괜찮아요. 나는 우리가 걱정됩니다

Read Entire Article