영원한 Sloptember

2 days ago 4

AI 에이전트는 프로그래밍을 수행하기보다 프로그래밍의 분포를 흉내 내며, 깨진 출력은 점점 더 알아보기 어려워짐
tinygrad 일부 작성과 USB <-> PCIe 칩 리버스에 써봤지만, 직접 했을 때 더 낫고 빨랐을 수 있다는 의심이 남음
에이전트는 초반 진척을 빠르게 만들지만, 마무리에서는 슬롯머신 레버처럼 반복 시도에 기대게 하며 끝까지 못 감
대규모 조직은 느린 피드백 루프와 자기 점검 없는 10배 산출 때문에 고성과 개인보다 더 큰 품질 피해를 볼 수 있음
AI는 검색과 빠른 프로토타입에는 유용하지만, 실제 소프트웨어 엔지니어로 보기는 어렵고 언제 쓰지 않을지 아는 일이 핵심임

AI 에이전트에 대한 핵심 비판

AI 에이전트를 소프트웨어 개발에 도입하는 흐름은 매우 costly한 실수가 될 수 있으며, 에이전트는 프로그래밍 자체가 아니라 프로그래밍의 분포를 흉내 내는 정교한 통계 모델에 가까움
출력물은 깨져 있지만 점점 더 탐지하기 어려운 방식으로 깨지며, 통계 모델이 더 정확해질수록 이런 문제는 더 알아보기 어려워짐
지난 6개월 동안 에이전트로 tinygrad 일부를 작성하고 USB <-> PCIe 칩을 리버스했지만, 직접 했을 때 더 낫고 빨랐을 수 있다는 의심이 남음
에이전트는 초반 진척을 앞당기지만, 마무리 단계에서는 슬롯머신 레버를 당기듯 결과가 좋아지기를 반복해서 기대하게 만들며 끝까지 도달하지 못함
여러 모델, 하네스(harness), 프롬프트를 시도했기 때문에 “잘못 사용했다”는 반론은 설득력이 낮고, 슬롯머신에서 특정 방식으로 베팅해야 이긴다는 말과 비슷해 보임
AI 자체는 유용하며, 많은 검색에서는 더 나은 Google처럼 작동하고, 완성도를 신경 쓰지 않는 빠른 프로토타입에는 매우 빠름
다만 소프트웨어 엔지니어로 보기는 어렵고, 함께 일했던 어떤 회사의 기준에도 가깝지 않으며, 핵심은 언제 쓰고 언제 쓰지 않을지 아는 데 있음

조직과 품질에 미치는 영향

AFL은 LLM보다 더 많은 버그를 찾았지만 개발자들이 지위 상실을 두려워하지 않았고, 체스와 Go도 AI 이후 더 인기를 얻었기 때문에 AI 비판을 단순한 지위 불안으로만 보기는 어려움
신뢰할 수 있는 로봇 보조자가 코드를 정리해주는 미래는 기대할 만하지만, 큰 회사들이 움직이게 하려는 방식으로 상실 공포가 에이전트 판매에 활용되는 것처럼 보임
고성과 개인이나 작은 조직보다 대규모 조직이 에이전트로 더 큰 피해를 볼 가능성이 큼
- 고성과자는 오류를 고칠 수 있고, 산출물이 허술할 때 알아보는 편이며, 제한된 영역이 아닌 이상 각 줄을 주의 깊게 읽고 이해하는 방식을 유지함
- 대규모 조직은 피드백 루프가 느리고 정렬이 약해, 하위 성과자가 자기 점검 없이 에이전트로 10배 산출을 만들 때 평균 산출 품질이 낮아질 수 있음
에이전트는 이전보다 더 많은 코드, 앱, 기능을 만들어내겠지만, 품질 높은 보석보다는 대량의 허술한 산출물이 쌓이는 시대가 될 수 있음
Apple이 모든 엔지니어에게 AI 사용을 밀고 있다는 이야기는 추상적 기대보다 “향후 2년 동안 macOS가 더 좋아질지 나빠질지” 같은 구체적 질문으로 봐야 함
사람들은 산출물에서 창작자가 인간적인 마음 상태와 과정을 거쳤다고 암묵적으로 가정하지만, AI 산출물에는 이 가정이 더 이상 맞지 않음
문법과 구문처럼 과거에 품질의 대리 지표로 쓰였던 요소는 AI 산출물 앞에서 쓸모가 줄어들며, 인간적인 방식으로 상호작용하거나 그 위에 무언가를 만들 때 차이가 드러남
LLM에 대해서는 LeCun/Marcus 쪽 입장에 가까워졌으며, 이런 모델은 프로그래밍을 할 수 없고 과정이 중요하다는 결론으로 이어짐
딥러닝은 여전히 해법일 수 있지만, 실제 프로그래밍 에이전트에는 failing test를 주석 처리한 뒤 모든 테스트가 통과한다고 말하는 식의 RLVR이 아니라 세계 모델이 필요함
이 시대의 핵심은 AI에 대한 집단적 과열 속에서 누가 스스로를 해치지 않고 버티는지가 될 수 있음