-
대형 언어모델(LLM) 의 확산으로 기존 과제·시험이 학습 이해도를 측정하지 못하게 되자, 교수진은 ElevenLabs 음성 AI를 이용해 실시간 구술시험을 도입함
- 시험은 프로젝트 설명과 사례 질의 두 부분으로 구성되어, 학생이 직접 결정 근거와 사고 과정을 설명해야 함
-
36명 학생을 9일간, 평균 25분씩 평가했으며, 학생당 비용은 0.42달러로 매우 저렴했음
-
Claude·Gemini·ChatGPT 세 모델이 협의식으로 채점해 일관성과 피드백 품질을 높였으며, 실제 강의의 취약 주제(실험 설계) 도 드러남
- AI 구술시험은 이해 중심 평가를 확장 가능하게 만드는 새로운 형태의 시험 모델로 제시됨
문제 인식과 구술시험 도입 배경
- 학생 과제의 품질이 비정상적으로 높아 AI 작성 의심이 제기되었고, 무작위 질의 시 스스로 설명하지 못하는 사례 다수 확인
-
LLM 접근성으로 기존 과제·시험의 신뢰성이 붕괴, 실시간 사고력 평가가 가능한 구술시험이 대안으로 부상
- 그러나 구술시험은 대규모 운영이 불가능하다는 한계가 있어, 이를 해결하기 위해 음성 AI 에이전트를 활용
ElevenLabs 기반 음성 에이전트 구성
- ElevenLabs Conversational AI를 이용해 음성 인식·합성·턴 관리 등 복잡한 요소를 통합
-
동적 변수로 학생 이름·프로젝트 정보를 전달하고, 워크플로우 구조로 인증·프로젝트·사례 질의 에이전트를 분리
- 인증 에이전트: 학생 ID 확인
- 프로젝트 에이전트: 제출 자료 기반 질의
- 사례 에이전트: 무작위 사례 선택 후 질문
- 여러 소형 에이전트로 분리해 대화 일탈 방지와 디버깅 용이성 확보
시험 운영 및 수치 결과
- 총 36명, 9일간, 평균 25분(최단 9분~최장 64분) 진행
- 평균 65회 메시지 교환, 총비용 15달러(학생당 0.42달러)
-
LLM 채점 결과의 89% 가 1점 이내 일치, 가장 짧은 시험(9분) 이 최고점(19/20)을 기록
- 인간 채점 대비 50배 이상 비용 절감, 실시간 평가·기록·피드백 자동화 달성
시행착오와 개선 조치
-
음성 톤이 위압적이라는 학생 피드백 → 다양한 음성 A/B 테스트 예정
-
질문 누적(스택) 문제 → “한 번에 한 질문” 규칙 추가
-
질문 반복 시 의미 변형 → “문장 그대로 반복” 명시
-
생각할 시간 부족 → 대기시간 10초로 연장
-
사례 무작위 선택 실패 → 코드 수준에서 난수 매핑으로 해결
LLM 협의 채점(council grading)
-
Claude·Gemini·ChatGPT가 독립 채점 후 상호 검토·수정
- 1차 채점 불일치율 높았으나, 2차 협의 후 1점 이내 일치율 62% → 85% 로 향상
- Gemini는 평균 2점 낮춰 조정, Claude·OpenAI 간 일관성 높음
-
실험 설계 항목에서 채점 불일치가 가장 컸으며, 이는 학생 답변의 모호성 때문으로 분석
- AI 채점은 인간보다 엄격하지만 공정, 피드백은 구체적·행동지향적으로 우수
교육적 통찰과 진단
- 주제별 성취도 분석에서 실험 설계 평균 1.94/4로 가장 낮음
- 0점 8%, 1점 19%, 2점 42%, 4점 0%
- 강의 내 A/B 테스트 설명 부족이 원인으로 드러나, 교수진의 교육 개선 필요성 확인
-
시험 시간과 점수의 상관관계 없음(r=-0.03) , 짧고 명확한 답변이 높은 점수와 연관
부정행위 방지 및 투명성
- 학생에게 웹캠·오디오 녹화 의무화로 외부 도움 차단
- 시험 구조와 질문 유형을 공개된 가이드라인으로 운영, 문제 유출 위험 제거
- 학생은 동일 구조로 반복 연습 가능, 실제 학습 효과 강화
학생 반응
- 13%만 AI 구술시험 선호, 57%는 전통 필기시험 선호, 83%는 더 스트레스 받았다고 응답
- 그러나 70%가 실제 이해도를 잘 평가했다고 인정, 평가 신뢰도는 높음
-
자율적 시간·장소 응시의 유연성은 긍정 평가
- 개선 요구: 속도 완화, 차분한 음성, 단일 질문 방식
향후 개선 계획
-
속도 조절·음성 다양화, 학생 제출물 기반 RAG 질의, 명시적 난수 시드로 사례 분배
-
LLM 간 채점 불일치 시 인간 검토 트리거 도입
-
접근성 강화: 연습 모드, 추가 시간, 대체 수단 제공
결론: AI로 확장 가능한 이해 중심 평가
-
과제형·필기시험은 LLM 시대에 무력화, 실시간 사고력 평가로 전환 필요
- AI 구술시험은 이해·판단·즉흥적 사고를 측정하며, 대규모 운영이 가능한 새로운 평가 방식
- 문제 유출 위험 없이 반복 연습을 통한 학습 강화 가능
- “Fight fire with fire” — AI로 인해 생긴 문제를 AI로 해결하는 평가 혁신