AI 음성 에이전트를 활용한 구술시험 확장 실험

1 month ago 14

대형 언어모델(LLM) 의 확산으로 기존 과제·시험이 학습 이해도를 측정하지 못하게 되자, 교수진은 ElevenLabs 음성 AI를 이용해 실시간 구술시험을 도입함
시험은 프로젝트 설명과 사례 질의 두 부분으로 구성되어, 학생이 직접 결정 근거와 사고 과정을 설명해야 함
36명 학생을 9일간, 평균 25분씩 평가했으며, 학생당 비용은 0.42달러로 매우 저렴했음
Claude·Gemini·ChatGPT 세 모델이 협의식으로 채점해 일관성과 피드백 품질을 높였으며, 실제 강의의 취약 주제(실험 설계) 도 드러남
AI 구술시험은 이해 중심 평가를 확장 가능하게 만드는 새로운 형태의 시험 모델로 제시됨

문제 인식과 구술시험 도입 배경

학생 과제의 품질이 비정상적으로 높아 AI 작성 의심이 제기되었고, 무작위 질의 시 스스로 설명하지 못하는 사례 다수 확인
LLM 접근성으로 기존 과제·시험의 신뢰성이 붕괴, 실시간 사고력 평가가 가능한 구술시험이 대안으로 부상
그러나 구술시험은 대규모 운영이 불가능하다는 한계가 있어, 이를 해결하기 위해 음성 AI 에이전트를 활용

ElevenLabs 기반 음성 에이전트 구성

ElevenLabs Conversational AI를 이용해 음성 인식·합성·턴 관리 등 복잡한 요소를 통합
동적 변수로 학생 이름·프로젝트 정보를 전달하고, 워크플로우 구조로 인증·프로젝트·사례 질의 에이전트를 분리
- 인증 에이전트: 학생 ID 확인
- 프로젝트 에이전트: 제출 자료 기반 질의
- 사례 에이전트: 무작위 사례 선택 후 질문
여러 소형 에이전트로 분리해 대화 일탈 방지와 디버깅 용이성 확보

시험 운영 및 수치 결과

총 36명, 9일간, 평균 25분(최단 9분~최장 64분) 진행
평균 65회 메시지 교환, 총비용 15달러(학생당 0.42달러)
LLM 채점 결과의 89% 가 1점 이내 일치, 가장 짧은 시험(9분) 이 최고점(19/20)을 기록
인간 채점 대비 50배 이상 비용 절감, 실시간 평가·기록·피드백 자동화 달성

시행착오와 개선 조치

음성 톤이 위압적이라는 학생 피드백 → 다양한 음성 A/B 테스트 예정
질문 누적(스택) 문제 → “한 번에 한 질문” 규칙 추가
질문 반복 시 의미 변형 → “문장 그대로 반복” 명시
생각할 시간 부족 → 대기시간 10초로 연장
사례 무작위 선택 실패 → 코드 수준에서 난수 매핑으로 해결

LLM 협의 채점(council grading)

Claude·Gemini·ChatGPT가 독립 채점 후 상호 검토·수정
1차 채점 불일치율 높았으나, 2차 협의 후 1점 이내 일치율 62% → 85% 로 향상
Gemini는 평균 2점 낮춰 조정, Claude·OpenAI 간 일관성 높음
실험 설계 항목에서 채점 불일치가 가장 컸으며, 이는 학생 답변의 모호성 때문으로 분석
AI 채점은 인간보다 엄격하지만 공정, 피드백은 구체적·행동지향적으로 우수

교육적 통찰과 진단

주제별 성취도 분석에서 실험 설계 평균 1.94/4로 가장 낮음
- 0점 8%, 1점 19%, 2점 42%, 4점 0%
강의 내 A/B 테스트 설명 부족이 원인으로 드러나, 교수진의 교육 개선 필요성 확인
시험 시간과 점수의 상관관계 없음(r=-0.03) , 짧고 명확한 답변이 높은 점수와 연관

부정행위 방지 및 투명성

학생에게 웹캠·오디오 녹화 의무화로 외부 도움 차단
시험 구조와 질문 유형을 공개된 가이드라인으로 운영, 문제 유출 위험 제거
학생은 동일 구조로 반복 연습 가능, 실제 학습 효과 강화

학생 반응

13%만 AI 구술시험 선호, 57%는 전통 필기시험 선호, 83%는 더 스트레스 받았다고 응답
그러나 70%가 실제 이해도를 잘 평가했다고 인정, 평가 신뢰도는 높음
자율적 시간·장소 응시의 유연성은 긍정 평가
개선 요구: 속도 완화, 차분한 음성, 단일 질문 방식

향후 개선 계획

속도 조절·음성 다양화, 학생 제출물 기반 RAG 질의, 명시적 난수 시드로 사례 분배
LLM 간 채점 불일치 시 인간 검토 트리거 도입
접근성 강화: 연습 모드, 추가 시간, 대체 수단 제공

결론: AI로 확장 가능한 이해 중심 평가

과제형·필기시험은 LLM 시대에 무력화, 실시간 사고력 평가로 전환 필요
AI 구술시험은 이해·판단·즉흥적 사고를 측정하며, 대규모 운영이 가능한 새로운 평가 방식
문제 유출 위험 없이 반복 연습을 통한 학습 강화 가능
“Fight fire with fire” — AI로 인해 생긴 문제를 AI로 해결하는 평가 혁신

Read Entire Article