AI 음성 에이전트를 활용한 구술시험 확장 실험

1 month ago 14

  • 대형 언어모델(LLM) 의 확산으로 기존 과제·시험이 학습 이해도를 측정하지 못하게 되자, 교수진은 ElevenLabs 음성 AI를 이용해 실시간 구술시험을 도입함
  • 시험은 프로젝트 설명과 사례 질의 두 부분으로 구성되어, 학생이 직접 결정 근거와 사고 과정을 설명해야 함
  • 36명 학생을 9일간, 평균 25분씩 평가했으며, 학생당 비용은 0.42달러로 매우 저렴했음
  • Claude·Gemini·ChatGPT 세 모델이 협의식으로 채점해 일관성과 피드백 품질을 높였으며, 실제 강의의 취약 주제(실험 설계) 도 드러남
  • AI 구술시험은 이해 중심 평가를 확장 가능하게 만드는 새로운 형태의 시험 모델로 제시됨

문제 인식과 구술시험 도입 배경

  • 학생 과제의 품질이 비정상적으로 높아 AI 작성 의심이 제기되었고, 무작위 질의 시 스스로 설명하지 못하는 사례 다수 확인
  • LLM 접근성으로 기존 과제·시험의 신뢰성이 붕괴, 실시간 사고력 평가가 가능한 구술시험이 대안으로 부상
  • 그러나 구술시험은 대규모 운영이 불가능하다는 한계가 있어, 이를 해결하기 위해 음성 AI 에이전트를 활용

ElevenLabs 기반 음성 에이전트 구성

  • ElevenLabs Conversational AI를 이용해 음성 인식·합성·턴 관리 등 복잡한 요소를 통합
  • 동적 변수로 학생 이름·프로젝트 정보를 전달하고, 워크플로우 구조로 인증·프로젝트·사례 질의 에이전트를 분리
    • 인증 에이전트: 학생 ID 확인
    • 프로젝트 에이전트: 제출 자료 기반 질의
    • 사례 에이전트: 무작위 사례 선택 후 질문
  • 여러 소형 에이전트로 분리해 대화 일탈 방지디버깅 용이성 확보

시험 운영 및 수치 결과

  • 36명, 9일간, 평균 25분(최단 9분~최장 64분) 진행
  • 평균 65회 메시지 교환, 총비용 15달러(학생당 0.42달러)
  • LLM 채점 결과의 89% 가 1점 이내 일치, 가장 짧은 시험(9분) 이 최고점(19/20)을 기록
  • 인간 채점 대비 50배 이상 비용 절감, 실시간 평가·기록·피드백 자동화 달성

시행착오와 개선 조치

  • 음성 톤이 위압적이라는 학생 피드백 → 다양한 음성 A/B 테스트 예정
  • 질문 누적(스택) 문제 → “한 번에 한 질문” 규칙 추가
  • 질문 반복 시 의미 변형 → “문장 그대로 반복” 명시
  • 생각할 시간 부족 → 대기시간 10초로 연장
  • 사례 무작위 선택 실패 → 코드 수준에서 난수 매핑으로 해결

LLM 협의 채점(council grading)

  • Claude·Gemini·ChatGPT가 독립 채점 후 상호 검토·수정
  • 1차 채점 불일치율 높았으나, 2차 협의 후 1점 이내 일치율 62% → 85% 로 향상
  • Gemini는 평균 2점 낮춰 조정, Claude·OpenAI 간 일관성 높음
  • 실험 설계 항목에서 채점 불일치가 가장 컸으며, 이는 학생 답변의 모호성 때문으로 분석
  • AI 채점은 인간보다 엄격하지만 공정, 피드백은 구체적·행동지향적으로 우수

교육적 통찰과 진단

  • 주제별 성취도 분석에서 실험 설계 평균 1.94/4로 가장 낮음
    • 0점 8%, 1점 19%, 2점 42%, 4점 0%
  • 강의 내 A/B 테스트 설명 부족이 원인으로 드러나, 교수진의 교육 개선 필요성 확인
  • 시험 시간과 점수의 상관관계 없음(r=-0.03) , 짧고 명확한 답변이 높은 점수와 연관

부정행위 방지 및 투명성

  • 학생에게 웹캠·오디오 녹화 의무화로 외부 도움 차단
  • 시험 구조와 질문 유형을 공개된 가이드라인으로 운영, 문제 유출 위험 제거
  • 학생은 동일 구조로 반복 연습 가능, 실제 학습 효과 강화

학생 반응

  • 13%만 AI 구술시험 선호, 57%는 전통 필기시험 선호, 83%는 더 스트레스 받았다고 응답
  • 그러나 70%가 실제 이해도를 잘 평가했다고 인정, 평가 신뢰도는 높음
  • 자율적 시간·장소 응시의 유연성은 긍정 평가
  • 개선 요구: 속도 완화, 차분한 음성, 단일 질문 방식

향후 개선 계획

  • 속도 조절·음성 다양화, 학생 제출물 기반 RAG 질의, 명시적 난수 시드로 사례 분배
  • LLM 간 채점 불일치 시 인간 검토 트리거 도입
  • 접근성 강화: 연습 모드, 추가 시간, 대체 수단 제공

결론: AI로 확장 가능한 이해 중심 평가

  • 과제형·필기시험은 LLM 시대에 무력화, 실시간 사고력 평가로 전환 필요
  • AI 구술시험은 이해·판단·즉흥적 사고를 측정하며, 대규모 운영이 가능한 새로운 평가 방식
  • 문제 유출 위험 없이 반복 연습을 통한 학습 강화 가능
  • “Fight fire with fire” — AI로 인해 생긴 문제를 AI로 해결하는 평가 혁신

Read Entire Article