CS234: 강화학습 겨울학기 2025

1 week ago 5

강화학습(Reinforcement Learning) 의 핵심 개념과 응용을 다루는 스탠퍼드 대학의 대학원 수준 강의로, 자율 시스템이 스스로 의사결정을 학습하는 원리를 중심으로 구성
로보틱스, 게임, 소비자 모델링, 헬스케어 등 다양한 분야의 문제를 RL로 정의하고 해결하는 방법을 학습
강의·필기 과제·코딩 과제를 통해 기본 RL 알고리듬부터 딥 강화학습(Deep RL) 까지 실습 중심으로 습득
수강생은 Python, 선형대수, 확률통계, 머신러닝 기초를 사전에 숙지해야 하며, 과제는 Gradescope를 통해 제출
RL의 탐색 대 활용 문제, 정책 탐색, 오프라인 RL, AlphaGo 사례 등을 포함한 체계적 커리큘럼으로 구성되어, AI 연구 및 응용 개발의 핵심 역량 강화에 중요

강의 개요 및 운영

인공지능의 목표 달성을 위해 자율적으로 의사결정을 학습하는 시스템의 필요성을 강조
- 강화학습은 이러한 시스템을 구현하는 강력한 패러다임으로, 다양한 실제 응용에 활용 가능
강의는 화요일과 목요일에 실시간으로 진행되며, 녹화 영상은 Canvas를 통해 제공
Ed Forum을 통해 질의응답을 진행하며, Gradescope에서 과제와 퀴즈를 관리
Emma Brunskill이 담당 교수이며, 여러 조교진이 지원

선수 과목 요건

Python 프로그래밍 능력 필수, 모든 과제는 Python으로 작성
대학 수준의 미적분, 선형대수, 확률통계 지식 필요
머신러닝 기초(예: CS221, CS229) 이해 요구
- 비용함수 정의, 경사하강법 최적화, 볼록 최적화 개념 포함

학습 목표

강화학습을 비대화적 머신러닝과 구분하는 핵심 특징 정의
주어진 응용 문제를 RL로 공식화하고, 상태공간·행동공간·보상모델을 설계
정책 탐색, Q-learning, MDP 계획 등 주요 알고리듬 구현
후회(regret), 샘플 복잡도, 계산 복잡도, 수렴성 등 평가 기준 이해
탐색 대 활용(exploration vs exploitation) 문제의 다양한 접근법 비교

강의 일정 요약

1주차: 강화학습 소개, Tabular MDP 계획
2주차: 정책 평가, Q-learning 및 함수 근사
3~4주차: 정책 탐색(1~3), 오프라인 RL 및 모방학습
5주차: 중간고사, DPO 주제
6~7주차: 오프라인 RL 심화, 탐색(1~3)
8주차: 탐색(4), 게스트 강연, 프로젝트 마일스톤 제출
9주차: Monte Carlo Tree Search / AlphaGo, 퀴즈
10~11주차: 게스트 강연, 최종 프로젝트 포스터 세션 및 보고서 제출

교재 및 참고 자료

공식 교재는 없으며, 주요 참고서는 Sutton & Barto의 “Reinforcement Learning: An Introduction (2nd Ed.)”
추가 자료로 Wiering & van Otterlo의 Reinforcement Learning: State-of-the-Art, Russell & Norvig의 Artificial Intelligence: A Modern Approach, Goodfellow의 Deep Learning, David Silver의 RL 강의 등이 제시

평가 비율

과제 1: 10%, 과제 2: 18%, 과제 3: 18%
중간고사: 25%, 퀴즈: 5%, 프로젝트: 24%
- 제안서 1%, 마일스톤 2%, 포스터 5%, 논문 16%
강의 참여 보너스: 최대 0.5%

지각 및 제출 정책

총 5일의 지각 허용일(late days) 제공
과제별 최대 2일 사용 가능, 초과 시 감점 적용
- 마감 후 24시간 이내 제출 시 최대 50% 점수, 이후 제출 시 0점 처리
포스터 발표 및 최종 논문에는 지각 허용 불가

시험

중간고사 1회, 퀴즈 1회 진행, 모두 교내 대면 시험
공식 사유 시 원격 또는 대체 시험 가능
허용 자료: 손글씨 노트 1장(중간), 양면 1장(퀴즈)
금지: 계산기, 노트북, 휴대폰, 태블릿 등

과제 및 제출

모든 과제는 Assignments 페이지에 게시
일부 과제는 클라우드 컴퓨팅 자원 사용 가능
제출 지침은 전용 페이지에서 확인

학업 윤리 및 AI 도구 사용

서면 과제는 아이디어 토론 가능하나, 해답은 독립 작성해야 함
코딩 과제는 입출력 결과만 공유 가능, 코드 공유 금지
유사도 검사 소프트웨어로 표절 여부 확인
생성형 AI(GPT-4, Gemini, Copilot 등) 사용은 인간 협업 수준으로 허용
- 직접적인 코드 생성이나 해답 복사는 금지
- 사용 시 명시해야 하며, 최종 책임은 본인에게 있음
LLM은 프로젝트 공동 저자로 명시 불가

학업 지원 및 평가 이의신청

장애 관련 학업 지원은 Office of Accessible Education(OAE) 을 통해 요청 가능
재채점 요청은 성적 공개 후 3일 이내 Gradescope에서 제출 가능
재검토 시 전체 과제가 다시 평가될 수 있음

학점 및 수강 형태

Credit/No Credit 수강 시에도 동일한 평가 기준 적용
C- 이상(약 70%) 성취 시 CR 부여

기타

SCPD 학생은 전용 이메일을 통해 행정 문의 가능
웹사이트 디자인은 Andrej Karpathy 제작

Read Entire Article