-
강화학습(Reinforcement Learning) 의 핵심 개념과 응용을 다루는 스탠퍼드 대학의 대학원 수준 강의로, 자율 시스템이 스스로 의사결정을 학습하는 원리를 중심으로 구성
-
로보틱스, 게임, 소비자 모델링, 헬스케어 등 다양한 분야의 문제를 RL로 정의하고 해결하는 방법을 학습
-
강의·필기 과제·코딩 과제를 통해 기본 RL 알고리듬부터 딥 강화학습(Deep RL) 까지 실습 중심으로 습득
- 수강생은 Python, 선형대수, 확률통계, 머신러닝 기초를 사전에 숙지해야 하며, 과제는 Gradescope를 통해 제출
- RL의 탐색 대 활용 문제, 정책 탐색, 오프라인 RL, AlphaGo 사례 등을 포함한 체계적 커리큘럼으로 구성되어, AI 연구 및 응용 개발의 핵심 역량 강화에 중요
강의 개요 및 운영
- 인공지능의 목표 달성을 위해 자율적으로 의사결정을 학습하는 시스템의 필요성을 강조
- 강화학습은 이러한 시스템을 구현하는 강력한 패러다임으로, 다양한 실제 응용에 활용 가능
- 강의는 화요일과 목요일에 실시간으로 진행되며, 녹화 영상은 Canvas를 통해 제공
-
Ed Forum을 통해 질의응답을 진행하며, Gradescope에서 과제와 퀴즈를 관리
-
Emma Brunskill이 담당 교수이며, 여러 조교진이 지원
선수 과목 요건
-
Python 프로그래밍 능력 필수, 모든 과제는 Python으로 작성
-
대학 수준의 미적분, 선형대수, 확률통계 지식 필요
-
머신러닝 기초(예: CS221, CS229) 이해 요구
- 비용함수 정의, 경사하강법 최적화, 볼록 최적화 개념 포함
학습 목표
- 강화학습을 비대화적 머신러닝과 구분하는 핵심 특징 정의
- 주어진 응용 문제를 RL로 공식화하고, 상태공간·행동공간·보상모델을 설계
-
정책 탐색, Q-learning, MDP 계획 등 주요 알고리듬 구현
-
후회(regret), 샘플 복잡도, 계산 복잡도, 수렴성 등 평가 기준 이해
-
탐색 대 활용(exploration vs exploitation) 문제의 다양한 접근법 비교
강의 일정 요약
-
1주차: 강화학습 소개, Tabular MDP 계획
-
2주차: 정책 평가, Q-learning 및 함수 근사
-
3~4주차: 정책 탐색(1~3), 오프라인 RL 및 모방학습
-
5주차: 중간고사, DPO 주제
-
6~7주차: 오프라인 RL 심화, 탐색(1~3)
-
8주차: 탐색(4), 게스트 강연, 프로젝트 마일스톤 제출
-
9주차: Monte Carlo Tree Search / AlphaGo, 퀴즈
-
10~11주차: 게스트 강연, 최종 프로젝트 포스터 세션 및 보고서 제출
교재 및 참고 자료
- 공식 교재는 없으며, 주요 참고서는 Sutton & Barto의 “Reinforcement Learning: An Introduction (2nd Ed.)”
- 추가 자료로 Wiering & van Otterlo의 Reinforcement Learning: State-of-the-Art, Russell & Norvig의 Artificial Intelligence: A Modern Approach, Goodfellow의 Deep Learning, David Silver의 RL 강의 등이 제시
평가 비율
-
과제 1: 10%, 과제 2: 18%, 과제 3: 18%
-
중간고사: 25%, 퀴즈: 5%, 프로젝트: 24%
- 제안서 1%, 마일스톤 2%, 포스터 5%, 논문 16%
-
강의 참여 보너스: 최대 0.5%
지각 및 제출 정책
- 총 5일의 지각 허용일(late days) 제공
- 과제별 최대 2일 사용 가능, 초과 시 감점 적용
- 마감 후 24시간 이내 제출 시 최대 50% 점수, 이후 제출 시 0점 처리
- 포스터 발표 및 최종 논문에는 지각 허용 불가
시험
-
중간고사 1회, 퀴즈 1회 진행, 모두 교내 대면 시험
- 공식 사유 시 원격 또는 대체 시험 가능
-
허용 자료: 손글씨 노트 1장(중간), 양면 1장(퀴즈)
-
금지: 계산기, 노트북, 휴대폰, 태블릿 등
과제 및 제출
- 모든 과제는 Assignments 페이지에 게시
- 일부 과제는 클라우드 컴퓨팅 자원 사용 가능
- 제출 지침은 전용 페이지에서 확인
학업 윤리 및 AI 도구 사용
- 서면 과제는 아이디어 토론 가능하나, 해답은 독립 작성해야 함
- 코딩 과제는 입출력 결과만 공유 가능, 코드 공유 금지
-
유사도 검사 소프트웨어로 표절 여부 확인
-
생성형 AI(GPT-4, Gemini, Copilot 등) 사용은 인간 협업 수준으로 허용
- 직접적인 코드 생성이나 해답 복사는 금지
- 사용 시 명시해야 하며, 최종 책임은 본인에게 있음
-
LLM은 프로젝트 공동 저자로 명시 불가
학업 지원 및 평가 이의신청
- 장애 관련 학업 지원은 Office of Accessible Education(OAE) 을 통해 요청 가능
-
재채점 요청은 성적 공개 후 3일 이내 Gradescope에서 제출 가능
- 재검토 시 전체 과제가 다시 평가될 수 있음
학점 및 수강 형태
-
Credit/No Credit 수강 시에도 동일한 평가 기준 적용
-
C- 이상(약 70%) 성취 시 CR 부여
기타
-
SCPD 학생은 전용 이메일을 통해 행정 문의 가능
- 웹사이트 디자인은 Andrej Karpathy 제작