-
파이썬 기반 데이터 과학의 핵심 도구와 기법을 다루는 온라인 핸드북으로, 전체 내용이 웹사이트와 GitHub에서 공개됨
-
Jupyter 노트북 형식으로 제공되어 실습 중심의 학습이 가능하며, 코드와 텍스트가 함께 포함됨
- 텍스트는 CC-BY-NC-ND 라이선스, 코드 예제는 MIT 라이선스로 배포되어 자유로운 비상업적 활용이 가능함
- IPython, NumPy, Pandas, Matplotlib, Scikit-Learn 등 데이터 분석과 머신러닝 핵심 라이브러리를 체계적으로 다룸
- 데이터 과학 입문자부터 실무자까지 파이썬 생태계의 표준 워크플로우를 익히는 데 유용한 자료임
개요
- 이 사이트는 Jake VanderPlas의 『Python Data Science Handbook』 전체 내용을 담고 있음
- 원본 도서는 O’Reilly에서 출간되었으며, 웹 버전은 무료로 공개됨
- 모든 내용은 GitHub 저장소에서 Jupyter 노트북 형태로 제공됨
- 텍스트는 CC-BY-NC-ND 라이선스, 코드 예제는 MIT 라이선스로 배포됨
- 독자가 유용하다고 느낄 경우, 원서 구매를 통해 저자를 후원할 수 있음
목차 구성
- 책은 총 5개 주요 장과 부록으로 구성되어 있음
1장: IPython – 일반 파이썬을 넘어서
-
IPython 환경의 기능과 사용법을 설명
- 도움말 시스템, 키보드 단축키, 매직 명령어, 셸 명령 연동 등 포함
- 코드 실행 이력, 디버깅, 성능 측정 기능을 다룸
2장: NumPy 소개
-
NumPy 배열을 이용한 수치 계산의 기초를 다룸
- 데이터 타입, 브로드캐스팅, 불리언 마스크, 정렬, 구조화 배열 등 포함
- 배열 기반 연산과 집계 함수의 활용법을 설명
3장: Pandas를 이용한 데이터 조작
-
Pandas의 핵심 객체와 데이터 처리 기능을 다룸
- 인덱싱, 결측치 처리, 그룹화, 피벗 테이블, 시계열 처리 등 포함
-
eval()과 query()를 통한 고성능 연산 기능도 소개
4장: Matplotlib을 이용한 시각화
-
Matplotlib과 Seaborn을 활용한 데이터 시각화 방법을 설명
- 선 그래프, 산점도, 히스토그램, 밀도 플롯 등 다양한 그래프 유형 포함
- 범례, 색상 막대, 스타일시트, 3D 그래프, 지리 데이터 시각화 등 고급 기능 다룸
5장: 머신러닝
-
Scikit-Learn을 중심으로 머신러닝의 기본 개념과 알고리듬을 다룸
- 하이퍼파라미터, 모델 검증, 특성 엔지니어링 등 핵심 절차 포함
- 나이브 베이즈, 선형 회귀, SVM, 랜덤 포레스트, PCA, k-평균, GMM 등 주요 모델 설명
- 얼굴 인식 파이프라인 예시를 통해 실제 응용 사례 제시
부록: 그림 코드
활용 의의
- 데이터 과학 학습자에게 파이썬 생태계의 통합적 이해를 제공
- 실습 가능한 노트북 형식으로 교육·연구·프로토타이핑에 활용 가능
- 오픈소스 라이선스로 공개되어 지속적 확장과 커뮤니티 기여가 용이함