clopus-watcher - Claude Code 형태의 자율 24/7 온콜 엔지니어

1 week ago 6

  • Kubernetes 환경의 장애 대응 자동화를 목표로 한 AI 기반 감시 도구
  • Claude Code를 활용해 Pod 상태를 실시간 분석하고, 오류를 감지해 자동 수정 또는 리포트 생성 수행
  • CronJob 형태로 주기적 실행되어, 운영자가 없는 시간에도 24시간 자율 대응 체계 유지
  • 주요 동작
    • 대상 Namespace의 Pod 상태 모니터링
    • CrashLoopBackOff, Error 등 비정상 상태 감지
    • 로그 분석을 통해 오류 원인 파악
    • 필요 시 Pod 내부 진입 후 핫픽스 적용
    • 수정 내역을 SQLite DB에 기록하고 리포트 제공
  • 별도 Dashboard 배포 구성을 통해 웹 UI에서 오류 및 수정 이력 시각화 지원
  • Go + HTML + Shell로 구성된 경량 구조로, Kubernetes CronJob 배포에 최적화
  • MIT 라이선스

Read Entire Article