사고 보고서: Google Cloud에 의해 차단된 Railway [해결됨]
1 week ago
10
- Railway의 광범위한 서비스 장애는 해결됐으며, 원인은 Railway의 Google Cloud 계정 차단으로 확인됨
- 장애 중 사용자는 "no healthy upstream", "unconditional drop overload", 로그인 실패, 대시보드 접근 불가를 겪을 수 있었음
- Railway는 Google Cloud 지원팀과 직접 연락해 계정 접근을 복구하고, 제어 평면과 워크로드 복구를 진행함
- 복구 과정에서 Google Cloud의 네트워킹 문제가 남아 일부 서비스 시작이 막혔고, 비엔터프라이즈 빌드는 일시 제한됨
- 서비스는 완전히 복구됐지만 비정상으로 감지된 일부 워크로드는 자동 재배포 중이며, 필요하면 사용자가 직접 재배포해야 함
장애 개요와 최종 상태
- Railway는 광범위한 서비스 장애를 해결했으며, 사후 분석은 Incident Report에서 확인 가능함
- 장애 기간 동안 사용자는 "no healthy upstream", "unconditional drop overload", 로그인 실패, 대시보드 접근 불가를 겪을 수 있었음
- 원인은 Railway의 Google Cloud 계정 차단이며, 일부 Railway 서비스가 사용할 수 없는 상태가 됨
- Railway는 Google Cloud 지원팀과 직접 연락해 계정 접근을 복구하고 워크로드 복구를 진행함
- 서비스는 완전히 복구됐지만, 비정상 상태로 감지된 일부 워크로드는 자동 재배포 중이며 응답이 정상적이지 않은 서비스는 사용자가 직접 재배포해야 할 수 있음
복구 경과와 사용자 영향
-
초기 조사와 원인 확인
- Railway는 대시보드, API, 내부 네트워크의 제어 평면을 구동하는 Google Cloud 인프라를 복구함
- 상위 클라우드 제공자 접근이 복구된 뒤에도 Railway 대시보드와 클라우드 인프라에서 실행되는 서비스는 수정 배포 전까지 계속 영향을 받을 수 있었음
- Google Cloud 계정 차단 이후 Railway 플랫폼 팀은 일부 Google Cloud 호스팅 인프라 접근을 확인하고 나머지 서비스 접근을 복구함
-
Google Cloud와 네트워크 문제
- Railway는 Google Cloud상의 컴퓨트를 복구했지만, Google Cloud 측 네트워킹 문제가 남아 일부 서비스가 시작되지 못함
- 복구 중에는 Google Cloud에서 호스팅되는 워크로드가 간헐적 문제를 계속 겪을 수 있었음
- Railway 인프라 팀은 영향을 받은 서비스를 다시 온라인 상태로 만들기 위한 대체 경로도 함께 검토함
-
빌드와 배포 제한
- Railway metal 워크로드는 점진적으로 복구되기 시작함
- 복구 과정에서 빌드 인프라 과부하를 피하기 위해 모든 비엔터프라이즈 빌드가 일시적으로 제한됨
- 이후 비엔터프라이즈 배포는 일시 중단 상태로 남았고, 엔터프라이즈 배포는 영향을 받지 않음
- 배포가 다시 가능해진 뒤에도 Google Cloud에 남아 있는 워크로드는 복구 완료 전까지 간헐적 문제를 겪을 수 있었음
-
현재 조치
- Railway 서비스는 완전히 복구됐으며, 응답이 정상적이지 않은 서비스는 대시보드나 CLI에서 재배포해야 함
- 추가 맥락은 FAQ에서 확인 가능하고, 직접 지원이 필요하면 Railway Station에 스레드를 열 수 있음
-
Homepage
-
개발자
- 사고 보고서: Google Cloud에 의해 차단된 Railway [해결됨]