요약: 상세요약: 2. 주요 병목 해결 및 최적화 전략 쓰기(Write) 부하 분산: 쿼리 최적화 및 ORM 관리: 커넥션 풀링 (PgBouncer): 캐시 미스 방지 (Cache Locking): 3. 안정성 및 운영 정책 4. 향후 계획 (The Road Ahead)
1. 배경 및 아키텍처 현황
OpenAI의 PostgreSQL 트래픽은 지난 1년 동안 10배 이상 증가하여 현재 8억 명의 사용자와 수백만 QPS(초당 쿼리 수)를 처리하고 있습니다. 놀랍게도 이 규모는 단일 Primary 인스턴스와 전 세계에 분산된 약 50개의 Read Replica 구조로 운영되고 있습니다. 초기 설계의 균열을 막기 위해 OpenAI는 인프라와 애플리케이션 계층 모두에서 대대적인 최적화를 수행했습니다.
현재 구조로도 충분한 확장성을 확보했지만, 향후 더 많은 Read Replica 확장을 위해 Primary가 모든 Replica에 WAL을 전송하는 구조 대신, 중간 Replica가 하위로 WAL을 전달하는 Cascading Replication을 테스트 중입니다. 장기적으로는 PostgreSQL 자체의 샤딩도 고려하고 있습니다.

2 weeks ago
9










English (US) ·