Failover & Failback

THE 1995 DevOps Note

기초기술&토픽/네트워크

Failover & Failback

2025. 9. 5. 13:03

🖥️ Failover & Failback 정리

1. Failover (장애 조치)

✅ 정의

서비스 운영 중 장애가 발생했을 때, 대기 중이던 서버나 시스템으로 업무를 자동 전환하는 과정.
목표: 서비스 중단 최소화 (고가용성, HA)

✅ 동작 방식

감지 (Detection)
모니터링 시스템(Heartbeat, Health check 등)이 Primary 서버의 장애를 감지
전환 (Switching)
Standby 서버(Secondary)가 Primary 역할을 이어받음
서비스 유지 (Continuity)
클라이언트 입장에서는 큰 중단 없이 서비스가 유지됨

✅ 종류

Cold Standby: Standby 서버는 꺼져 있다가 장애 시 부팅 → 전환 속도 느림
Warm Standby: Standby 서버는 켜져 있지만 동기화 주기는 느림 → 데이터 손실 가능성 있음
Hot Standby: Primary와 거의 실시간 동기화 → 전환 속도 빠름, 고비용

✅ 예시

DB 이중화 (Oracle RAC, PostgreSQL Replication, MySQL Replication)
Master 장애 → Slave가 Master로 승격
웹 서버 로드밸런싱 (NGINX, AWS ALB, GCP LB)
특정 서버 장애 시 트래픽을 다른 서버로 자동 분산

2. Failback (복구 후 원복)

✅ 정의

장애로 Failover 되었던 시스템이 정상 복구된 후, 다시 원래 Primary 서버로 역할을 돌려주는 과정.

✅ 동작 방식

장애 서버 복구 및 동기화
서비스 안정성 확인
운영 정책에 따라 자동/수동으로 원래 Primary로 역할 반환

✅ 자동 vs 수동

자동 Failback: 복구된 Primary로 서비스가 자동 이동 → 편리하지만 서비스 흔들림 가능
수동 Failback: 관리자가 안정성을 확인 후 직접 원복 → 서비스 안정성↑, 운영 개입 필요

✅ 예시

DB Master가 장애로 Slave로 넘어갔다가, Master 복구 후 다시 Master로 역할 복귀
방화벽 이중화(Active-Standby)에서 Primary 장비 복구 후 다시 트래픽을 Primary로 돌림

3. Failover / Failback 비교표

구분	Failover(장애조치)	Failback(복구 후 원복)
목적	서비스 연속성 유지	운영 환경 원상 복구
발생 시점	Primary 장애 발생	Primary 복구 후
동작 방식	Secondary가 역할 승계	Primary로 역할 복귀
자동화 여부	대부분 자동화	자동/수동 모두 가능

실제 활용 사례

금융 시스템: 은행 전산망은 이중화 + 실시간 Hot Standby 필수
클라우드 서비스: AWS RDS Multi-AZ, GCP Cloud SQL High Availability
네트워크 장비: Cisco ASA, Palo Alto 방화벽 이중화 (Active-Standby)

'기초기술&토픽 > 네트워크' 카테고리의 다른 글

L3 / L4 / L7 스위치 (0)	2025.09.05
DR 서버(Disaster Recovery Server) (0)	2025.09.05

티스토리툴바