[아이뉴스24 박진영 기자] "네이버는 시스템 복구와 서비스 연속성 확보를 위한 7단계 서비스·인프라 이중화 체계를 가지고 있다. 각 서비스는 레벨에 따라 비상시에 자동으로 혹은 수동으로 즉시 복구될 수 있도록 돼 있다"
박원기 네이버클라우드 대표는 14일 온라인으로 열린 '네이버클라우드 서밋 2022'에서 최근 판교 IDC 화재라는 재해 상황에도 네이버 서비스에는 영향도가 거의 없었던 이유에 대해 이같이 밝혔다.
박 대표는 "(네이버의) 모든 서비스에는 이원화가 적용돼 있다"면서 "복수 IDC 구성, GSLB를 통한 트래픽 자동 전환, 서비스 모듈화 및 다중 분산 인프라 구성, IDC 간 DB 상호 백업 등을 통해 재난상황 발생 시에도 서비스 연속성을 유지할 수 있도록 대비하고 있다"고 설명했다.
이어 "이번 재해에도 핵심 서비스들은 이중화된 인프라로 자동 전환됐으며, 대응 팀은 다른 IDC에서 서비스 트래픽과 부하를 받을 수 있도록 조치함으로써 빠르게 서비스를 정상화할 수 있었다"고 전했다.
네이버는 서비스는 중요도에 따라 자동 또는 수동으로 이중화 조치 돼 다른 IDC 인프라로 각 서비스들이 전환된다. 서비스 이중화 기준을 IDC 장애시 서비스 가능범위와 서비스 중단 지속시간을 기준으로 4단계의 리커버리 서비스 레벨(Recovery Service Level)과 3단계의 연속성있는 서비스 레벨(Continuous Service Level)로 나누고 있다.
이날 '네이버 서비스의 빠른 복구 비결'을 주제로 세션 발표를 진행한 김도현 네이버클라우드 리더는 "'리커버리 서비스'는 IDC 장애 발생시에 실시간 서비스는 보장하지 않지만 일정 기간 내에 복구할 수 있는 수준이고, '연속성있는 서비스'는 IDC 장애 발생 시, 전체 또는 일부 서비스에 대한 실시간 연속성을 보장하는 수준"이라고 설명했다.
이어 "네이버는 서비스 연속성에 있어서 국내 IDC 이중화를 통해 사용자에게 제공하는 서비스 기능을 일부에게 제한적으로 서비스하는 레벨5를 달성하고 있으며, 국내에서 모든 기능이 연속적으로 가능한 형태의 레벨 6를 적용해 나가고 있다"고 전했다.
김 리더는 이번 판교 데이터센터 화재 사고에서 서비스 복구에서는 레벨3를, 연속성에서는 레벨 5와 6 수준에서 대응을 진행했다고 설명했다. 서비스 복구 레벨 3은 국내 원격 IDC에 서비스용 데이터가 백업돼 있고, 복구용 인프라가 준비돼 있는 것으로 장애가 발생해도 수 시간 내에 서비스 재개가 가능한 상태를 말한다.
아울러 네이버는 이러한 서비스 연속성 계획을 실행하기 위해 정기 훈련을 진행한다. 박원기 대표는 "아무리 시스템이 잘 갖추어져 있어도 실행력이 없다면 즉시 대응은 어려울 것"이라면서, "네이버와 네이버클라우드에는 별도의 BCP 조직이 있으며, 최소 연 2회 이상의 모의 훈련을 실시하고 있다"고 강조했다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기