클라우드 전문정보

제목 [1부] 하이브리드 클라우드 환경과 재해 복구 전략
등록일 2022-11-15 조회수 1345

아카마이 테크놀로지스 / 김현도 이사

 

1. 재해복구 필요성과 종류별 특징

2022년 10월 15일 판교의 IDC에서 발생한 화재로  IDC 내의 서버 작동에 필요한 접근이 차단되어 국내 주요 메신저 서비스 제공이 불가능 했던 사건은 IT분야와 연관되어 있는 모든 사람들의 인식에 재해 복구 시스템의(Disaster Recovery) 중요성에 대해 각인시키는 효과를 일으켰다.

 


[그림1. 판교 IDC 화재 당시 내부 사진 (출처: 한경신문)]

 

재해 복구 시스템은 예상할 수 없는 재해로부터 서비스의 연속성을 유지하기 위한 보안시스템을 의미한다. 해당 시스템에서 의미하는 재해는 자연적으로 발생하는 지진, 태풍, 홍수 등의 요인과 해킹, 시스템 오류, 외부 공격 및 과부하에 의한 요인들을 광범위하게 가리킨다.

재해 복구 시스템을 통해 IDC별, 인프라 거점별, 지점등과 같이 지역적으로 분리된 서버와 네트워크, 인프라들이 무정지 서비스를 가능할 수 있도록 구성한다.

 



 

적절한 재해 복구 시스템을 마련하려면 비즈니스 연속성에 가장 중요한 시스템과 데이터 및 데이터 복구에 필수적인 단계를 명시한 계획이 필수다. 이 계획에는 백업의 빈도를 명시하는 RPO(복구 시점 목표)와 재해 발생 후 허용 가능한 최대 다운타임을 정의하는 RTO(복구 시간 목표)가 필수로 포함된다. 이러한 측정지표는 조직의 재해 복구 계획을 구성하는 IT 전략, 프로세스, 절차를 선택하는 기준이 되는 최대치를 설정하게 되며, 이 최대치 값에 따라 재해 복구 시스템에 사용되는 인적/물적 자원의 투입량이 결정된다. 조직이 수용할 수 있는 서비스 장애시간의 길이와 조직이 데이터를 백업하는 빈도에 맞게 조직의 재해 복구 전략을 수립할 수 있다. 재해 복구 전략의 핵심 요건 들중 세가지를 꼽아보자면 아래와 같다.

 



 
  • 비즈니스 연속성 계획(Business Continuity Planning)
    BCP는 재해 재난 발생 시 비즈니스 연속성을 유지하기 위한 방법론으로 재해 예방, 대응 및 복구, 유지 보수와 모의훈련을 포함한 절차를 포함하고 있다. 예상치 못한 재해로 인해 업무가 중단될 경우 예방하기 위한 목적으로 갖고 있다.
 


[그림1. 비즈니스 연속성 계획과 재해 복구 방법론 도식 (출처: 위키피디아)]


  • 복구 시점 목표(Recovery Point Objective)
    재해 발생 후 기업이 백업용 스토리지로부터 데이터를 복구하여 정상 운영을 재개해야 하는 최대 데이터 저장 기간을 가리킨다. 이 목표 시점에 따라 최소 백업 빈도가 결정됩니다. 예를 들어, 기업의 RPO가 4시간이라면 어느 시점에 재해가 발생하여 시스템이 중단되더라도 최대 4시간 이내의 데이터로 복구하는 목표를 가지는 것을 의미한다. 따라서 전체 시스템 백업은 최소 4시간마다 이루어져야 한다.
  • 복구 시간 목표(Recovery Time Objective)
    재해 발생 후 기업이 백업용 스토리지로부터 데이터를 복구하여 정상 운영을 재개해야 하는 최대 시간을 말한다. RTO는 기업이 감당 가능한 최대 서비스 중단 시간을 의미한다. 예를 들어 기업의 최대 복구 시간 목표가 2시간이라면 어느 시점에 재해가 발생하여 시스템이 중단되더라도 최대 2시간 이내에 정상 서비스를 수행한다는 의미다.
이러한 요소들을 바탕으로 작성되는 재해 복구 정책은 네가지 형태로 구분하여 정의할 수 있다.

 



 

가. 미러 사이트(Mirror Site)

가장 이상적인 형태의 재해 복구 정책이며 두개 이상의 완전히 활성화된 Active/Active 시스템이 물리적으로 분리되어 운영된다. 두개의 시스템은 실시간 미러링으로 네트워크 구성을 포함하여 어플리케이션 수준까지 완전한 이중화를 구축한다. 서비스 데이터의 최신성을 항상 유지할 수 있으며 높은 안정성과 가용성을 보장하게 되며 이 경우 복구 시점 목표(이하 RPO)와 복구 시간 목표(이하 RTO)는 실시간에 가깝다. 다만 이를 유지하기 위한 높은 초기 투자비용과 유지보수 비용이 부담으로 작용한다.

 

나. 핫 사이트(Hot Site)

미러 사이트와 같이 네트워크 구성을 포함하지 않고 데이터 자체만을 대상으로 이하는 이중화 구성 방식이다. Active/Standby 형태의 시스템이다. Active상태의 시스템 데이터를 실시간으로 Standby상태의 시스템에 유지하며 Standby 시스템은 평상시 서비스트래픽을 처리하는 등의 역할을 수행하지 않는다. 복구 시간 목표는 일반적으로 4시간정도로 설정하게 되며 향후 기술할 재해 복구 시스템 구성들에 비해 유지 보수 비용이 높은 편이다.

 

다. 웜 사이트(Warm Site)

Standby 상태의 시스템을 기본 구성하고 중요도가 높은 자원과 데이터를 대상으로 1일 이상의 주기를 설정하여 백업 데이터를 소산하여 보관한다. 실시간 미러링을 수행하지 않으며 Standby시스템의 구성이 Active시스템과 낮은 유사성을 가진다. 복구 시간 목표는 수일 이상으로 설정되며 핫사이트(Hot Site)구성에 비해 낮은 구축 및 유지비용이 필요하지만 데이터 손실이 높은 수준으로 발생된다는 특징이 있다.

 

라. 콜드 사이트(Cold site)

서비스를 위한 어플리케이션들의 정보를 포함하지 않고 데이터에 한정하여 원격지에 보관하는 형태를 의미한다. 가장 낮은 구축 및 유지 비용이 필요하지만 매우 낮은 복구 신뢰성과 매우 높은 데이터 손실 발생 가능성을 가진다. 복구 시점 목표는 주 단위 이상으로 설정되며 데이터 백업 주기에 재해 복구에 투입되는 인력 시간까지 고려해야 한다.

 



 

2. 퍼블릭 클라우드와 온프레미스, 프라이빗 클라우드, 하이브리드 클라우드의 시대

기존 데이터 센터 중심의 온프레미스 환경은 아마존 웹서비스, 마이크로소프트 애저, 구글 클라우드 플랫폼과 같은 퍼블릭 클라우드 환경을 동시에 사용하는 하이브리드 클라우드 환경으로 빠르게 이동하고 있다.

하이브리드 클라우드는 하나 이상의 프라이빗 클라우드와 하나 이상의 퍼블릭 클라우드의 조합을 사용하는 클라우드 컴퓨팅 모델을 의미한다. 이러한 클라우드 조합이 함께 작동하여 유연하게 혼합된 클라우드 컴퓨팅 서비스를 제공할 수 있으며 인프라와 운영을 일관되게 확장하여 두 환경 모두에서 애플리케이션 워크로드를 관리하는 단일 운영 환경을 제공한다. 비즈니스 요구 사항에 따라 프라이빗 클라우드와 퍼블릭 클라우드간 어플리케이션의 구성을 유연하게 설정하여 갑작스럽게 증가하는 사용자의 요청을 처리하거나 유휴 시간대의 남는 자원을 줄여 비용 효율적인 아키텍쳐를 만드는 등 많은 장점이 있다.

켄틱(Kentik)의 설문 조사에 따르면, 현재 기업의 40%는 스스로를 하이브리드 클라우드 사용자로 분류하며, 두 개 이상의 클라우드 서비스 업체를 이용한다. 기업의 1/3은 자체 데이터센터를 두거나 코로케이션 기반의 온프레미스와 동시에 하나 이상의 클라우드 서비스 업체를 함께 사용하는 하이브리드 클라우드 환경을 운용한다.

 



 

클라우드 환경과 온프레미스의 자원들을 동시에 활용하는 하이브리드 클라우드는 기존 재해 복구 정책들이 가지는 높은 초기 투자비용과 유지비용을 효율화시킬 수 있다는 장점이 있다.

퍼블릭 클라우드에 최소한의 시스템과 네트워크 구성을 배포해두고 자동확장(Auto-Scaling)등의 다양한 방법론을 적용하여 최소한의 유휴자원을 유지했다가 재해 복구 시점에서 빠르게 자원을 투입하는 것이다. 웜 사이트 구성에 준하는 낮은 유지보수 비용을 지출하면서도 미러 사이트 구성에서 기대할 수 있는 신속한 재해 복구 시간을 기대할 수 있다.

하지만 하이브리드 클라우드 환경의 본질적인 해결과제이기도 한 통합 시스템 상태 모니터링은 재해 복구 전략에 동일하게 적용된다. 하이브리드 환경에서 재해 복구 기능을 구현하려 할 때 가장 큰 어려움중 하나는 온프레미스 환경과 퍼블릭 클라우드 환경에 동일한 수준으로 어플리케이션 환경을 유지하는 목표를 달성하는 것이다. 각 환경에 맞는 복구 시간 목표와 복구 시점 목표를 동일하게 맞출수 없기 때문이다. 기업이 사용하고 있는 퍼블릭 클라우드의 컴퓨팅 자산과 사설 네트워크 환경을 높은 수준으로 이해한 상태에서 온프레미스에서 운영 가능한 재해 복구 시점들을 설정해야 하는 부담도 따른다.

시스템 상태 모니터링에 관해 EMA의 연구 책임자는 “네트워크에서 수집하고 분석하는 데이터의 유형은 각종 디바이스 지표부터 넷플로우(NetFlow), 패킷, 로그, 활성 합성 모니터링에 이르기까지 매우 다양하며, 한 업체에서 이 모든 분야를 다 잘 해낼 수는 없다. 대부분은 애초에 모두 다 하려고 시도하지도 않는다”고 말했다.

결과적으로 멀티클라우드 사용자의 35%는 3~5개의 모니터링 툴을 사용한다. 여기에는 로그 관리 툴(48%), 애플리케이션 성능 관리 툴(40%), 오픈소스 툴(34%), 네트워크 성능 관리 툴(25%)이 포함된다.

또한 EMA는 “네트워크 담당자들은 엔드 투 엔드 툴을 찾을 수 없다고 말한다. 데이터센터, AWS, 애저 각각에 대한 시야는 충분히 갖추고 있지만 이것을 하나로 합치지는 못한다”고 지적했다. 엔터프라이즈 스티래티지 그룹(Enterprise Strategy Group)의 밥 랠리버트는 “환경이 훨씬 더 복잡해지고 있다”며, “따라서 복잡한 환경을 간편하게 관리할 수 있게 해주는 매우 정교한 툴을 찾는 것이 앞으로 중요해질 것”이라고 덧붙였다.

 



 

저작권 정책

K-ICT 클라우드혁신센터의 저작물인 『하이브리드 클라우드 환경과 재해 복구 전략』은 K-ICT 클라우드혁신센터에서 아카마이 테크놀로지스 김현도 이사에게 집필 자문을 받아 발행한 전문정보 브리프로, K-ICT 클라우드혁신센터의 저작권정책에 따라 이용할 수 있습니다.
다만 사진, 이미지, 인용자료 등 제3자에게 저작권이 있는 경우 원저작권자가 정한 바에 따릅니다.