top of page

당신의 개인정보, 유출되고 있다? AWS Macie로 안전하게 데이터 관리하기

당신의 개인정보, 유출되고 있다? AWS Macie로 안전하게 데이터 관리하기

당신의 개인정보, 유출되고 있다? AWS Macie로 안전하게 데이터 관리하기

Written by Hyejin Jeon


안녕하세요 스마일샤크의 전혜진입니다.

기업들의 데이터 보안과 개인정보 보호에 대한 중요성이 갈수록 커지고 있습니다.

AWS에서 이렇게 개인식별정보(PII)를 식별하고 보호하기 위한 서비스로 AWS Macie를 제공하고 있는데요, 오늘은 AWS Macie의 주요 기능과 데이터 식별 과정에 대해 알아보고, 이 서비스가 어떻게 조직의 데이터 보안을 강화할 수 있는지 살펴보겠습니다



데이터 유출 비용과 사례

IBM Cost of a Data Breach Report(2023) - 국가 또는 지역별 데이터 유출 비용
IBM Cost of a Data Breach Report(2023) - 국가 또는 지역별 데이터 유출 비용

IBM 시큐리티의 최근 보고서에 따르면, 전 세계적으로 데이터 유출로 인한 평균 비용이 지난 3년간 15% 상승해 445만 달러에 달했습니다. 그중 한국은 아시아 지역 중 일본에 이어 두 번째로 데이터 유출 비용이 큰 국가였습니다.

지난 3년 동안 데이터유출로 인한 한 해 평균 비용은 무려 45억 3,600만 원으로 사상 최고치를 기록했습니다.


기업이 고객의 개인정보를 유출하는 사고 사례
기업이 고객의 개인정보를 유출하는 사고 사례

기업이 고객의 개인정보를 유출하는 사고는 보안 시스템이 취약하거나 백업 본과 같은 데이터 자체의 암호화가 되지 않은 경우도 있지만 개인식별정보(PII)와 같은 민감한 데이터를 마스킹 처리(숨김 처리)하지 않아 발생할 수 있습니다.

개인식별정보(PII)란 이름, 이메일 주소, 주민등록번호, 계좌번호 등의 개인을 식별할 수 있는 정보입니다. 이러한 정보를 마스킹 처리하면 아래와 같은 형태로 숨김 처리됩니다.

💡 개인정보 표시 제한 예시입니다.
 - 이름 : 홍*동
 - 연락처 : 010-****-1234
 - 주소 : 서울 영등포구 영등포로3길 ****
 - 카드번호 : 4558-12**-****-3872
 - 이메일주소 : ma******@abcd.com

이렇게 개인식별정보(PII)를 마스킹 처리하기 위해서는 우선 이 데이터가 민감한 데이터인지를 식별해 내야 하는데요, AWS Macie를 통해 이런 작업을 손쉽게 처리할 수 있습니다.


 

AWS Macie

AWS Macie는 기계학습 및 패턴 매칭을 통해 개인정보와 같은 민감한 데이터를 검색하고 모니터링 및 보호하는 서비스입니다. S3 버킷의 설정이나 객체를 검사하여 잠재적인 데이터 노출 위험성이 있는지 평가할 수 있고, 대시보드를 통해 한눈에 파악할 수 있습니다. 또한 기계학습을 통한 자동적인 데이터 검색뿐만 아니라 기계 학습만으로는 패턴 파악이 어려운 데이터의 경우는 사용자가 직접 수동 작업을 생성하여 민감한 데이터를 식별할 수 있습니다.


주요 기능

1. 민감한 데이터 감지

  • PII(개인식별정보), 금융 데이터, 의료 정보 등을 자동으로 식별 - 기계 학습과 패턴 매칭을 사용하여 다양한 유형의 민감한 데이터를 감지하고 분류합니다.

AWS Macie 주요 기능: 다양한 유형의 민감한 데이터 감지 및 분류
  • 검색 작업을 만들어 수동으로 검색검색 작업을 설정하는 과정에서 AWS 관리형 데이터 식별자와 사용자 정의 데이터 식별자를 지정할 수 있습니다.

AWS Macie 주요 기능: AWS 관리형 데이터 식별자와 사용자 정의 데이터 식별자 지정

2. S3 버킷의 보안 및 데이터 노출 위험 평가

  • S3 버킷의 공개 액세스 여부, 암호화 여부 등의 버킷 설정을 검사하고 데이터를 종합적으로 분석하여 잠재적 보안 위험이 있는지 평가합니다.

AWS Macie 주요 기능: S3 버킷의 보안 및 데이터 노출 위험 평가

3. AWS 서비스와의 통합

  • AWS Organizations, Security Hub, EventBridge와의 통합을 지원합니다.

  • 예) Macie의 결과를 Security Hub에 통합하여 전체적인 보안 상태를 한 곳에서 모니터링 할 수 있습니다.


비용

S3 버킷의 보안 평가는 첫 30일 동안 무료 평가판이 제공되며, 버킷 당 월 0.1 달러가 부과됩니다.

민감한 데이터 검색 기능은 매월 1GB의 데이터 처리는 무료이며, 매월 50TB당 월 1달러가 부과됩니다.


※ 자동 데이터 분석만으로는 감지하기 힘든 패턴의 데이터 유형을 민감한 데이터 검색 작업을 통해 직접 정규식을 지정하여 식별하는 실습을 진행해 보겠습니다.


 

민감한 데이터 검색 작업 생성하기

사전 준비

S3 버킷에 이하 이미지와 같은 개인정보 샘플 데이터를 업로드합니다.

개인정보 샘플 데이터

실습

1. 콘솔에서 Macie를 활성화한 후 작업 생성을 클릭합니다.

콘솔에서 Macie를 활성화 한 후 작업 생성을 클릭합니다.

2. 샘플 데이터를 업로드한 S3 버킷을 선택하고 다음을 눌러 3단계로 이동합니다.

샘플 데이터를 업로드한 S3 버킷을 선택하고 다음을 눌러 3단계로 이동합니다.

3. 일회성 작업을 선택합니다. (실제 환경에서는 예약된 작업에 따라 지속적으로 데이터를 검사하는 것을 권장합니다.)

일회성 작업을 선택합니다. (실제 환경에서는 예약된 작업에 따라 지속적으로 데이터를 검사하는 것을 권장합니다.)

4. (선택) 이 단계에서는 AWS에서 관리형으로 제공하는 민감 데이터 중 어떤 유형의 데이터를 식별할지 설정하는 단계입니다. 현재 등록된 관리형 식별자로는 한국의 주민등록번호와 같은 패턴의 데이터를 식별하진 못합니다. 때문에 실습에서는 아무것도 체크하지 않고 넘어갑니다.

AWS에서 관리형으로 제공하는 민감 데이터 중 어떤 유형의 데이터를 식별할지 설정하는 단계

관리형 데이터 유형에 대한 설명은 아래를 참고해 주세요.

관리 데이터 유형 참고 사이트: 민감한 데이터 자동 검색을 위한 기본 설정

5. 5단계에서는 정규 표현식(regex)을 사용해 사용자 지정 패턴을 설정하고 테스트해 볼 수 있습니다. 주민등록번호를 감지하는 식별자를 생성하고 항목을 체크한 후 다음 단계로 넘어가 작업 생성을 끝마칩니다.

정규 표현식(regex)을 사용해 사용자 지정 패턴을 설정하고 테스트
주민등록번호 감지 식별자 항목 체크 후 작업 생성 완료

결과 확인

작업의 상태가 활성(실행 중)으로 바뀌면 결과 표시를 눌러 결과를 확인할 수 있습니다.

작업 결과 확인

샘플데이터에 등록된 총 30개의 데이터에 대한 주민등록번호를 정확하게 식별해 낸 것 같습니다.

작업 결과: 샘플데이터에 등록된 총 30개의 데이터에 대한 주민등록번호를 정확하게 식별

클릭하여 데이터의 발생 위치도 확인할 수 있습니다.

작업 결과: 데이터 발생 위치 확인 가능

 

마무리

Macie는 관리형 데이터 식별자를 통해 민감한 정보를 자동으로 탐지할 수 있지만, 특정 국가나 지역에 고유한 데이터 패턴(예: 한국의 주민등록번호)을 인식하는 데에는 한계가 있을 수 있습니다. 또한 고급 암호화 데이터를 분석하는 데 어려움이 있을 수 있어, 사용 전 샘플 데이터를 통해 식별이 가능한지 미리 테스트해 볼 필요가 있습니다.

Macie가 제공하는 데이터 스토리지 지원이 S3로 제한되어 있다는 점과, 검사하는 버킷 수와 데이터 크기에 따라 비용이 과금되는 구조로 인해 대규모 데이터셋에 사용할 경우 비용이 상당히 커질 수 있다는 점도 조금 아쉽습니다.


그러나 Macie는 코드를 사용하지 않고 GUI를 통해 편리하게 설정이 가능하며, 다른 AWS 서비스와의 통합이 쉬워 확장성 있는 데이터 보안 아키텍처를 설계할 수 있다는 큰 장점이 있습니다. 또한 버킷과 데이터 범위를 잘 제한하고 30일간의 프리티어 요금제를 활용하면, Macie를 통해 비용효율적으로 데이터를 보호할 수 있습니다.


추가로 Macie는 마스킹 작업을 지원하지 않기 때문에 Glue DataBrew나 Lambda와 같은 서비스를 사용해야 한다는 점 참고해주세요!



조회수 117회댓글 0개

관련 게시물

전체 보기

Comments


bottom of page