관리 메뉴

세상 모든 잡동사니 집합소 스레TV

[공통 DB] DATA LAKE 본문

기술/HANA DB

[공통 DB] DATA LAKE

스레TV 2025. 6. 22. 16:45
728x90
반응형

Data Lake(데이터 레이크)는 최근 데이터 아키텍처에서 핵심적으로 사용되는 개념으로, 대용량의 다양한 데이터를 원시 형태 그대로 저장하고, 필요 시 처리하거나 분석하는 방식의 저장소입니다.


✅ 한 줄 정의

Data Lake는 정형, 반정형, 비정형 데이터를 원시 형태로 저장하고, 유연하게 분석 및 가공할 수 있도록 설계된 확장형 스토리지 아키텍처입니다.


📦 특징 요약

항목설명
데이터 형식 정형(SQL), 반정형(JSON, XML), 비정형(이미지, 로그, 오디오 등) 모두 가능
저장 구조 원시 데이터(Raw Data)를 그대로 저장
저장소 기술 보통 HDFS, Amazon S3, Azure Blob, GCS 등 객체 스토리지 기반
스키마 적용 시점 읽을 때(Schema-on-Read) → 유연한 분석 가능
처리 방식 대용량 병렬처리 (ex. Spark, Presto, Hive, Athena 등과 연계)
목적 장기 보관, 분석, AI/ML 학습 데이터 기반으로 활용
 

🧱 Data Warehouse vs Data Lake

항목Data WarehouseData Lake
목적 구조화된 데이터 분석 모든 형태의 데이터 저장/처리
데이터 형식 정형 (테이블) 정형 + 반정형 + 비정형
스키마 적용 쓰기 시 (Schema-on-Write) 읽기 시 (Schema-on-Read)
성능 고속 OLAP 쿼리 대용량 병렬 분석에 최적
비용 상대적으로 비쌈 (고성능 스토리지 사용) 저렴함 (객체 스토리지 기반)
 

💡 Data Lake 사용 사례

분야예시
빅데이터 분석 수십억 건의 로그, 센서 데이터 수집 후 Spark로 분석
AI/ML 학습 원시 이미지, 오디오, 텍스트 등을 저장하고 모델 학습에 활용
IoT 플랫폼 디바이스로부터 발생하는 실시간 스트림 저장
장기 데이터 보관 감사를 위한 원본 로그 보관, 데이터 레이크에 보관 후 필요시 처리
 

🚀 SAP HANA Cloud와 Data Lake

SAP는 SAP HANA Cloud Data Lake라는 제품을 통해 데이터 레이크 아키텍처를 제공합니다.

구성 요소설명
HANA DB 인메모리 기반의 고속 DB (Hot/Warm 데이터)
Data Lake (IQ 기반) 대용량 저비용 저장소로, SAP IQ 엔진 기반
연동 SQL로 HANA DB와 Data Lake를 JOIN 가능 (REMOTE TABLE 등)
용도 장기 분석 데이터 저장, 비즈니스 외부 데이터 수집, ML 학습 원천 등
 

🔐 보안 및 관리

  • 권한 관리: 객체 수준 접근 제어 (S3 정책, IAM, XSA RBAC 등)
  • 암호화: 저장 및 전송 시 AES 또는 TLS 기반 암호화
  • 데이터 카탈로그 통합: AWS Glue, Azure Purview, SAP Data Intelligence 등과 연동

✅ 요약 정리

항목내용
정의 모든 형태의 데이터를 원시 상태로 저장하고 나중에 처리하는 확장형 저장소
장점 저비용, 유연성, 다양한 데이터 지원
단점 데이터 품질 관리 어려움, 카탈로그/거버넌스 필요
대표 기술 S3, HDFS, Delta Lake, Snowflake, SAP HANA Data Lake
SAP 연동 SAP HANA Cloud와 IQ 기반 Data Lake 구성 가능
300x250
반응형
Comments