반응형
Notice
Recent Posts
Recent Comments
160x600
세상 모든 잡동사니 집합소 스레TV
[공통 DB] DATA LAKE 본문
728x90
반응형
Data Lake(데이터 레이크)는 최근 데이터 아키텍처에서 핵심적으로 사용되는 개념으로, 대용량의 다양한 데이터를 원시 형태 그대로 저장하고, 필요 시 처리하거나 분석하는 방식의 저장소입니다.
✅ 한 줄 정의
Data Lake는 정형, 반정형, 비정형 데이터를 원시 형태로 저장하고, 유연하게 분석 및 가공할 수 있도록 설계된 확장형 스토리지 아키텍처입니다.
📦 특징 요약
항목설명
데이터 형식 | 정형(SQL), 반정형(JSON, XML), 비정형(이미지, 로그, 오디오 등) 모두 가능 |
저장 구조 | 원시 데이터(Raw Data)를 그대로 저장 |
저장소 기술 | 보통 HDFS, Amazon S3, Azure Blob, GCS 등 객체 스토리지 기반 |
스키마 적용 시점 | 읽을 때(Schema-on-Read) → 유연한 분석 가능 |
처리 방식 | 대용량 병렬처리 (ex. Spark, Presto, Hive, Athena 등과 연계) |
목적 | 장기 보관, 분석, AI/ML 학습 데이터 기반으로 활용 |
🧱 Data Warehouse vs Data Lake
항목Data WarehouseData Lake
목적 | 구조화된 데이터 분석 | 모든 형태의 데이터 저장/처리 |
데이터 형식 | 정형 (테이블) | 정형 + 반정형 + 비정형 |
스키마 적용 | 쓰기 시 (Schema-on-Write) | 읽기 시 (Schema-on-Read) |
성능 | 고속 OLAP 쿼리 | 대용량 병렬 분석에 최적 |
비용 | 상대적으로 비쌈 (고성능 스토리지 사용) | 저렴함 (객체 스토리지 기반) |
💡 Data Lake 사용 사례
분야예시
빅데이터 분석 | 수십억 건의 로그, 센서 데이터 수집 후 Spark로 분석 |
AI/ML 학습 | 원시 이미지, 오디오, 텍스트 등을 저장하고 모델 학습에 활용 |
IoT 플랫폼 | 디바이스로부터 발생하는 실시간 스트림 저장 |
장기 데이터 보관 | 감사를 위한 원본 로그 보관, 데이터 레이크에 보관 후 필요시 처리 |
🚀 SAP HANA Cloud와 Data Lake
SAP는 SAP HANA Cloud Data Lake라는 제품을 통해 데이터 레이크 아키텍처를 제공합니다.
구성 요소설명
HANA DB | 인메모리 기반의 고속 DB (Hot/Warm 데이터) |
Data Lake (IQ 기반) | 대용량 저비용 저장소로, SAP IQ 엔진 기반 |
연동 | SQL로 HANA DB와 Data Lake를 JOIN 가능 (REMOTE TABLE 등) |
용도 | 장기 분석 데이터 저장, 비즈니스 외부 데이터 수집, ML 학습 원천 등 |
🔐 보안 및 관리
- 권한 관리: 객체 수준 접근 제어 (S3 정책, IAM, XSA RBAC 등)
- 암호화: 저장 및 전송 시 AES 또는 TLS 기반 암호화
- 데이터 카탈로그 통합: AWS Glue, Azure Purview, SAP Data Intelligence 등과 연동
✅ 요약 정리
항목내용
정의 | 모든 형태의 데이터를 원시 상태로 저장하고 나중에 처리하는 확장형 저장소 |
장점 | 저비용, 유연성, 다양한 데이터 지원 |
단점 | 데이터 품질 관리 어려움, 카탈로그/거버넌스 필요 |
대표 기술 | S3, HDFS, Delta Lake, Snowflake, SAP HANA Data Lake |
SAP 연동 | SAP HANA Cloud와 IQ 기반 Data Lake 구성 가능 |
300x250
반응형
'기술 > HANA DB' 카테고리의 다른 글
[HANA] Statement Library (0) | 2025.06.24 |
---|---|
[HANA] HDI(HANA Deployment Infrastructure) (0) | 2025.06.23 |
[HANA] Cockpit Administrator role && Cockpit User Administrator role (0) | 2025.06.21 |
[HANA] SAP HANA Hardware and Cloud Measurement Tool (0) | 2025.06.20 |
[HANA] Statistics Server (0) | 2025.06.19 |
[Hana] Troubleshoot Unresponsive System (1) | 2025.06.18 |
[HANA] Preprocessor server (0) | 2025.06.17 |
Comments