Data Infrastructure Overview
OLTP/DW/Data Lake 분류, ETL 프로세스, 저장소 계층, 인프라 구성
📚 시리즈 네비게이션
| 이전 | 현재 | 다음 |
|---|---|---|
| - | Overview | OLTP System |
→ 시리즈 목차
🎯 데이터 시스템의 종류
데이터를 다루는 시스템은 목적에 따라 크게 나뉨.
flowchart LR subgraph DataSystems["데이터 시스템 분류"] OLTP["OLTP<br/>(운영계)"] DW["DW<br/>(분석계)"] DL["Data Lake<br/>(원시 저장)"] DM["Data Mesh<br/>(분산 관리)"] end
| 구분 | OLTP | DW (OLAP) | Data Lake |
|---|---|---|---|
| 목적 | 업무 처리 | 분석/의사결정 | 원시 데이터 저장 |
| 데이터 형태 | 정규화, 현재 상태 | 비정규화, 히스토리 | 정제 안 된 원본 |
| 쿼리 패턴 | 단순, 빠름, 소량 | 복잡, 대량, 집계 | 다양함 |
| 사용자 | 현업 직원 | 분석가, 경영진 | 데이터 엔지니어 |
| 기술 예시 | Oracle ERP, MySQL | Oracle DW, Teradata | Hadoop, S3, Spark |
🏗️ DW 시스템 전체 구조
flowchart LR subgraph Source["1. 원천"] S1["운영 DB"] S2["ERP/CRM"] S3["파일/로그"] end subgraph ETL["2. 수집/변환"] E1["추출"] E2["정제/변환"] E3["적재"] end subgraph Storage["3. 저장"] ST1["스테이징"] ST2["ODS"] ST3["DW/DM"] end subgraph Usage["4. 활용"] U1["대시보드"] U2["리포트"] U3["OLAP 분석"] end Source --> ETL --> Storage --> Usage
📦 구성 요소별 상세
1. 원천 시스템 (Source)
DW에 데이터를 제공하는 시스템들임.
| 유형 | 예시 |
|---|---|
| 운영 DB | ERP, CRM, 인사시스템 등의 OLTP DB |
| 파일 | Excel, CSV, 로그 파일 |
| 외부 데이터 | 공공 API, 외부 기관 데이터 |
2. ETL (Extract, Transform, Load)
원천에서 DW로 데이터를 이동시키는 과정임.
flowchart LR subgraph ETLProcess["ETL 프로세스"] E["Extract (추출)<br/>원천에서 데이터 가져오기"] T["Transform (변환)<br/>정제, 형식 변환<br/>코드 매핑, 집계"] L["Load (적재)<br/>목표 시스템에 저장<br/>전체/증분 적재"] E --> T --> L end
ETL vs ELT:
| 구분 | ETL | ELT |
|---|---|---|
| 변환 위치 | 중간 서버 | 목표 시스템 (DW) |
| 적합 환경 | 전통적 DW | 클라우드, 빅데이터 |
| 장점 | 변환 후 깨끗한 데이터 적재 | 원본 보존, 유연한 변환 |
주요 ETL 도구:
| 도구 | 설명 |
|---|---|
| Informatica PowerCenter | 엔터프라이즈 ETL 시장 점유율 높음 |
| Oracle ODI | Oracle 환경에 최적화 |
| Talend | 오픈소스 기반 |
| AWS Glue | 클라우드 기반 서버리스 ETL |
3. DW 저장소 계층
데이터가 저장되는 구조. 보통 여러 계층으로 나뉨.
flowchart TB subgraph Layers["DW 저장소 계층 구조"] direction TB Staging["[1] Staging Area<br/>원천 데이터 임시 저장<br/>변환 전 원본 상태"] ODS["[2] ODS<br/>운영 데이터 통합 저장<br/>정제됨, 히스토리 짧음<br/>실시간/준실시간 조회용"] DW["[3] DW (Data Warehouse)<br/>전사 통합 데이터 저장소<br/>히스토리 관리 (수년~수십년)<br/>주제별 정규화/비정규화"] DM["[4] Data Mart<br/>부서/목적별 부분 데이터<br/>분석에 최적화된 구조<br/>예: 영업 마트, 재무 마트"] Staging --> ODS --> DW --> DM end
Staging vs ODS vs DW vs DM:
| 계층 | 목적 | 데이터 특성 | 보존 기간 |
|---|---|---|---|
| Staging | ETL 작업 공간 | 원본 그대로 | 단기 |
| ODS | 운영 통합 | 정제됨, 현재 상태 | 단기~중기 |
| DW | 전사 분석 | 히스토리 포함 | 장기 |
| DM | 부서별 분석 | 집계/요약 | 중기 |
4. BI/분석 도구
DW 데이터를 사용자에게 제공하는 계층임.
| 기능 | 설명 | 도구 예시 |
|---|---|---|
| 리포팅 | 정형화된 보고서 | Crystal Reports, SSRS |
| 대시보드 | 실시간 현황판 | Tableau, Power BI |
| OLAP | 다차원 분석 (드릴다운, 슬라이싱) | MicroStrategy, Oracle OBIEE |
| Ad-hoc | 사용자 자유 분석 | Excel 연동, 직접 SQL |
🖥️ 인프라 구성
DW 시스템을 지탱하는 물리적 인프라임.
flowchart TB subgraph Infra["인프라 레이어"] Server["서버<br/>DB 서버<br/>ETL 서버<br/>BI 서버"] Storage["스토리지<br/>SAN (FC)<br/>NAS<br/>RAID 구성"] Network["네트워크<br/>이중화 구성<br/>10G/25G<br/>SAN 스위치"] Backup["백업<br/>디스크 백업<br/>테이프<br/>DR 사이트"] Security["보안<br/>방화벽<br/>접근제어<br/>암호화"] end
서버 구성
| 용도 | 설명 | 예시 |
|---|---|---|
| DB 서버 | DW 데이터베이스 운영 | Oracle Exadata, x86 + Oracle DB |
| ETL 서버 | ETL 작업 수행 | x86 서버 + Informatica |
| BI 서버 | 리포트/대시보드 서비스 | x86 서버 + MicroStrategy |
스토리지 구성
| 구분 | 용도 | 기술 |
|---|---|---|
| 운영 스토리지 | DB 데이터 저장 | SAN (FC), NVMe SSD |
| 백업 스토리지 | 백업 데이터 저장 | NAS, 디스크 어레이 |
| 아카이브 | 장기 보관 | 테이프 (LTO) |
고가용성 (HA)
| 계층 | 이중화 방법 |
|---|---|
| 서버 | 클러스터 (Active-Active, Active-Standby) |
| 스토리지 | RAID, 이중 컨트롤러 |
| 네트워크 | 이중 경로, 본딩 |
| 사이트 | DR 센터 (재해복구) |
📋 제안서 관점에서의 구성
보통 DW 시스템 제안서에서 다루는 항목들임:
| 구분 | 내용 |
|---|---|
| AS-IS 분석 | 현재 시스템 구성, 문제점, 노후화 현황 |
| TO-BE 설계 | 신규 시스템 구성도, 개선 방안 |
| HW 구성 | 서버/스토리지/네트워크 사양, 수량 |
| SW 구성 | DB, ETL, BI 라이선스 |
| 용량 산정 | 데이터 증가율, 스토리지 용량 계산 |
| 이중화/백업 | HA 구성, 백업 정책, DR |
| 마이그레이션 | 데이터 이관 계획 |
| 일정/비용 | 구축 일정, 비용 산출 |
🔗 관련 문서
- DW 스토리지 용어 정리
- (예정) ETL 상세
- (예정) 스토리지 구성 상세
- (예정) 용량 산정 방법