Data Infrastructure Overview

OLTP/DW/Data Lake 분류, ETL 프로세스, 저장소 계층, 인프라 구성


📚 시리즈 네비게이션

이전현재다음
-OverviewOLTP System

시리즈 목차


🎯 데이터 시스템의 종류

데이터를 다루는 시스템은 목적에 따라 크게 나뉨.

flowchart LR
    subgraph DataSystems["데이터 시스템 분류"]
        OLTP["OLTP<br/>(운영계)"]
        DW["DW<br/>(분석계)"]
        DL["Data Lake<br/>(원시 저장)"]
        DM["Data Mesh<br/>(분산 관리)"]
    end
구분OLTPDW (OLAP)Data Lake
목적업무 처리분석/의사결정원시 데이터 저장
데이터 형태정규화, 현재 상태비정규화, 히스토리정제 안 된 원본
쿼리 패턴단순, 빠름, 소량복잡, 대량, 집계다양함
사용자현업 직원분석가, 경영진데이터 엔지니어
기술 예시Oracle ERP, MySQLOracle DW, TeradataHadoop, S3, Spark

🏗️ DW 시스템 전체 구조

flowchart LR
    subgraph Source["1. 원천"]
        S1["운영 DB"]
        S2["ERP/CRM"]
        S3["파일/로그"]
    end
    
    subgraph ETL["2. 수집/변환"]
        E1["추출"]
        E2["정제/변환"]
        E3["적재"]
    end
    
    subgraph Storage["3. 저장"]
        ST1["스테이징"]
        ST2["ODS"]
        ST3["DW/DM"]
    end
    
    subgraph Usage["4. 활용"]
        U1["대시보드"]
        U2["리포트"]
        U3["OLAP 분석"]
    end
    
    Source --> ETL --> Storage --> Usage

📦 구성 요소별 상세

1. 원천 시스템 (Source)

DW에 데이터를 제공하는 시스템들임.

유형예시
운영 DBERP, CRM, 인사시스템 등의 OLTP DB
파일Excel, CSV, 로그 파일
외부 데이터공공 API, 외부 기관 데이터

2. ETL (Extract, Transform, Load)

원천에서 DW로 데이터를 이동시키는 과정임.

flowchart LR
    subgraph ETLProcess["ETL 프로세스"]
        E["Extract (추출)<br/>원천에서 데이터 가져오기"]
        T["Transform (변환)<br/>정제, 형식 변환<br/>코드 매핑, 집계"]
        L["Load (적재)<br/>목표 시스템에 저장<br/>전체/증분 적재"]
        
        E --> T --> L
    end

ETL vs ELT:

구분ETLELT
변환 위치중간 서버목표 시스템 (DW)
적합 환경전통적 DW클라우드, 빅데이터
장점변환 후 깨끗한 데이터 적재원본 보존, 유연한 변환

주요 ETL 도구:

도구설명
Informatica PowerCenter엔터프라이즈 ETL 시장 점유율 높음
Oracle ODIOracle 환경에 최적화
Talend오픈소스 기반
AWS Glue클라우드 기반 서버리스 ETL

3. DW 저장소 계층

데이터가 저장되는 구조. 보통 여러 계층으로 나뉨.

flowchart TB
    subgraph Layers["DW 저장소 계층 구조"]
        direction TB
        Staging["[1] Staging Area<br/>원천 데이터 임시 저장<br/>변환 전 원본 상태"]
        ODS["[2] ODS<br/>운영 데이터 통합 저장<br/>정제됨, 히스토리 짧음<br/>실시간/준실시간 조회용"]
        DW["[3] DW (Data Warehouse)<br/>전사 통합 데이터 저장소<br/>히스토리 관리 (수년~수십년)<br/>주제별 정규화/비정규화"]
        DM["[4] Data Mart<br/>부서/목적별 부분 데이터<br/>분석에 최적화된 구조<br/>예: 영업 마트, 재무 마트"]
        
        Staging --> ODS --> DW --> DM
    end

Staging vs ODS vs DW vs DM:

계층목적데이터 특성보존 기간
StagingETL 작업 공간원본 그대로단기
ODS운영 통합정제됨, 현재 상태단기~중기
DW전사 분석히스토리 포함장기
DM부서별 분석집계/요약중기

4. BI/분석 도구

DW 데이터를 사용자에게 제공하는 계층임.

기능설명도구 예시
리포팅정형화된 보고서Crystal Reports, SSRS
대시보드실시간 현황판Tableau, Power BI
OLAP다차원 분석 (드릴다운, 슬라이싱)MicroStrategy, Oracle OBIEE
Ad-hoc사용자 자유 분석Excel 연동, 직접 SQL

🖥️ 인프라 구성

DW 시스템을 지탱하는 물리적 인프라임.

flowchart TB
    subgraph Infra["인프라 레이어"]
        Server["서버<br/>DB 서버<br/>ETL 서버<br/>BI 서버"]
        Storage["스토리지<br/>SAN (FC)<br/>NAS<br/>RAID 구성"]
        Network["네트워크<br/>이중화 구성<br/>10G/25G<br/>SAN 스위치"]
        Backup["백업<br/>디스크 백업<br/>테이프<br/>DR 사이트"]
        Security["보안<br/>방화벽<br/>접근제어<br/>암호화"]
    end

서버 구성

용도설명예시
DB 서버DW 데이터베이스 운영Oracle Exadata, x86 + Oracle DB
ETL 서버ETL 작업 수행x86 서버 + Informatica
BI 서버리포트/대시보드 서비스x86 서버 + MicroStrategy

스토리지 구성

구분용도기술
운영 스토리지DB 데이터 저장SAN (FC), NVMe SSD
백업 스토리지백업 데이터 저장NAS, 디스크 어레이
아카이브장기 보관테이프 (LTO)

고가용성 (HA)

계층이중화 방법
서버클러스터 (Active-Active, Active-Standby)
스토리지RAID, 이중 컨트롤러
네트워크이중 경로, 본딩
사이트DR 센터 (재해복구)

📋 제안서 관점에서의 구성

보통 DW 시스템 제안서에서 다루는 항목들임:

구분내용
AS-IS 분석현재 시스템 구성, 문제점, 노후화 현황
TO-BE 설계신규 시스템 구성도, 개선 방안
HW 구성서버/스토리지/네트워크 사양, 수량
SW 구성DB, ETL, BI 라이선스
용량 산정데이터 증가율, 스토리지 용량 계산
이중화/백업HA 구성, 백업 정책, DR
마이그레이션데이터 이관 계획
일정/비용구축 일정, 비용 산출

🔗 관련 문서


🔗 참고 자료