TIL - DW 시스템 및 스토리지 기술 용어 정리

공공 SI 사업 준비 과정에서 접한 데이터웨어하우스 및 인프라 관련 용어들을 정리했음.


📚 학습 배경

대형 공공기관의 DW(데이터웨어하우스) 시스템 노후장비 교체 및 스토리지 증설 사업 제안서를 작성하면서, 평소 잘 다루지 않던 DW/BI 관련 용어들과 고급 스토리지 기술들을 많이 접하게 되었다. MSP 업무에서는 클라우드 인프라 운영이 주였다면, 이번에는 온프레미스 기반의 대용량 데이터 처리 시스템과 엔터프라이즈급 스토리지 아키텍처를 다루게 되어 좋은 학습 기회가 되었음.


🗄️ 데이터웨어하우스 (DW) 기본 개념

DW (Data Warehouse)

  • 다양한 소스 시스템에서 수집된 대용량 데이터를 통합 저장하여 분석 및 의사결정에 활용하는 중앙 집중식 저장소
  • OLTP(운영계)와 달리 OLAP(분석계)에 최적화된 구조
  • 히스토리 데이터 관리 및 다차원 분석 지원

ETL (Extract, Transform, Load)

  • Extract: 원천 시스템에서 데이터 추출
  • Transform: 데이터 정제, 변환, 통합
  • Load: 목표 시스템(DW)에 적재

주요 ETL 솔루션:

  • Informatica PowerCenter: 상용 ETL 도구, 엔터프라이즈급에서 많이 사용
  • Oracle ODI (Data Integrator)
  • Talend: 오픈소스 기반

OLAP (Online Analytical Processing)

  • 다차원 데이터 분석을 위한 기술
  • 사용자가 다양한 관점(차원)에서 데이터를 분석 가능
  • Cube, Drill-down, Roll-up, Slice & Dice 등의 분석 기법

주요 BI/OLAP 솔루션:

  • MicroStrategy (MSTR): 엔터프라이즈 BI 플랫폼
  • Tableau, Power BI: 최근 많이 사용되는 시각화 도구
  • Oracle OBIEE

메타데이터 관리

  • 데이터에 대한 데이터 (Data about data)
  • 테이블 정의, 컬럼 설명, 데이터 계보(lineage), ETL 흐름도
  • 데이터 거버넌스의 핵심 요소

🖥️ 서버 & 컴퓨팅 아키텍처

Oracle Exadata

  • Oracle의 데이터베이스 전용 어플라이언스
  • 서버 + 스토리지 + 네트워크가 일체형으로 구성
  • Smart Scan, Storage Index 등 DB 성능 최적화 기능 내장
  • 주로 대용량 DW나 미션크리티컬 OLTP에 사용

x86 서버

  • Intel/AMD 프로세서 기반 범용 서버
  • HPE ProLiant DL380, Dell PowerEdge R750 등
  • AMD EPYC: 서버용 고성능 프로세서, 많은 코어와 메모리 채널 지원

클러스터 구성

  • Active-Active: 모든 노드가 동시에 서비스를 제공하는 고가용성 구성
  • Active-Standby: 평상시 Active만 서비스, Standby는 장애 대비
  • RAC (Real Application Clusters): Oracle의 클러스터 구성 기술

💾 스토리지 기술

NAS vs SAN

구분NAS (Network Attached Storage)SAN (Storage Area Network)
접근 방식파일 레벨블록 레벨
프로토콜NFS, SMB/CIFSFC, iSCSI, FCoE
용도파일 공유, 백업DB, 가상화, 고성능 애플리케이션
성능상대적으로 낮음높음

SAN 관련 기술

FC (Fibre Channel)

  • 스토리지 전용 고속 네트워크 프로토콜
  • 16Gb/s, 32Gb/s 등 고속 전송 지원
  • SAN 스위치: FC 네트워크의 스위칭 장비
  • HBA (Host Bus Adapter): 서버에서 FC 네트워크 연결하는 어댑터

iSCSI

  • IP 네트워크 기반 블록 스토리지 프로토콜
  • FC보다 저렴하지만 성능은 약간 낮음

RoCE (RDMA over Converged Ethernet)

  • 이더넷 기반 고성능 데이터 전송 기술
  • 25Gb/s, 100Gb/s 등 고속 이더넷에서 사용
  • CPU 오버헤드 최소화

SSD 기술

NVMe (Non-Volatile Memory Express)

  • PCIe 기반 초고속 SSD 인터페이스
  • 기존 SATA/SAS 대비 월등한 성능
  • 레이턴시 극소화, 높은 IOPS

용량 단위

  • 일반적으로 3.84TB, 7.68TB, 15.36TB, 30.72TB 등의 단위로 제공

RAID 구성

RAID 레벨설명장단점
RAID 0스트라이핑 (분산 저장)성능 ↑, 안정성 ✗
RAID 1미러링 (복제)안정성 ↑, 용량 50%
RAID 5패리티 1개 (1개 디스크 장애 허용)균형있는 구성
RAID 6패리티 2개 (2개 디스크 장애 허용)안정성 ↑↑, 쓰기 성능 ↓
RAID 10RAID 1+0 (미러링+스트라이핑)성능+안정성 ↑, 용량 50%

Hot Spare

  • 장애 대비 예비 디스크
  • 디스크 장애 발생 시 자동으로 대체되어 RAID 재구성

📦 백업 & 재해복구

백업 계층 구조

  1. 1차 백업: 디스크 기반 (ZFS, Disk Array)
    • 빠른 백업/복구
    • 증분 백업 (Incremental Backup)
  2. 2차 백업: 테이프 기반 (PTL)
    • 소산 백업 (Off-site Backup)
    • 장기 보관용

ZFS (Zettabyte File System)

💡 ZFS에 대한 자세한 내용은 리눅스 파일시스템 개요 및 비교 포스트 참고

  • Oracle의 고급 파일시스템
  • 데이터 무결성 검증 (Checksum)
  • 스냅샷, 복제, 압축 기능 내장
  • Copy-on-Write 방식

PTL (Physical Tape Library)

  • 테이프 기반 대용량 백업 장치
  • 로봇 암으로 테이프 자동 교체
  • LTO (Linear Tape-Open): 테이프 저장 규격
    • LTO-8: 12TB (압축 30TB)
    • LTO-9: 18TB (압축 45TB)

RMAN (Recovery Manager)

  • Oracle DB 전용 백업/복구 도구
  • Full Backup: 전체 백업
  • Incremental Backup: 증분 백업 (변경분만)
  • PITR (Point-In-Time Recovery): 특정 시점으로 복구

DR (Disaster Recovery)

  • 재해복구센터 구성
  • DWDM (Dense Wavelength Division Multiplexing): 장거리 광전송 기술
  • SharePlex: DB 데이터 실시간 복제 솔루션
  • RPO (Recovery Point Objective): 복구 시점 목표
  • RTO (Recovery Time Objective): 복구 시간 목표

🛡️ 데이터베이스 & 보안

Oracle Database

  • 12c → 19c 업그레이드: 최근 엔터프라이즈 표준
  • RAC: 클러스터 구성으로 고가용성 제공
  • Partitioning: 대용량 테이블 분할 관리 (Range, Hash, List)
  • Compression: 데이터 압축으로 스토리지 절감

DB 보안 솔루션

  • DB 접근제어: 사용자 인증 및 권한 관리
  • DB 암호화: 컬럼 단위 or 테이블스페이스 암호화
  • 감사(Audit): DB 접근 이력 기록 및 분석

모니터링 솔루션

  • MaxGauge: DB 성능 실시간 모니터링
  • EnSighter: DB 모니터링 및 튜닝
  • Jennifer: WAS 성능 모니터링 (APM)

🌐 네트워크 기술

이중화 (Redundancy)

  • 장애 대비를 위해 구성요소를 2중화
  • 네트워크 경로, 전원, 컨트롤러 등 이중화
  • Fail Over: 장애 시 자동으로 대기 시스템으로 전환
  • Load Balancing: 부하를 여러 경로/서버에 분산

네트워크 장비

  • NIC (Network Interface Card): 10GbE, 25GbE, 100GbE
  • SFP/QSFP: 광 트랜시버 모듈
  • SNMP: 네트워크 장비 관리 프로토콜

📋 프로젝트 관리 용어

계약 관련

  • 제안요청서 (RFP): Request For Proposal
  • 공동수급체/컨소시엄: 복수 업체 공동 입찰
  • 하도급: 원수급자가 일부 업무를 타 업체에 위탁
  • 직접구매: 발주기관이 조달청 통해 SW 직접 구매

산출물/문서

  • M/M (Man-Month): 인력 투입 공수 단위 (1명×1개월)
  • WBS (Work Breakdown Structure): 작업 분류 체계
  • EA (Enterprise Architecture): 전사 아키텍처
  • BMT (BenchMark Test): 도입 장비 성능 검증

💡 배운 점

1. DW는 단순 데이터 저장소가 아니다

  • 과거에는 DW를 “큰 데이터베이스” 정도로만 생각했는데, 실제로는 ETL 파이프라인, OLAP 엔진, 메타데이터 관리, BI 도구까지 포함하는 통합 분석 플랫폼이었음.
  • 단순히 데이터를 쌓는 게 아니라, 어떻게 정제하고(ETL), 어떻게 조회 성능을 최적화하고(Partitioning, Index), 어떻게 분석할 수 있게 할지(OLAP, BI)까지 고려해야 함.

2. 스토리지는 생각보다 복잡하다

  • MSP에서는 클라우드 EBS, S3 정도만 다뤘는데, 온프레미스 엔터프라이즈 환경에서는 FC SAN, NVMe, RAID 구성, 백업 계층(Disk→Tape) 등 훨씬 복잡한 구조를 다룸.
  • 특히 성능(IOPS, 대역폭) vs 용량 vs 비용의 trade-off를 고려한 계층형 스토리지 설계가 중요하다는 걸 알게 되었음.

3. 고가용성 설계의 복잡성

  • Active-Active 클러스터, SAN 이중화, 네트워크 이중화, 전원 이중화 등 모든 계층에서의 Redundancy가 필요함.
  • 하나라도 Single Point of Failure가 되면 전체 시스템 가용성이 떨어짐.

4. 공공 SI의 특수성

  • 법규 준수(소프트웨어 진흥법, 전자정부법), 행정안전부 사전협의, EA 등록 등 공공 프로젝트만의 절차가 많음.
  • 하도급 제한(50%), 직접구매 방식, 표준 프레임워크 적용 등 계약/관리적 측면도 중요함.

🔗 참고 자료


📌 Todo

  • Oracle RAC 아키텍처 심화 학습
  • ETL 파이프라인 설계 패턴 공부
  • RAID 성능 비교 실습
  • 스토리지 용량 산정 방법론 정리