자격증/빅데이터전문가

[상식/IT] 빅데이터 저장소 개요

해요빈 2021. 5. 20. 10:42
728x90
반응형
SMALL

CAP 이론

빅데이터의 저장소를 다루기에 앞서, 일반적인 저장소에서 다루는 CAP 이론의 세 가지 요소인 일관성(consistency), 가용성(availability), 지속성(partition tolerance)에 대한 이해가 필수이다. 기존의 RDBMS는 지속성의 관점에서 충족하지 못하였으나, 최근 빅데이터 시대가 대두되며 지속성을 만족하는 빅데이터 저장소가 필수가 되어가고 있다.

일관성Consistency: 모든 노드는 동일 시점에 동일 데이터 출력이 보장
가용성Availability: 노드가 이용 불가능해도 다른 노드 정상 작동 보장
지속성Partition Tolerance: 데이터 손실이 발생해도 시스템 정상 작동 보장 (RDBMS의 한계)

하둡Hadoop

  • 하둡 분산파일시스템(HDFS)
  • 대용량 데이터 처리에 용이

NoSQL

  • 비관계형 데이터 저장소
  • 데이터의 손실에 대처 가능

레디스Redis

  • NoSQL의 일종, 키-값 구조 저장소
  • 인메모리 저장소 구조

우지Oozie

  • 자바 서블릿 컨테이너 기반 작업 엔진
  • DAG 표현 기반 작업(job) 제어

2. 빅데이터 저장소 설계

하둡 분산 파일 시스템 (HDFS)

구성요소

  1. 네임노드 서버 : 파일의 위치(iNode), 메타정보 관리, 클라이언트 요청
  2. 보조 네임노드 서버 : 네임노드 서버의 백업 역할, 파일 시스템 복구
  3. 데이터 노드 서버 : 고정된 크기의 블록 단위로 데이터를 나누어 저장


NoSQL (Not-Only-SQL)

빅데이터 저장소 플랫폼으로 NoSQL은 주목받는 플랫폼이다.
키밸류, 빅테이블, 도큐먼트 등 다양한 데이터 모델을 제공하며, 비정형 데이터에 대응 가능하다.

데이터 모델
- 키밸류(KeyValue) : 특정 값을 고유키와 대응하여 스키마 없이 데이터를 저장하는 유형
- 순차적 키밸류(Ordered KeyValue) : 키밸류 쌍을 순차적으로 저장, 연속성을 부여함으로써 영역 스캔 효율↑
- 빅테이블(Bigtable) : 테이블 형식(Tabular), 2~3단계까지 재귀적 구조 형성 가능
- 도큐먼트(Document) : 객체 데이터베이스(ODBMS)의 파생형. 데이터 구조 깊이에 제한 없음
- 그래프(Graph) : 가변적인 데이터 노드 간 연결 구조제약없는 관계 형성 가능
시스템 구성
1. 마스터-슬레이브(Master-Slave)
  - 마스터 노드가 슬레이브/데이터의 메타 정보 관리
  - 서버 추가/삭제 작업에 용이
  - 마스터에 부하 증가↑
2. 라운드 테이블(Round Table)
  - 해시테이블(HashTable) 기반 구조
  - 마스터 노드 없음 → 트래픽 분산 용이
  - 멤버 노드 추가/삭제 시 데이터 이동 →트래픽 증가

 

 

728x90
반응형
LIST