728x90
반응형
SMALL
CAP 이론
빅데이터의 저장소를 다루기에 앞서, 일반적인 저장소에서 다루는 CAP 이론의 세 가지 요소인 일관성(consistency), 가용성(availability), 지속성(partition tolerance)에 대한 이해가 필수이다. 기존의 RDBMS는 지속성의 관점에서 충족하지 못하였으나, 최근 빅데이터 시대가 대두되며 지속성을 만족하는 빅데이터 저장소가 필수가 되어가고 있다.
일관성Consistency: 모든 노드는 동일 시점에 동일 데이터 출력이 보장
가용성Availability: 노드가 이용 불가능해도 다른 노드 정상 작동 보장
지속성Partition Tolerance: 데이터 손실이 발생해도 시스템 정상 작동 보장 (RDBMS의 한계)
하둡Hadoop
- 하둡 분산파일시스템(HDFS)
- 대용량 데이터 처리에 용이
NoSQL
- 비관계형 데이터 저장소
- 데이터의 손실에 대처 가능
레디스Redis
- NoSQL의 일종, 키-값 구조 저장소
- 인메모리 저장소 구조
우지Oozie
- 자바 서블릿 컨테이너 기반 작업 엔진
- DAG 표현 기반 작업(job) 제어
2. 빅데이터 저장소 설계
하둡 분산 파일 시스템 (HDFS)
구성요소
- 네임노드 서버 : 파일의 위치(iNode), 메타정보 관리, 클라이언트 요청
- 보조 네임노드 서버 : 네임노드 서버의 백업 역할, 파일 시스템 복구
- 데이터 노드 서버 : 고정된 크기의 블록 단위로 데이터를 나누어 저장
NoSQL (Not-Only-SQL)
빅데이터 저장소 플랫폼으로 NoSQL은 주목받는 플랫폼이다.
키밸류, 빅테이블, 도큐먼트 등 다양한 데이터 모델을 제공하며, 비정형 데이터에 대응 가능하다.
데이터 모델
- 키밸류(KeyValue) : 특정 값을 고유키와 대응하여 스키마 없이 데이터를 저장하는 유형
- 순차적 키밸류(Ordered KeyValue) : 키밸류 쌍을 순차적으로 저장, 연속성을 부여함으로써 영역 스캔 효율↑
- 빅테이블(Bigtable) : 테이블 형식(Tabular), 2~3단계까지 재귀적 구조 형성 가능
- 도큐먼트(Document) : 객체 데이터베이스(ODBMS)의 파생형. 데이터 구조 깊이에 제한 없음
- 그래프(Graph) : 가변적인 데이터 노드 간 연결 구조제약없는 관계 형성 가능
시스템 구성
1. 마스터-슬레이브(Master-Slave)
- 마스터 노드가 슬레이브/데이터의 메타 정보 관리
- 서버 추가/삭제 작업에 용이
- 마스터에 부하 증가↑
2. 라운드 테이블(Round Table)
- 해시테이블(HashTable) 기반 구조
- 마스터 노드 없음 → 트래픽 분산 용이
- 멤버 노드 추가/삭제 시 데이터 이동 →트래픽 증가
728x90
반응형
LIST