728x90
반응형
SMALL

자격증/빅데이터전문가 5

[상식/IT] 빅데이터 분석 도구, R

R의 이해와 설치 R이란? R은 통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경이다. R의 통계 분석으로는 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 작업이 가능하다. R의 그래픽 표현 및 보고 작성 기능을 이용하여 막대형 그래프, 원형 그래프, 3차원 그래프 등 다양한 출력이 가능하다. R은 다음과 같은 특징을 가지고 있다: 통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경 통계 분석 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 기능 그래픽 표현 및 보고 작성 막대형 그래프, 원형 그래프, 3차원 그래프 등 출력 GNU GPL Version 2 라이선스에 의하여 관리 Windows, L..

[상식/IT] 빅데이터 저장소 관리 - 몽고DB (MongoDB)

빅데이터 저장소의 또 하나의 큰 흐름으로 NoSQL을 들 수 있다. 이러한 NoSQL의 철학을 그대로 구현한 저장소 플랫폼 중 하나가 바로 MongoDB이다. MongoDB는 문서 지향 데이터베이스 및 더블 링크드 리스트 구조를 가지고 있다는 특징이 있다. MongoDB 특징 - 문서 지향 데이터베이스 - 더블 링크드 리스트 구조 문서 지향 데이터베이스의 특징으로, 문서와 배열의 개념을 도입하고 있다. 또한 복잡한 계층 관계를 단순한 하나의 레코드로 표현 가능하며, NoSQL 데이터베이스의 철학을 따르고 있다. 문서 지향 데이터베이스 - 문서(document)와 배열(array)의 개념 도입 - 복잡한 계층 관계를 하나의 레코드로 표현 가능 - NoSQL 데이터베이스 한편, MongoDB는 더블 링크드 ..

[상식/IT] 빅데이터 저장소 관리 - 하둡 명령어

하둡 명령어 ls : 파일(폴더) 조회 - 파일(폴더)를 조회하는 명령 > hadoop fs - Is / Found 1 items drwxr-xr-x - hadoop supergroup 0 2019-02-22 06:08 / user put : 파일 올리기 - 로컬 파일을 HDFS에 저장하는 명령 > hadoop fs - put 파일명 get : 파일 가져오기 - HDFS의 파일을 로컬로 가져오는 명령 > hadoop fs - get 파일명 cp : 파일 복사하기 - HDFS의 파일을 HDFS 상에서 복사 > hadoop fs - cp myData.txt myData2.txt rm : 파일 삭제하기 - HDFS의 파일을 삭제하기 > hadoop fs - rm myData2.txt chmod : 권한 변경 ..

[상식/IT] 빅데이터 저장소 개요

CAP 이론 빅데이터의 저장소를 다루기에 앞서, 일반적인 저장소에서 다루는 CAP 이론의 세 가지 요소인 일관성(consistency), 가용성(availability), 지속성(partition tolerance)에 대한 이해가 필수이다. 기존의 RDBMS는 지속성의 관점에서 충족하지 못하였으나, 최근 빅데이터 시대가 대두되며 지속성을 만족하는 빅데이터 저장소가 필수가 되어가고 있다. 일관성Consistency: 모든 노드는 동일 시점에 동일 데이터 출력이 보장 가용성Availability: 노드가 이용 불가능해도 다른 노드 정상 작동 보장 지속성Partition Tolerance: 데이터 손실이 발생해도 시스템 정상 작동 보장 (RDBMS의 한계) 하둡Hadoop 하둡 분산파일시스템(HDFS) 대용량..

[상식/IT] 빅데이터의 수집 방법

빅데이터 자동화 수집 기술 네트워크 수집 - 크롤링(Crawling) : 사전 정의 패턴에 따라 정해진 네트워크 지접의 데이터 수집 - Open API : 데이터 배포차 제공 인터페이스 로그/센서 수집 - 로그(Log) 수집 : 작동 또는 이용 패턴의 기록 - 센서(Sensor) 수집 : 센서 장치를 이용한 기록(사물인터넷) 빅데이터 수집 사례 JSON(JavaScript Object Notation) - XML 유사 데이터 정형화 방식 - 인터넷 상의 데이터 송수신 방식 - 텍스트 형태, 작은 용량, 빠른 변환 속도 - 프로그래밍 언어 또는 플랫폼 독립적 Flume(플럼) - 2010년 Cloudera 개발, 로그 데이터 수집기 - 분산 데이터 통합 가능, 안정성 가용성 높음 Chukwa (척와) - ..

728x90
반응형
LIST