-
6.4_Big 데이터 - 2시험 2019. 5. 27. 16:37
한국 빅데이터 포럼
알기쉬운 빅데이터 분석/활용 가이드 v1.2
http://kbd.or.kr/?pageid=1&page_id=683&uid=5524&mod=document
1. 빅데이터 개요
가. 빅데이터의 정의
- 시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 데이터 범위를 넘어서는 데이터
나. 빅 데이터의 특징
항목
내용
Volume
수십 페타/엑사/제타 바이트 수준의 대규모 Data
Velocity
실시간에 가까운 빠른 속도 처리
Variety
정형/비정형의 다양한 Data
Value
데이터의 가치 및 정확도
Veracity
데이터 진실성
Visualization
시각화된 데이터
다. 빅 데이터 분석 절차 (SDLC)
단계
내용
수집
능동적 데이터 수집
대량의 로그 기록 수집(Chukwa, Scribe, Flume)
RSS와 같은 구독형태의 데이터 수집
정보생산 주체로부터의 직접적인 데이터 수집
수동적 데이터 수집
웹 로봇(Web Robot)
웹 크롤러(Web Crawler)
저장 및 관리
대용량 분산 파일 시스템, HDFS(Hadoop Distributed File System), 인-데이터베이스(In-Database), 인-메모리(In-Memory), NoSQL, 구글 파일 시스템(GFS)
처리 및 분석
텍스트 마이닝(Text Mining), 맵리듀스(MapReduce), 빅 쿼리(Big Query), PPDM(Private Preserving Data Mining)
분석결과 가시화 및 이용
빅데이터 분석 가시화 기술은 비전문가가 데이터 분석을 수행할 수 있는 환경을 제공하는 분석도구 기술과 분석 결과를 함축적으로 표시하고 직관적인 정보를 제공하는 인포그래픽스 기술
데이터 폐기
물리적으로 하드디스크 등을 파기하는 솔루션, 소프트웨어 적으로는 여러 번 덮어쓰기(OverWritting) 등의 기술 등이 있음
HDFS와 같이 데이터를 여러 곳에 복제하여 분산 저장하는 환경에서 모든 데이터의 폐기가 제대로 이루어졌는지 검증 어려움
2. 빅데이터의 구성 및 현황과 기술요소
가. 빅데이터의 구성 및 현황
1) 빅데이터의 구성
2) 빅데이터의 현황
범위
현실적 문제점
기술적 요구사항
수집/공유
- 대용량의 수집 대상 데이터
- 적재시간이 전체 시간의 상당 부분을 차지
- 데이터는 지속적으로 증가함
- 대용량 데이터 수집
- 실시간 수집, 적재시간 단축
- 수평적 확장 용이성
저장/관리
- 데이터 저장과 관리에 고비용 소요
- 저장된 데이터의 효율적 관리가 곤란
- 용량한계 봉착 시 확장 곤란(기술, 비용)
- 대용량 데이터 저장
- 수평적 확장 용이성
- 데이터 저장에 낮은 TCO실현
처리
- 데이터 처리, 연산에 고비용 소요
- 장시간의 처리로 데이터의 적시성 부족
- 다차원 데이터의 고속 연산
- 다중 노드로 분산/병렬처리
분석
- 데이터 분석에 많은 연산 시간과 고비용 소요
- 통계적 분석 기법의 프로그램 구현과 검증 문제
- IT에 능통한 통계 및 분석 전문가의 부족 또는 부재
- 검증된 통계적 기법 기반의 고급 분석
- 실시간 또는 준 실시간 분석
- 사용자와 상호작용하는 탐색적 데이터 분석
시각화/활용
- 분석된 빅데이터의 해석과 의미 파악 곤란
- 다차원 빅데이터의 효율적인 비교 분석 방법 부재
- 대용량 데이터의 요약적, 직관적 표현
- 다차원 데이터의 비교, 분석적 표현
- 실시간 인지 및 실시간 대응
관리
- 다수 장비로 구성된 인프라의 관리 곤란
- 각각 영역별로 특화된 다양한 기술요소들이 사용
- 오픈소스 기반인 경우 관리도구가 부족 또는 부재
- 처리, 분석관련 비즈니스로직이 분산되어 관리 곤란
- 오픈소스를 보완하는 관리도구 제공
- 통합 인프라 관리 체계(설치, 설정, 모니터링/관제 등)
- 수집부터 활용까지 각 영역을 통합하는 비즈니스로직 관리 체계 제공
나. 빅데이터의 기술요소
구분
내용
기술요소
수집
- 조직내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술로 단순 데이터 확보가 아닌 검색/수집/변환을 통해 정제된 데이터를 확보하는 기술
ETL/크롤링 엔진/로그수집기/센싱/RSS/Open API 등
공유
- 서로 다른 시스템 간의 데이터 공유
멀티 테넌트 데이터 공유/협업 필터링 등
저장
- 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리하고, 처리된 데이터를 더 빠르고 쉽게 분석하여 이를 비즈니스 의사결정에 바로 이용하는 기술
병렬 DBMS/하둡(Hadoop)/NoSQL 등
처리
- 엄청난 양의 데이터의 저장, 수집, 관리, 유통, 분석을 처리하는 일련의 기술
실시간 처리/분산 병렬처리/ 인-메모리처리/인-데이터베이스 처리 등
분석
- 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 접근하기 위한 기술로 이미 여러 영역에서 활용해온 기술임
통계분석/데이터 마이닝/텍스트 마이닝/예측분석/최적화/평판 분석/소셜 네트워크 분석 등
시각화
- 자료를 시각적으로 묘사하는 학문으로 빅데이터는 기존의 단순 선형적 구조의 방식으로 표현이 힘들기 때문에 빅데이터 시각화 기술이 필수적임
시간 시각화/분포 시각화/공간 시각화/비교 시각화/관계 시각화/ 인포그래픽 등
3. 빅데이터의 최신 기술 현황
가. 빅데이터 수집기술
- 단순히 기업의 내부와 외부의 분산된 다양한 데이터를 검색하는 것뿐만 아니라 스크라이브(Scribe), 척와(chukwa), 플룸(flume) 등의 다양한 데이터 수집 기술을 통해 수집하고 이렇게 수집한 데이터를 변환, 저장하는 과정까지 포함
- 일반적인 조직 내부에 존재하는 정형 데이터는 로그 수집기를 통해 수집하며 조직외부에 존재하는 비정형 데이터는 크롤링, RSS Reader 또는 소셜 네트워크 서비스에서 제공하는 Open API를 이용한 프로그래밍을 통해 수집
나. 빅데이터 공유기술
[그림] 시멘틱 기술 개념도
- 데이터 공유를 위한 가장 일반 적인 형태로서는 운영계 시스템의 데이터 복제(Replication) 기술과 정보계 시스템을 위한 데이터 웨어하우스의 ETL(Extract, Transformation, Load) 프로세스가 대표적
- 이중 시멘틱 기술은 시멘틱 웹으로 대변되며 정보의 표현을 넘어 인간 지식을 명시적으로 표현, 공재활용 할 수 있는 기술
- 협업 필터링은 많은 사용자들로부터 얻은 기호정보(taste information) 에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법으로 사용자들의 과거의 경향이 미래에서도 그대로 유지 될 것이라는 전제가 있어야 한다.
[그림] 협업필터링의 예
다. 빅데이터 저장기술
- 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리
작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리 하고, 처리된 데이터를 더 빠르고 쉽게 분석하도록 하여 비즈니스 의사 결정에 바로 이용하도록 만드는 기술
- 구글이나 애플, 야후 등에 의해 요소기술로서 상당한 완성도에 도달
- 오픈 소스로 Hadoop의 HDFS/Hbase, Cassandra, MongoDB 등이 대 표적, 국내에서도 ETRI의 GloryFS등과 같은 많은 솔루션도 존재
- 하둡(Hadoop)은 저렴한 비용으로 빅데이터 시스템을 구축할 수 있는 장점 때문에 현재 빅데이터의 대표적인 기술로 자리잡고 있음
- 이외에도 SAN, NAS과 같이 기존 저장 기술도 있고, Amazon S3나 OpenStack Swift와 같은 클라우드 파일 저장 시스템, GFS, HDFS와 같은 분산 파일 시스템 등이 모두 대량의 데이터를 저장하기 위한 기술
[그림] 하둡의 분산파일 시스템 HDFS의 처리구조
라. 빅데이터 처리기술
- 엄청난 양의 데이터를 저장․수집․관리․유통․분석을 처리하는 일련의 기술로써 수많은 사용자 요청을 실시간으로 처리한 후 처리 결과를 반환하는 기술
- 인-데이터베이스 및 빅데이터 처리기술은 분산처리 시스템인 하둡과 MongoDB, Kafka, 병렬처리 모델인 맵리듀스, 인메모리 기술인 에스 퍼와 레디스 등으로 발전하고 있음
- 에스퍼 (Esper)는 실시간 처리를 위한 인-메모리 기술 중 CEP(Complex Event Processing)처리 기술로 CEP란 여러 이벤트 소스 로부터 발생한 이벤트를 대상으로 의미 있는 데이터를 추출하여 대응 되는 액션을 수행하는 오픈소스 기술
- 레디스 (Redis:Remote dictionary System)”는 BSD 기반의 오프소스로 VMWare가 인수해서 업그레이드를 진행하고 있다. 인-메모리 기술로서 키/값 저장소로 구성되어 있어 NoSQL 데이터베이스로 분류하기도 한다. 메시지 큐(Message Queue), 공유 메모리(Shared Memory) 용도로 사용될 수 있어 인스타그램, Stack Overflow, Digg와 같은 기 업들이 실시간 데이터 스트리밍 처리를 위해 활용되고 있다.
마. 빅데이터 분석기술
- 빅데이터 분석기술로는 빅데이터 통계분석, 데이터 마이닝, 텍스트 마이닝, 예측 분석, 최적화, 평판 분석, 소셜 네트워크 분석 등이 있다.
1) 빅데이터 분석을 위한 대표적인 통계 기법
범위
기법
설명
고차원/회귀 분류 분석
Lasso
모형의 예측 성능 향상과 변수선택을 동시에 할 수 있는 기법
Ensemble
단순 모형을 결합하여 고성능 모형을 찾는 방법
SVM(Support Vector Machine)
분리된 자료들을 분리하는 가장 좋은 초 평면을 찾는 방법
군집 분석
K-means clustering
군집의 중심과 자료와의 거리를 최소화
Hierarchical clustering
계층구조를 갖는 군집화 방법
Model based clustering
혼합 모형에 기초한 군집분석으로 자료를 군집화하는 동시에 각 군집의 분포를 측정
2) 예측분석 주요기법
구분
내용
추세분석(trend analysis)
- 기술적 분석의 출발점으로써, 다항 회귀 모형과 유사한 모형을 가정하고 모수의 추정을 통해 예측값을 구하는 분석법
평활법(smoothing method)
- 현재로부터 가장 최근에 관측된 자료에는 큰 가중값을 주고, 과거로 갈수록 그 가중값의 크기를 줄여나가는 일종의 가중평균을 이용한 예측방법
자기회귀누적이동평균 (ARIMA)모형에 의한 분석법
- 현 시점의 관측값을 과거의 관측값들과 백색잡음이라고 불리는 오차들의 형태로 표현하는 모형으로써, 박스-젠킨스모형이라는 이름으로 가장 많이 사용되고 있음
바. 데이터 시각화 기술
- 시각화 기술은 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화, 인포그래픽 등의 기법이 있다.
범위
설명
시간 시각화 기술
- 분절형과 연속형으로 구분되는데 분절형은 데이터는 특정시점 또는 특정 시간의 구간 값(예: 어떤 시험의 평균 통과율)을 막대그래프, 누적 막대그래프, 점그래프 등으로 표현
- 연속형은 기온 변화 같이 지속적으로 변화하는 값, 시계열 그래프, 계단식 그래프, LOESS 곡선 추정 등으로 표현
분포 시각화 기술
- 전체 분포와 시간에 따른 분포로 나누어진다. 최대 최소 전체분포를 나타내는 그래프로 전체의 관점에서 각 부분간의 관계를 보여주는 전체 분포는 파이 차트, 도넛 차트, 누적 막대그래프, 인터랙티브 누적 막대그래프 등으로 표현
관계 시각화 기술
- 각기 다른 변수 사이에서 관계를 찾는 기술로 상관관계, 분포, 비교로 구분할 수 있다. “상관관계”는 스캐터플롯, 스캐터플롯 행렬, 버블차트 등으로 표현
비교 시각화 기술
- 여러 변수의 비교하는 히트맵, 체르노프 페이스, 스타 차트, 평행좌표 그래프, 다차원척도법(Multi-Dimensional Scaling), 아웃라이어(Outlier) 찾기 등으로 표현
공간 시각화 기술
- 위치를 점이 찍힌 지도, 선을 그린 지도, 버블을 그린 지도 등으로 특정하고 색상으로 영역을 구분한다. 시간과 공간에 따 라 작은 지도를 하나로 그려 패턴의 변화를 보여주는(예: 실업률 변화 등) 스몰 멀티플이나 애니메이션 확산 지도를 활용
인포그래픽
- 인포메이션(information)과 그래픽(Graphic)의 합성어로 다량의 정보를 차트, 지도, 다이어그램, 로고, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있다
- 기술사 시험 문제
'시험' 카테고리의 다른 글
8. ETLvsCDC (0) 2019.05.27 7. Data 관리(Meta Data 관리, Data 품질 관리) (0) 2019.05.27 6.4_빅데이터기술 (0) 2019.05.27 6.3_DW Appliance, DW DBMS 특징 vs. OLTP DBMS 특징 (0) 2019.05.27 6.2_매핑정의서, 매핑흐름도 (0) 2019.05.27