ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 6.4_Big 데이터 - 2
    시험 2019. 5. 27. 16:37

    한국 빅데이터 포럼

    http://kbd.or.kr/

     

    알기쉬운 빅데이터 분석/활용 가이드 v1.2

    http://kbd.or.kr/?pageid=1&page_id=683&uid=5524&mod=document

     

    1. 빅데이터 개요

       . 빅데이터의 정의

         - 시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 데이터 범위를 넘어서는 데이터

     

       . 빅 데이터의 특징

    항목

    내용

    Volume

    수십 페타/엑사/제타 바이트 수준의 대규모 Data

    Velocity

    실시간에 가까운 빠른 속도 처리

    Variety

    정형/비정형의 다양한 Data

    Value

    데이터의 가치 및 정확도

    Veracity

    데이터 진실성

    Visualization

    시각화된 데이터

     

       다. 빅 데이터 분석 절차 (SDLC)

    단계

    내용

    수집

    능동적 데이터 수집

    대량의 로그 기록 수집(Chukwa, Scribe, Flume)

    RSS와 같은 구독형태의 데이터 수집

    정보생산 주체로부터의 직접적인 데이터 수집

    수동적 데이터 수집

    웹 로봇(Web Robot)

    웹 크롤러(Web Crawler)

    저장 및 관리

    대용량 분산 파일 시스템, HDFS(Hadoop Distributed File System), -데이터베이스(In-Database), -메모리(In-Memory), NoSQL, 구글 파일 시스템(GFS)

    처리 및 분석

    텍스트 마이닝(Text Mining), 맵리듀스(MapReduce), 빅 쿼리(Big Query), PPDM(Private Preserving Data Mining)

    분석결과 가시화 및 이용

    빅데이터 분석 가시화 기술은 비전문가가 데이터 분석을 수행할 수 있는 환경을 제공하는 분석도구 기술과 분석 결과를 함축적으로 표시하고 직관적인 정보를 제공하는 인포그래픽스 기술

    데이터 폐기

    물리적으로 하드디스크 등을 파기하는 솔루션, 소프트웨어 적으로는 여러 번 덮어쓰기(OverWritting) 등의 기술 등이 있음

    HDFS와 같이 데이터를 여러 곳에 복제하여 분산 저장하는 환경에서 모든 데이터의 폐기가 제대로 이루어졌는지 검증 어려움

     

    2. 빅데이터의 구성 및 현황과 기술요소

       . 빅데이터의 구성 및 현황

          1) 빅데이터의 구성

          2) 빅데이터의 현황

    범위

    현실적 문제점

    기술적 요구사항

    수집/공유

    - 대용량의 수집 대상 데이터

    - 적재시간이 전체 시간의 상당 부분을 차지

    - 데이터는 지속적으로 증가함

    - 대용량 데이터 수집

    - 실시간 수집, 적재시간 단축

    - 수평적 확장 용이성

    저장/관리

    - 데이터 저장과 관리에 고비용 소요

    - 저장된 데이터의 효율적 관리가 곤란

    - 용량한계 봉착 시 확장 곤란(기술, 비용)

    - 대용량 데이터 저장

    - 수평적 확장 용이성

    - 데이터 저장에 낮은 TCO실현

    처리

    - 데이터 처리, 연산에 고비용 소요

    - 장시간의 처리로 데이터의 적시성 부족

    - 다차원 데이터의 고속 연산

    - 다중 노드로 분산/병렬처리

    분석

    - 데이터 분석에 많은 연산 시간과 고비용 소요

    - 통계적 분석 기법의 프로그램 구현과 검증 문제

    - IT에 능통한 통계 및 분석 전문가의 부족 또는 부재

    - 검증된 통계적 기법 기반의 고급 분석

    - 실시간 또는 준 실시간 분석

    - 사용자와 상호작용하는 탐색적 데이터 분석

    시각화/활용

    - 분석된 빅데이터의 해석과 의미 파악 곤란

    - 다차원 빅데이터의 효율적인 비교 분석 방법 부재

    - 대용량 데이터의 요약적, 직관적 표현 

    - 다차원 데이터의 비교, 분석적 표현

    - 실시간 인지 및 실시간 대응

    관리

    - 다수 장비로 구성된 인프라의 관리 곤란

    - 각각 영역별로 특화된 다양한 기술요소들이 사용

    - 오픈소스 기반인 경우 관리도구가 부족 또는 부재

    - 처리, 분석관련 비즈니스로직이 분산되어 관리 곤란

    - 오픈소스를 보완하는 관리도구 제공

    - 통합 인프라 관리 체계(설치, 설정, 모니터링/관제 등)

    - 수집부터 활용까지 각 영역을 통합하는 비즈니스로직 관리 체계 제공

    . 빅데이터의 기술요소

    구분

    내용

    기술요소

    수집

    - 조직내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술로 단순 데이터 확보가 아닌 검색/수집/변환을 통해 정제된 데이터를 확보하는 기술

    ETL/크롤링 엔진/로그수집기/센싱/RSS/Open API

    공유

    - 서로 다른 시스템 간의 데이터 공유

    멀티 테넌트 데이터 공유/협업 필터링 등

    저장

    - 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리하고, 처리된 데이터를 더 빠르고 쉽게 분석하여 이를 비즈니스 의사결정에 바로 이용하는 기술

    병렬 DBMS/하둡(Hadoop)/NoSQL

    처리

    - 엄청난 양의 데이터의 저장, 수집, 관리, 유통, 분석을 처리하는 일련의 기술

    실시간 처리/분산 병렬처리/ -메모리처리/-데이터베이스 처리 등

    분석

    - 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 접근하기 위한 기술로 이미 여러 영역에서 활용해온 기술임

    통계분석/데이터 마이닝/텍스트 마이닝/예측분석/최적화/평판 분석/소셜 네트워크 분석 등

    시각화

    - 자료를 시각적으로 묘사하는 학문으로 빅데이터는 기존의 단순 선형적 구조의 방식으로 표현이 힘들기 때문에 빅데이터 시각화 기술이 필수적임

    시간 시각화/분포 시각화/공간 시각화/비교 시각화/관계 시각화/ 인포그래픽 등

     

    3. 빅데이터의 최신 기술 현황

    . 빅데이터 수집기술

    - 단순히 기업의 내부와 외부의 분산된 다양한 데이터를 검색하는 것뿐만 아니라 스크라이브(Scribe), 척와(chukwa), 플룸(flume) 등의 다양한 데이터 수집 기술을 통해 수집하고 이렇게 수집한 데이터를 변환, 저장하는 과정까지 포함

    - 일반적인 조직 내부에 존재하는 정형 데이터는 로그 수집기를 통해 수집하며 조직외부에 존재하는 비정형 데이터는 크롤링, RSS Reader 또는 소셜 네트워크 서비스에서 제공하는 Open API를 이용한 프로그래밍을 통해 수집

     

    . 빅데이터 공유기술

    [그림] 시멘틱 기술 개념도

    - 데이터 공유를 위한 가장 일반 적인 형태로서는 운영계 시스템의 데이터 복제(Replication) 기술과 정보계 시스템을 위한 데이터 웨어하우스의 ETL(Extract, Transformation, Load) 프로세스가 대표적

    - 이중 시멘틱 기술은 시멘틱 웹으로 대변되며 정보의 표현을 넘어 인간 지식을 명시적으로 표현, 공재활용 할 수 있는 기술

    - 협업 필터링은 많은 사용자들로부터 얻은 기호정보(taste information) 에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법으로 사용자들의 과거의 경향이 미래에서도 그대로 유지 될 것이라는 전제가 있어야 한다.

    [그림] 협업필터링의

     

    . 빅데이터 저장기술

    - 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리

    작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리 하고, 처리된 데이터를 더 빠르고 쉽게 분석하도록 하여 비즈니스 의사 결정에 바로 이용하도록 만드는 기술

    - 구글이나 애플, 야후 등에 의해 요소기술로서 상당한 완성도에 도달

    - 오픈 소스로 Hadoop HDFS/Hbase, Cassandra, MongoDB 등이 대 표적, 국내에서도 ETRI GloryFS등과 같은 많은 솔루션도 존재

    - 하둡(Hadoop)은 저렴한 비용으로 빅데이터 시스템을 구축할 수 있는 장점 때문에 현재 빅데이터의 대표적인 기술로 자리잡고 있음

    - 이외에도 SAN, NAS과 같이 기존 저장 기술도 있고, Amazon S3 OpenStack Swift와 같은 클라우드 파일 저장 시스템, GFS, HDFS와 같은 분산 파일 시스템 등이 모두 대량의 데이터를 저장하기 위한 기술

    [그림] 하둡의 분산파일 시스템 HDFS 처리구조

     

    . 빅데이터 처리기술

    - 엄청난 양의 데이터를 저장수집관리유통분석을 처리하는 일련의 기술로써 수많은 사용자 요청을 실시간으로 처리한 후 처리 결과를 반환하는 기술

    - -데이터베이스 및 빅데이터 처리기술은 분산처리 시스템인 하둡과 MongoDB, Kafka, 병렬처리 모델인 맵리듀스, 인메모리 기술인 에스 퍼와 레디스 등으로 발전하고 있음

    - 에스퍼 (Esper)는 실시간 처리를 위한 인-메모리 기술 중 CEP(Complex Event Processing)처리 기술로 CEP란 여러 이벤트 소스 로부터 발생한 이벤트를 대상으로 의미 있는 데이터를 추출하여 대응 되는 액션을 수행하는 오픈소스 기술

    - 레디스 (Redis:Remote dictionary System)”는 BSD 기반의 오프소스로 VMWare가 인수해서 업그레이드를 진행하고 있다. -메모리 기술로서 키/값 저장소로 구성되어 있어 NoSQL 데이터베이스로 분류하기도 한다. 메시지 큐(Message Queue), 공유 메모리(Shared Memory) 용도로 사용될 수 있어 인스타그램, Stack Overflow, Digg와 같은 기 업들이 실시간 데이터 스트리밍 처리를 위해 활용되고 있다.

    . 빅데이터 분석기술

    - 빅데이터 분석기술로는 빅데이터 통계분석, 데이터 마이닝, 텍스트 마이닝, 예측 분석, 최적화, 평판 분석, 소셜 네트워크 분석 등이 있다.

    1) 빅데이터 분석을 위한 대표적인 통계 기법

    범위

    기법

    설명

    고차원/회귀 분류 분석

    Lasso

    모형의 예측 성능 향상과 변수선택을 동시에 할 수 있는 기법

    Ensemble

    단순 모형을 결합하여 고성능 모형을 찾는 방법

    SVM(Support Vector Machine)

    분리된 자료들을 분리하는 가장 좋은 초 평면을 찾는 방법

    군집 분석

    K-means clustering

    군집의 중심과 자료와의 거리를 최소화

    Hierarchical clustering

    계층구조를 갖는 군집화 방법

    Model based clustering

    혼합 모형에 기초한 군집분석으로 자료를 군집화하는 동시에 각 군집의 분포를 측정

    2) 예측분석 주요기법

    구분

    내용

    추세분석(trend analysis)

    - 기술적 분석의 출발점으로써, 다항 회귀 모형과 유사한 모형을 가정하고 모수의 추정을 통해 예측값을 구하는 분석법

    평활법(smoothing method)

    - 현재로부터 가장 최근에 관측된 자료에는 큰 가중값을 주고, 과거로 갈수록 그 가중값의 크기를 줄여나가는 일종의 가중평균을 이용한 예측방법

    자기회귀누적이동평균 (ARIMA)모형에 의한 분석법

    -  현 시점의 관측값을 과거의 관측값들과 백색잡음이라고 불리는 오차들의 형태로 표현하는 모형으로써, 박스-젠킨스모형이라는 이름으로 가장 많이 사용되고 있음

    . 데이터 시각화 기술

    - 시각화 기술은 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화, 인포그래픽 등의 기법이 있다.

    범위

    설명

    시간 시각화 기술

    -  분절형과 연속형으로 구분되는데 분절형은 데이터는 특정시점 또는 특정 시간의 구간 값(: 어떤 시험의 평균 통과율)을 막대그래프, 누적 막대그래프, 점그래프 등으로 표현

    - 연속형은 기온 변화 같이 지속적으로 변화하는 값, 시계열 그래프, 계단식 그래프, LOESS 곡선 추정 등으로 표현

    분포 시각화 기술

    - 전체 분포와 시간에 따른 분포로 나누어진다. 최대 최소 전체분포를 나타내는 그래프로 전체의 관점에서 각 부분간의 관계를 보여주는 전체 분포는 파이 차트, 도넛 차트, 누적 막대그래프, 인터랙티브 누적 막대그래프 등으로 표현

    관계 시각화 기술

    -  각기 다른 변수 사이에서 관계를 찾는 기술로 상관관계, 분포, 비교로 구분할 수 있다. “상관관계”는 스캐터플롯, 스캐터플롯 행렬, 버블차트 등으로 표현

    비교 시각화 기술

    - 여러 변수의 비교하는 히트맵, 체르노프 페이스, 스타 차트, 평행좌표 그래프, 다차원척도법(Multi-Dimensional Scaling), 아웃라이어(Outlier) 찾기 등으로 표현

    공간 시각화 기술

    -  위치를 점이 찍힌 지도, 선을 그린 지도, 버블을 그린 지도 등으로 특정하고 색상으로 영역을 구분한다. 시간과 공간에 따 라 작은 지도를 하나로 그려 패턴의 변화를 보여주는(: 실업률 변화 등) 스몰 멀티플이나 애니메이션 확산 지도를 활용

    인포그래픽

    - 인포메이션(information)과 그래픽(Graphic)의 합성어로 다량의 정보를 차트, 지도, 다이어그램, 로고, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있다

     

     

    - 기술사 시험 문제

    '시험' 카테고리의 다른 글

    8. ETLvsCDC  (0) 2019.05.27
    7. Data 관리(Meta Data 관리, Data 품질 관리)  (0) 2019.05.27
    6.4_빅데이터기술  (0) 2019.05.27
    6.3_DW Appliance, DW DBMS 특징 vs. OLTP DBMS 특징  (0) 2019.05.27
    6.2_매핑정의서, 매핑흐름도  (0) 2019.05.27
Designed by Tistory.