시험

Big 데이터 활용 단계별 업무절차, 분석/예측

다인해인해찬 2019. 5. 22. 15:32

 

1. 데이터 수집

① (수집 대상 데이터 선정) 분석에 필요한 수집 대상 데이터를 선정하되 수집 가능성 여부 등을

    파악하고 세부 목록 및 항목 작성

② (수집 세부계획 작성) 수집 데이터 유형을 분류하고 관련 수집기술 및 수집주기, 주요 업무 등을

    담은 세부 계획 작성

③ (데이터 수집 실행) 수집계획서에 따라 사전 테스트를 진행하여 관련 시스템을 점검한 후 수집활동

    진행

 

          [주요 데이터 수집 기술]

          [수집 대상 데이터 선정 절차]

 

          {수집 세부계획 수립 절차]

 

          [데이터 유형 분류 내용]

 

 

          [데이터 유형에 따른 수집 기술]

 

 

          [데이터 수집 실행 절차]

 

          Crawling 수집 기술 고려사항

          [ftp 수집 기술 고려사항]

 

          [Open API 수집 기술 고려사항]

 

          [M2M Aggregator 수집 기술 고려사항]

 

          [Log Aggregator 수집기술 고려사항]

          [RDB Aggregator 수집 기술 고려사항]

2. 데이터 저장관리

 

          [데이터 처리 절차]

 

          [데이터 처리 기술 소개]

 

          [데이터 전처리 기술 고려사항]

 

          [데이터 후처리 기술 고려사항]

 

          [데이터 저장처리 절차]

 

          [데이터 저장 방식 소개]

          [RDB 테이블 저장 기술 고려사항]

          [NoSQL 저장 기술 고려사항]

 

          [분산파일시스템 저장 기술 고려사항]

          [데이터 보안관리 업무 절차]

 

          [데이터 보안 기능 요건 및 세부 기술과 적용 단계]

3. 데이터 분석

 

          [데이터 분석 절차]

          [빅데이터 분석 기술 소개]

 

          [SW 구축 시 필요 기능(예시)]

 

          [통계적 분석 및 데이터 마이닝 고려사항]

 

          [텍스트마이닝 기술 고려사항]

4. 데이터 제공·이용

          [데이터 활용 절차]

 

5. 빅데이터 분석기술

   - 빅데이터 분석기술로는 빅데이터 통계분석, 데이터 마이닝, 텍스트 마이닝, 예측 분석, 최적화,

     평판 분석, 소셜 네트워크 분석 등이 있다.

 

      1) 빅데이터 분석을 위한 대표적인 통계 기법

범위

기법

설명

고차원/회귀 분류 분석

Lasso

모형의 예측 성능 향상과 변수선택을 동시에 할 수 있는 기법

Ensemble

단순 모형을 결합하여 고성능 모형을 찾는 방법

SVM(Support Vector Machine)

분리된 자료들을 분리하는 가장 좋은 초 평면을 찾는 방법

군집 분석

K-means clustering

군집의 중심과 자료와의 거리를 최소화

Hierarchical clustering

계층구조를 갖는 군집화 방법

Model based clustering

혼합 모형에 기초한 군집분석으로 자료를 군집화하는 동시에 각 군집의 분포를 측정

      2) 예측분석 주요기법

구분

내용

추세분석(trend analysis)

- 기술적 분석의 출발점으로써, 다항 회귀 모형과 유사한 모형을 가정하고 모수의 추정을 통해 예측값을 구하는 분석법

평활법(smoothing method)

- 현재로부터 가장 최근에 관측된 자료에는 큰 가중값을 주고, 과거로 갈수록 그 가중값의 크기를 줄여나가는 일종의 가중평균을 이용한 예측방법

자기회귀누적이동평균 (ARIMA)모형에 의한 분석법

-  현 시점의 관측값을 과거의 관측값들과 백색잡음이라고 불리는 오차들의 형태로 표현하는 모형으로써, 박스-젠킨스모형이라는 이름으로 가장 많이 사용되고 있음

6. 데이터 시각화 기술

    - 시각화 기술은 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화, 인포그래픽 등의

      기법이 있다.

범위

설명

시간 시각화 기술

-  분절형과 연속형으로 구분되는데 분절형은 데이터는 특정시점 또는 특정 시간의 구간 값(: 어떤 시험의 평균 통과율)을 막대그래프, 누적 막대그래프, 점그래프 등으로 표현

- 연속형은 기온 변화 같이 지속적으로 변화하는 값, 시계열 그래프, 계단식 그래프, LOESS 곡선 추정 등으로 표현

분포 시각화 기술

- 전체 분포와 시간에 따른 분포로 나누어진다. 최대 최소 전체분포를 나타내는 그래프로 전체의 관점에서 각 부분간의 관계를 보여주는 전체 분포는 파이 차트, 도넛 차트, 누적 막대그래프, 인터랙티브 누적 막대그래프 등으로 표현

관계 시각화 기술

-  각기 다른 변수 사이에서 관계를 찾는 기술로 상관관계, 분포, 비교로 구분할 수 있다. “상관관계”는 스캐터플롯, 스캐터플롯 행렬, 버블차트 등으로 표현

비교 시각화 기술

- 여러 변수의 비교하는 히트맵, 체르노프 페이스, 스타 차트, 평행좌표 그래프, 다차원척도법(Multi-Dimensional Scaling), 아웃라이어(Outlier) 찾기 등으로 표현

공간 시각화 기술

-  위치를 점이 찍힌 지도, 선을 그린 지도, 버블을 그린 지도 등으로 특정하고 색상으로 영역을 구분한다. 시간과 공간에 따 라 작은 지도를 하나로 그려 패턴의 변화를 보여주는(: 실업률 변화 등) 스몰 멀티플이나 애니메이션 확산 지도를 활용

인포그래픽

- 인포메이션(information)과 그래픽(Graphic)의 합성어로 다량의 정보를 차트, 지도, 다이어그램, 로고, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있다