Big 데이터 활용 단계별 업무절차, 분석/예측
1. 데이터 수집
① (수집 대상 데이터 선정) 분석에 필요한 수집 대상 데이터를 선정하되 수집 가능성 여부 등을
파악하고 세부 목록 및 항목 작성
② (수집 세부계획 작성) 수집 데이터 유형을 분류하고 관련 수집기술 및 수집주기, 주요 업무 등을
담은 세부 계획 작성
③ (데이터 수집 실행) 수집계획서에 따라 사전 테스트를 진행하여 관련 시스템을 점검한 후 수집활동
진행
[주요 데이터 수집 기술]
[수집 대상 데이터 선정 절차]
{수집 세부계획 수립 절차]
[데이터 유형 분류 내용]
[데이터 유형에 따른 수집 기술]
[데이터 수집 실행 절차]
Crawling 수집 기술 고려사항
[ftp 수집 기술 고려사항]
[Open API 수집 기술 고려사항]
[M2M Aggregator 수집 기술 고려사항]
[Log Aggregator 수집기술 고려사항]
[RDB Aggregator 수집 기술 고려사항]
2. 데이터 저장관리
[데이터 처리 절차]
[데이터 처리 기술 소개]
[데이터 전처리 기술 고려사항]
[데이터 후처리 기술 고려사항]
[데이터 저장처리 절차]
[데이터 저장 방식 소개]
[RDB 테이블 저장 기술 고려사항]
[NoSQL 저장 기술 고려사항]
[분산파일시스템 저장 기술 고려사항]
[데이터 보안관리 업무 절차]
[데이터 보안 기능 요건 및 세부 기술과 적용 단계]
3. 데이터 분석
[데이터 분석 절차]
[빅데이터 분석 기술 소개]
[SW 구축 시 필요 기능(예시)]
[통계적 분석 및 데이터 마이닝 고려사항]
[텍스트마이닝 기술 고려사항]
4. 데이터 제공·이용
[데이터 활용 절차]
5. 빅데이터 분석기술
- 빅데이터 분석기술로는 빅데이터 통계분석, 데이터 마이닝, 텍스트 마이닝, 예측 분석, 최적화,
평판 분석, 소셜 네트워크 분석 등이 있다.
1) 빅데이터 분석을 위한 대표적인 통계 기법
범위 |
기법 |
설명 |
고차원/회귀 분류 분석 |
Lasso |
모형의 예측 성능 향상과 변수선택을 동시에 할 수 있는 기법 |
Ensemble |
단순 모형을 결합하여 고성능 모형을 찾는 방법 |
|
SVM(Support Vector Machine) |
분리된 자료들을 분리하는 가장 좋은 초 평면을 찾는 방법 |
|
군집 분석 |
K-means clustering |
군집의 중심과 자료와의 거리를 최소화 |
Hierarchical clustering |
계층구조를 갖는 군집화 방법 |
|
Model based clustering |
혼합 모형에 기초한 군집분석으로 자료를 군집화하는 동시에 각 군집의 분포를 측정 |
2) 예측분석 주요기법
구분 |
내용 |
추세분석(trend analysis) |
- 기술적 분석의 출발점으로써, 다항 회귀 모형과 유사한 모형을 가정하고 모수의 추정을 통해 예측값을 구하는 분석법 |
평활법(smoothing method) |
- 현재로부터 가장 최근에 관측된 자료에는 큰 가중값을 주고, 과거로 갈수록 그 가중값의 크기를 줄여나가는 일종의 가중평균을 이용한 예측방법 |
자기회귀누적이동평균 (ARIMA)모형에 의한 분석법 |
- 현 시점의 관측값을 과거의 관측값들과 백색잡음이라고 불리는 오차들의 형태로 표현하는 모형으로써, 박스-젠킨스모형이라는 이름으로 가장 많이 사용되고 있음 |
6. 데이터 시각화 기술
- 시각화 기술은 시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화, 인포그래픽 등의
기법이 있다.
범위 |
설명 |
시간 시각화 기술 |
- 분절형과 연속형으로 구분되는데 분절형은 데이터는 특정시점 또는 특정 시간의 구간 값(예: 어떤 시험의 평균 통과율)을 막대그래프, 누적 막대그래프, 점그래프 등으로 표현 - 연속형은 기온 변화 같이 지속적으로 변화하는 값, 시계열 그래프, 계단식 그래프, LOESS 곡선 추정 등으로 표현 |
분포 시각화 기술 |
- 전체 분포와 시간에 따른 분포로 나누어진다. 최대 최소 전체분포를 나타내는 그래프로 전체의 관점에서 각 부분간의 관계를 보여주는 전체 분포는 파이 차트, 도넛 차트, 누적 막대그래프, 인터랙티브 누적 막대그래프 등으로 표현 |
관계 시각화 기술 |
- 각기 다른 변수 사이에서 관계를 찾는 기술로 상관관계, 분포, 비교로 구분할 수 있다. “상관관계”는 스캐터플롯, 스캐터플롯 행렬, 버블차트 등으로 표현 |
비교 시각화 기술 |
- 여러 변수의 비교하는 히트맵, 체르노프 페이스, 스타 차트, 평행좌표 그래프, 다차원척도법(Multi-Dimensional Scaling), 아웃라이어(Outlier) 찾기 등으로 표현 |
공간 시각화 기술 |
- 위치를 점이 찍힌 지도, 선을 그린 지도, 버블을 그린 지도 등으로 특정하고 색상으로 영역을 구분한다. 시간과 공간에 따 라 작은 지도를 하나로 그려 패턴의 변화를 보여주는(예: 실업률 변화 등) 스몰 멀티플이나 애니메이션 확산 지도를 활용 |
인포그래픽 |
- 인포메이션(information)과 그래픽(Graphic)의 합성어로 다량의 정보를 차트, 지도, 다이어그램, 로고, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있다 |