-
Big 데이터 - 정제와분석시험 2019. 5. 29. 10:20
빅데이터 - 정제와 분석 편
-
빅데이터 정제
-
다양한 매체로부터 데이터 수집하여 원하는 형태로 변환하여 빅데이터화 한 후 원하는 장소에 저장하고 저장된 데이터를 활용할 수 있는지 품질 확인하고 관리
-
빅데이터 정제 과정
-
빅데이터 처리(전처리 - Pre processing)
-
구조화 되지 않은 비정형 데이터를 처리 가능한 형태의 구조적 형태로 교정
-
처리기술
-
Kafka
-
Cascading
-
Tika
-
Summingbird
-
빅데이터 저장(후처리- Post processing)
-
처리 과정을 통해 확보된 빅데이터의 형태나 구성을 체계적으로 저장하기 위한 계획수립하며 모니터링을 통해 빅데이터 품질을 관리
-
데이터의 유형, 크기 등 고려하여 빅데이터 저장소의 용량 산정하여 가장 적합한 장소 선정
-
빅데이터 저장 후에는 집계(Aggregation), 일반화(Generalization), 정규화(Normalization) 통해 데이터 일관성 높여 줌
-
빅데이터 저장 방식의 분류
-
정제 단계가 정확하게 이루어졌는지 빅데이터 분석에 활용 가능한 품질인지 수시로 확인 필요
-
빅데이터 분석
-
빅데이터 분석 단계
-
분석 계획 수립
-
빅데이터 분석 목적 정의
-
분석 절차, 사용할 분석 기법 선정
-
분석 시스템 구축
-
분석에 필요한 HW, SW의 구성을 파악하고 자체 구축/외부 시스템 활용 결정
-
분석 기법 종류
-
통계적 분석
-
R, SAS 등 도구 활용 가능
-
비즈니스 목적과 경험에 맞는 기준 수립하고 다양한 통계 기법 활용
-
데이터마이닝
-
데이터 간의 연관성 분석해 새래온 정보를 찾는데 목적
-
샘플링 데이터 추출 중요, 데이터 관계/패턴 찾아내 분석이 편한 구성으로 변환 -> 분석 모형 생성 -> 분석결과 데이터 시각화
-
텍스트 마이닝
-
텍스트 기반의 데이터로부터 새로운 정보 찾아내는 기법
-
순환 구조로써 지속적 피드백 수행
-
텍스트 마이닝 수행 단계
-
텍스트 마이닝 분석 기법
출처: https://address83.tistory.com/169 [즐거운 인생을 위하여]'시험' 카테고리의 다른 글
하이브리드 Cloud (0) 2019.05.30 엣지 (0) 2019.05.29 6.4_알기쉬운 Big 데이터 (0) 2019.05.29 클라우드 (0) 2019.05.28 마이닝 (0) 2019.05.28 -