시험

Big 데이터 - 정제와분석

다인해인해찬 2019. 5. 29. 10:20

빅데이터 - 정제와 분석 편

 

  • 빅데이터 정제

    • 다양한 매체로부터 데이터 수집하여 원하는 형태로 변환하여 빅데이터화 한 후 원하는 장소에 저장하고 저장된 데이터를 활용할 수 있는지 품질 확인하고 관리

    • 빅데이터 정제 과정

    • 빅데이터 처리(전처리 - Pre processing)

      • 구조화 되지 않은 비정형 데이터를 처리 가능한 형태의 구조적 형태로 교정

      • 처리기술

        • Kafka

        • Cascading

        • Tika

        • Summingbird

    • 빅데이터 저장(후처리- Post processing)

      • 처리 과정을 통해 확보된 빅데이터의 형태나 구성을 체계적으로 저장하기 위한 계획수립하며 모니터링을 통해 빅데이터 품질을 관리

      • 데이터의 유형, 크기 등 고려하여 빅데이터 저장소의 용량 산정하여 가장 적합한 장소 선정

      • 빅데이터 저장 후에는 집계(Aggregation), 일반화(Generalization), 정규화(Normalization) 통해 데이터 일관성 높여 줌

      • 빅데이터 저장 방식의 분류

      • 정제 단계가 정확하게 이루어졌는지 빅데이터 분석에 활용 가능한 품질인지 수시로 확인 필요

  • 빅데이터 분석

    • 빅데이터 분석 단계

      • 분석 계획 수립

        • 빅데이터 분석 목적 정의

        • 분석 절차, 사용할 분석 기법 선정

      • 분석 시스템 구축

        • 분석에 필요한 HW, SW의 구성을 파악하고 자체 구축/외부 시스템 활용 결정

    • 분석 기법 종류

      • 통계적 분석

        • R, SAS 등 도구 활용 가능

        • 비즈니스 목적과 경험에 맞는 기준 수립하고 다양한 통계 기법 활용

    • 데이터마이닝

      • 데이터 간의 연관성 분석해 새래온 정보를 찾는데 목적

      • 샘플링 데이터 추출 중요, 데이터 관계/패턴 찾아내 분석이 편한 구성으로 변환 -> 분석 모형 생성 -> 분석결과 데이터 시각화

    • 텍스트 마이닝

      • 텍스트 기반의 데이터로부터 새로운 정보 찾아내는 기법

      • 순환 구조로써 지속적 피드백 수행

      • 텍스트 마이닝 수행 단계

      • 텍스트 마이닝 분석 기법

 



출처: https://address83.tistory.com/169 [즐거운 인생을 위하여]