ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 마이닝
    시험 2019. 5. 28. 10:25

    데이타마이닝

     

    https://itboan.tistory.com/m/entry/data-mining

     

    data mining

     

    itboan.tistory.com

     

    1.정보의 가치발견 통한 기업 의사결정 지원 데이터 마이닝의 개요

    .데이터 마이닝(Data Mining)의 정의

    -대용량의 데이터로부터 알려지지 않은 정보,패턴을 찾아 기업 의사결정에 활용하려는 데이터 분석 및 지식 발견 과정

     

    .데이터 마이닝 추징 배경

    1)비지니스 측면: 비즈니스 모델 예측을 통한 고객 행동 예측 및 패턴 분석, 수익 극대화 ,고객 만족도 향상

    2)정보기술 측면:OLAP로 발견하지 못한 데이터간 관계를 분석하여 효과적인 의사결정 지원

     

    2.데이터 마이닝 기법 및 절차

    .데이터 마이닝 절차

    1)현황분석: 준비작업,목적정의,비즈니스 목적 파악

    2)데이터 선택(Sampling) : 필요한 데이터의 위치,형태파악 및 통합

    3)데이터 정제(Modify): 모호성과 중복 제거, 오류값 보정 (데이터 무결성)

    4)데이터 변환: 불필요한 데이터 삭제,신규파생 데이터 생성

    5)데이터 마이닝(Modeling): 마이닝 기법 선택 수행. 해석 가능한 모델 선정

    6)해석 및 평가(Assess): 마이닝 결과 해석.실제 마케팅에 활용. (지속적 피드백)

    .데이터 마이닝 기법

     

    기법

    내용

    활용사례

    의사결정 나무(Decision Tree)

    기준값 근거 분류 및 예측 모델 생성

    우수고객 분류 모형

    신경망(Neural Network)

    반복적 학습을 통한 패턴도출

    연체자 예측

    연관성 분석(Association)

    데이터 안의 항목간 종속관계 도출

    장바구니 분석

    연속 규칙(Sequence)

    연관규칙에 시간관련 정보 포함

    신차 구입후 NAVI 구매

    군집화(Clustering)

    유사한 특성을 지닌 데이터를 그룹화

    고객 분류 마케팅

     

    3.데이터 마이닝의 적용 사례 및 고려사항

    . 은행의 대출심사,보험의 보험금 지급심사,증권이 주가 예측

    통신의 통화상세 레코드 분석, 유통의 물동량 예측 등에 활용

    .수집된 고객 정보의 불활실성에 의해 분석이 왜곡되는 경우가 많음

    고로 분석의 정확성 보다는 기초 데이터의 내실을 기하는 방안 강구

     

     

     

    [데이터마이닝 개념과 프로세스]

     

     

    1. 데이터마이닝 개념

    미국 IT분야 시장조사 및 컨설팅 전문 업체인 가트너는 데이터 마이닝을 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이용하여 데이터 저장소에 저장된 대용량의 데이터를 조사함으로써 의미 있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이라고 정의했습니다. 그리고 데이터 마이닝 컨설턴트인 Berry와 Linoff는 2000년에 데이터 마이닝을 의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정으로 정의하였습니다.

     

    데이터 마이닝은 주로 지식탐사, 기계학습, 패턴인식, 통계학, 신경망 컴퓨팅 등과 관련해 다양한 분야에서 활용될 수 있는데 이것은 빅데이터 분석에 있어서 가장 기본적인 분석 기술입니다. 각 분야에 대해서 간단히 알아보자면, 지식탐사는 Knowledge Discovery in Database의 약어로 KDD라고도 하는데 데이터베이스 안에 내재된 의미 있는 지식을 추출하는 전 과정이 이에 해당됩니다. 기계학습은 Machine Learning으로 인공지능이라고도 하는데 자동적인 학습 기법을 설계하고 연구하는 분야입니다. 패턴인식이란 계산이 가능한 기계적인 장치(컴퓨터)가 어떠한 대상을 인식하는 문제를 다루는 인공지능의 한 분야로 데이터베이스에서 유용한 패턴을 찾아내는 다양한 기법을 제공합니다. 그리고 통계학은 수량적 비교를 기초로 하여, 많은 사실을 통계적으로 관찰하고 처리하는 방법을 연구하는 학문이고 신경망 컴퓨팅은 신경망 등과 관련된 다양한 학문적 배경을 가진 한 분야입니다. 데이터 마이닝은 통계학과 기계학습으로 알려진 두 학문분야의 합류점에서 존재합니다. 데이터를 탐색하고 모델을 구축하는 다양한

    기법들은 통계학분야에서 오랫동안 존재해 왔고 오늘날 컴퓨터 과학은 기계학습 기법을 제공합니다. 이러한 기계학습 기법은 강력한 계산능력에 의존하며 전통적인 통계모형보다는 덜 구조화되어 있습니다.

     

    텍스트 추가

    사진 삭제

    사진 설명을 입력하세요.

    텍스트 추가

     

     

     

     

    2. 데이터마이닝 프로세스

     

    일반적인 데이터 마이닝 수행 프로세스에 대해서 살펴보겠습니다. 데이터 마이닝 프로세스는 데이터를 추출한 뒤 크게 데이터 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 해석과 평가 단계로 진행됩니다. 그럼 각 프로세스에 대해 자세히 알아보도록 하겠습니다. 먼저 데이터 선택 단계에서는 분석에 사용될 데이터를 파악하기 위해 대량의 데이터베이스에서 표본을 추출하는데 이는 상이한 데이터베이스에서 데이터를 합치는 것을 의미하기도 합니다. 여기서 데이터베이스는 내부데이터이거나 외부데이터일 수 있는데 일반적으로 데이터 마이닝은 매우 큰 데이터베이스를 다룹니다. 데이터 전처리 단계에서는 데이터를 탐색, 정제, 그리고 전처리를 합니다. 전처리란 기본 반응이나 가공에 앞서 화학적 ∙ 물리적 작용을 가하여 예비적으로 하는 처리를 의미합니다.

    즉, 결측치를 어떻게 처리해야 하는지, 각각의 변수에 대해 데이터 값이 합리적인 범위 내에 있는지, 극단치가]존재하는지에 대해서 검토하는 것을 말합니다.

     

    텍스트 추가

    사진 삭제

    사진 설명을 입력하세요.

    텍스트 추가

     

    앞서 언급한 결측치와 극단치 더 나아가 이상치에 대해서 알아보도록 하겠습니다. 결측치(Missing Value)라는 것은 변수 값을 조사나 측정하지 못했을 경우나 변수 값에 대한 정보를 모르는 경우를 의미합니다. 극단치라는 것은 다른 값에 비해 크게 벗어난 값을 의미하는데 이는 비정상적으로 분포를 벗어난 값으로, 이는 측정오류에 의해 발생하는 경우도 있습니다. 더불어 이상치는 평균, 상관계수 추정치 등의 값을 왜곡시킬 수 있다는 특징이 있습니다.

     

    데이터 변환 단계에서는 분석을 위해 데이터를 변환합니다. 불필요한 변수를 제거하고, 변수를 변환하며, 새로운 변수를 생성시키는 등의 작업을 포함합니다. 변수란 모델링에서 사용되는 것으로 독립 변수(Independent Variable), 종속 변수(Dependent Variable) 혹은 기타로 분류할 수 있는데, 독립 변수는 입력 값이나 원인을 나타내며, 종속 변수는 결과물이나 효과를 나타냅니다. 그리고 기타 여러 가지 원인으로 관찰 중인 변수들은 기타 변수라고 합니다.

     

    데이터 마이닝 단계에서는 데이터 마이닝 프로젝트의 목적에 맞도록 분류, 예측 군집 등과 같은 분석유형을 선택합니다. 그리고 각각의 목적에 맞게 회귀분석, 신경망모형, 군집분석 등 사용할 데이터 마이닝 기법들을 선택합니다. 그럼 분석 유형과 데이터 마이닝 기법들에 대해서 살펴보겠습니다. 먼저,

     

    데이터 마이닝 프로세스의 분석 유형에 대해 살펴 보겠습니다. 우선 분류는 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론하는 것으로 예를 틀어 이탈한 고객을 추론할 수 있습니다. 다음으로 예측은 대용량 데이터 집합 내의 패턴을 기반으로 미래를 예측하는 것으로 고객이 제안에 반응을 보이거나 특정 제품을 구매할 확률 등을 예로 들 수 있습니다. 군집이라는 것은 구체적인 특성을 공유하는 자료들을 그룹핑 하는 것인데, 예를 들어 비슷한 행동을 하는 집단을 구분하는 것 등이 이에 해당합니다.

     

    다음으로 데이터 마이닝 프로세스에서 데이터 마이닝 기법들에 대해 알아보도록 하겠습니다. 먼저 회귀분석이라는 것은 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 상관관계를 나타내는 선형 관계식을 구하는 기법입니다. 더불어 이렇게 얻은 모형의 적합도를 측정하는 분석 방법입니다. 신경망모형은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런인 노드를 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델을 구성하는 인공지능 방법을 의미하는 것이며 군집분석은 주어진 데이터들의 특성을 고려해 클러스터를 구성하는 분석방법입니다.

     

    데이터 마이닝 프로세스 과정중 마지막 해석과 평가 단계에서는 분석 결과가 좋은 성과를 가지는지 평가를 하는데 이는 좋은 분석 결과인 경우 향후 업무에 활용할 수 있기 때문입니다. 좋은 분석 결과라는 것은 추출 되어진 패턴이 실제 현장에서 잘 적용될 수 있을 정도로 신뢰성과 정확성을 가지고 있는 것을 의미하는 것입니다. 또한 도출된 패턴이 좋은 분석결과인지 검증을 하고 실무 적용에 대한 타당성을 반드시 확인해야 합니다.

     

    데이터마이닝 수행단계

    데이터 마이닝 전문업체인 SAS는 데이터 마이닝 수행 단계로서 SEMMA를 제시하였는데요. SEMMA는

    샘플링(Sampling)의 S, 탐색인 Exploration의 E, 수정인 Modification의 M, 모델링의 M, 평가인 Assessment의 A, 로 각 과정의 앞머리 글자를 따서 만든 데이터 분석 방법론입니다. 그럼 각 단계에 대해서 알아보겠습니다.

     

    (1) 샘플링은 분석 데이터 생성 단계로 적절한 양의 표본을 원래 자료로부터 추출하는 단계입니다. 이 단계는 시간과 비용을 절약할 수 있는 효율적인 모형을 구축하기 위해 필수적인 단계입니다. 즉, 분석할 데이터를 통계적 추출 혹은 일정한 조건에 따라 추출하는 과정으로 앞으로 수행 할 모델을 평가하기 위한 사전 준비 과정으로 생각할 수 있습니다.

     

    (2) 탐색은 분석 데이터를 탐색하는 단계로 여러 가지 자료의 탐색을 통해 기본적인 정보를 획득하는 단계입니다. 이 단계에서는 데이터 오류를 발견하고 모델의 효율을 증대할 수 있습니다. 또한 데이터 현황을 보고 비즈니스를 이해할 수 있고, 아이디어를 위해 이상현상, 변화 등을 탐색할 수 있습니다.

     

     

    (3) 수정은 분석 데이터를 수정하고 변환하는 단계로 데이터의 효율적인 사용을 위해 수량화, 표준화, 각종 변환, 그룹화 등 여러 가지 방법을 이용합니다. 이를 통해 데이터가 지닌 정보의 표현을 극대화 하고 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성하거나 선택 및 변형하는 단계입니다

     

     

    (4) 모델링은 실제로 어떤 분석모델을 사용할 것인지 모델을 구축하는 과정입니다. 이 단계는 데이터 마이닝의 핵심으로써, 분석 목적에 따라 적절한 기법을 사용하여 예측 모형을 만드는 단계인 것입니다. 이를 통해 데이터의 숨겨진 패턴을 발견하고 현재 제기되고 있는 비즈니스 이슈를 해결할 방법이나 모델을 찾습니다.

     

     

    (5) 평가는 모델의 평가 및 검증이 이루어지는 단계로 모형화 결과에 대한 신뢰성, 유용성 등을 평가하는 단계입니다. 또한 서로 다른 모델을 동시에 비교하여 어떤 모델이 적합할 것인가를 검증하고, 도출된 모델이 얼마나 의미 있는지를 파악하기도 합니다. 이를 통해 검증된 모델에 대해 가설을 확장하거나 추가 분석 수행 여부에 대한 결정을 하기도 합니다.

     

     

     

     

     

    [데이터마이닝 기법]

     

     

    1. 군집분석 (Cluster Analysis)

     

    정의와 방법

    데이터 마이닝 기법 중 군집 분석에 대해 알아보겠습니다. 군집분석이란 데이터 안에 존재하는 알지 못하는 특성들이 있을 때, 데이터 점들이 군집을 이루게 하면서 그 특성들이 나타나도로 하게 하는 것입니다. 군집분석은 유사성을 기초로 그룹화하는 방법과 그룹 내 분산 개념을 기초로 그룹화하는 방법이 있습니다. 여기서 유사성이란 데이터간의 동질성을 의미하는 것이고 그룹 내 분산 개념이란 그룹 내에 존재하는 데이터 간의 산포를 의미하며 그룹간의 분리 정도란 그룹간 차이의 정도를 의미하는 것입니다.

     

    군집 분석 기법

    계층적 군집기법비계층적 군집기법으로 구분할 수 있습니다.

    계층적 기법은 클러스터를 만들어 가는 과정에서 여러 개의 클러스터가 만들어지는 기법이고, 비계층적 기법은 N개의 구성인자를 M개의 클러스터로 분류하는 것입니다. 계층적 군집기법의 알고리즘에는 최단 연결법(Single Linkage Method)이 있는데 이것은 두 군집 사이의 거리를 각 군집에 속하는 임의의 두 데이터들 사이의 거리 중 최단거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다. 비계층적 군집기법의 알고리즘으로는 K-평균 알고리즘이 있습니다. 이것은 K-means Algorithm이라고도 하는데 주어진 데이터를 K개의 클러스터로 묶으면서 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작하는 것입니다.

     

     

     

     

    2. 의사결정나무 분석 (Decision Tree)

     

    의사결정나무 분석은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법입니다.

     

    의사결정나무 분석에는 인공지능, 기계학습 분야에서 개발된 ID3, C4.5, C5.0 알고리즘들과 통계학 분야에서 개발된 카트(CART), 체이드(CHAID) 알고리즘으로 나눌 수 있습니다.

    인공지능, 기계학습 분야에서 개발된 ID3, C4.5, C5.0 알고리즘들에 대해서 살펴보겠습니다. ID3란 기계학습분야에서 데이터로부터 의사결정나무를 생성할 때 사용하는 알고리즘이고, C4.5는 ID3를 확장한 알고리즘입니다.

     

    그리고 C5.0은 C4.5를 개선한 알고리즘입니다. 통계학 분야에서는 카트(CART), 체이드(CHAID) 알고리즘이 개발되었는데, 카트(CART)란 Classification And Regression Trees 의 약어로서, 의사결정 나무를 생성할 때 후보 나무들을 여러 개 생성하고 그 중에서 최적의 나무를 찾아내는 방법입니다. 체이드(CHAID)란 Chi-square Automatic Interaction Detection 약어로서, 통계학의 카이제곱-검정 또는 F-검정을 이용하여 다지 분리(Multiway Split)를 수행하는 알고리즘입니다.

     

     

    3. 연관성 규칙 발견 분석 (Association Rule Discovery)

     

    관성 규칙 발견 분석은 특정의 아이템 집합에서 어떤 아이템 거래가 발생하면 연관성에 따라 다른 특정 아이템의 거래가 발생하는 현상을 발견하고자 하는 분석 기법입니다. 예를 들어 구매자가 특정 아이템 집합인 장바구니에 사과를 넣을 때는 바나나도 같이 넣는 경우가 있다고 가정할 경우 사과와 같이 어떤 아이템 거래가 발생할 때 어떤 연관성에 따라 바나나와 같은 다른 특정 아이템의 거래가 발생하는 상황이 있습니다. 이런 현상을 발견하고자 하는 분석 기법이 연관성 규칙 발견 분석인 것입니다. 이는 마케팅에서 손님의 장바구니에 들어있는 품목간의 관계를 알아본다는 의미에서 장바구니 분석이라고도 합니다. 또한 연관성 규칙은 “상품 A가 구매되어진 경우는 상품 B도 구매된다.” 라고 해석됩니다.

     

     

     

    4. 인공 신경망 (Artificial Neural Network)

     

    인공신경망은 뇌기능의 특성을 컴퓨터 시뮬레이션으로 표현하는 것을 목표로 하는 수학 모델로서 교사 학습비교사 학습 등의 방식이 있습니다. 교사 학습은 교사 신호(정답)의 입력에 의해서 문제에 최적화되어 가는 것으로 명확한 해답이 있는 경우 이용되는 방식입니다. 여기서 교사 신호란 정답과 같은 목표치를 의미하는 것입니다. 비교사 학습은 교사 신호를 필요로 하지 않으며, 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속하는 것입니다. 인공 신경망은 매우 복잡한 구조를 가진 데이터들 사이의 관계나 패턴을 찾아내고 특수한 컴퓨터를 사용하여 구성될 수도 있으나 대부분 일반 컴퓨터에서 응용소프트웨어에 의해 구현됩니다.

     

     

     

    5. 사례기반 추론 (Case-Based Reasoning)

     

    사례기반 추론은 유사한 과거 문제의 해결에 기초해서 새로운 문제를 해결하는 과정입니다. 이것은 귀납법 및 유추법과 유사한 개념으로 단순하면서도 문제 영역이 잘 정형화되지 않는 분야에서 좋은 접근법입니다.

     

    형식화 단계

    사례기반 추론은 컴퓨터 추론 목적으로 형식화될 때 검색, 재사용, 수정 그리고 유지의 단계 과정을 거쳐 적용됩니다.

    검색 단계에서는 대상 문제가 주어지면, 적절한 사례들을 검색하고 하나의 사례는 문제, 해, 해설 등으로 구성됩니다.

    재사용 단계에서는 이전의 사례로부터 대상 문제의 해를 연결합니다. 그리고 수정 단계에서 새로운 해법을 테스트하고 필요하다면 수정을 하게 됩니다. 해법이 성공적으로 대상 문제에 적용된 후에는 마지막 유지단계를 거치는데 이 단계는 새로운 경험이 메모리에 새로운 사례로 저장됨으로써 축적된 경험이 많아져 앞으로 더 잘 문제를 잘 해결하게 해줍니다.

     

     

    6. 유전자 알고리즘 (Genetic Algorithm)

     

    생물의 유전과 진화 메커니즘을 공학적으로 모델링 하여 문제 해결이나 시스템의 학습 등에 응용하는 것입니다. 유전자 알고리즘은 계산 모델을 프로그래밍하여 문제해결 전략을 수립하고 적용함으로써 자연과학, 공학 및 인문 사회 과학 분야에서 계산 불가능한 복잡한 문제를 해결하는 데 널리 응용되고 있습니다.

     

     

     

     

     

     

     

     

     

     

    [수행방법론]

    ■ CRISP-DM (Cross-Industry Standard Process for Data Mining)은 전 세계에서 가장 많이 사용되는 데이터 마이닝 표준 방법론

    초보자나 전문가가 비즈니스 전문가와 함께 모형을 만들어 내는 포괄적인 방법론이며 어떤 산업 분야에도 적용할 수 있는 표준적 데이터마이닝 프로세스



     

     

     

     

     

     

     

     

    제4장 정형 데이터 마이닝

    제4장 정형 데이터 마이닝

     

    학습목표

    데이터 마이닝 이해

    분류 분석 이해

    party와 rpart패키지를 이용한 분류분석 방법 숙지

    예측 분석 기법 이해

    군집 분석 이해

    k-means기법 숙지

    연관 분석 척도 숙지

     

    제1절 데이터 마이닝의 개요

     

    데이터 마이닝 :

    대용량 데이터에서 의미 있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법

     

    1. 데이터 마이닝 추진 단계

     

    1단계 : 목적 설정

    도입 목적을 분명히 한다. 데이터 마이닝을 통해 무엇을 왜 하는지 명확한 목적을 설정해야 한다. 이해 관계자 모두가 동의하고 이해할 수 있어야 한다.

     

    2단계 : 데이터 준비

    여기에 쓰는 데이터는 대부분 용량이 크므로 IT 부서와 사전에 협의해 데이터 접근 부하가 심한 일을 해도 문제가 없을 정도로 일정을 조율하고 도움을 요청한다. 이 단계에서는 데이터 정제를 통해 데이터의 품질을 보장하고 필요하다면 보강해 기법을 적용하는 데에 문제가 없도록 한다.

     

    3단계 : 가공

    데이터를 가공한다. 이 단계에서는 모델링 목적에 따라 목적 변수를 정의하고 필요한 데이터를 데이터 마이닝 스포트웨어에 적용할 수 있도록 적합한 형식으로 가공한다.

     

    4단계 : 기법 적용

    데이터 마이닝 기법은 1단계에서 이미 결정됐어야 바람직하다. 소프트웨어를 사용하는 데 필요한 값을 지정하는 단계이기도 하다.

     

    5단계 : 검증

    마이닝으로 추출한 정보를 검증하는 단계다. 테스트 마케팅이나 과거 데이터를 활용할 수 있다.

    테스트 마케팅을 하는 것과 모델링의 차이를 잘 구분해야 한다.

     

    2. 데이터 마이닝을 위한 데이터 분할

     

    데이터 마이닝을 적용한 후에는 그 결과의 신빙성을 검증해야 한다. 이를 위해 데이터를 일반적으로 구축용, 검정용, 시험용으로 구분한다.

     

    구축용 데이터 : 초기의 데이터 마이닝 모델을 만드는 데 사용되며, 추정용 또는 훈련용이라고도 불린다.

    검정용 데이터 : 구축된 모델의 과잉 또는 과소맞춤 등에 대한 미세조정 절차를 위해 사용되는 데이터다.

    시험용 데이터 : 위의 데이터 마이닝 추진 5단계에서 검증용으로 사용하는 데이터다.

     

    일반적으로 데이터의 구축용(50%), 검정용(30%), 시험용(20%)로 분리한다.

     

    3. 데이터 마이닝 모형 평가

    데이터 마이닝 모형은 프로젝트의 목적과 내용에 따라 달라진다.

     

    제2절 분류분석

     

    1. 분류 모델링

     

    분류분석이란 데이터의 실체가 어떤 그룹에 속하는지 예측하는 데 사용하는 기법이다.

    - 고객 기록을 특정한 등급으로 나눈다는 점에서 클러스터링과 유사하지만, 분류분석은 군집분석과 달리 각 계급이 어떻게 정의되는지 미리 알아야 한다.

     

    분류는 객체를 정해놓은 범주로 분류하는 데 목적이 있다.

     

    분류를 위해 사용되는 데이터 마이닝 기법 :

    최근접 이웃, 의사결정 나무, 베이지안 정리, 인공신경망, 지지도벡터기계, caret

     

    분류 뿐만 아니라 상황을 판단하거나 어떤 분류에 속하는 집단의 특성을 알아내거나 예측을 위해 사용되기도 한다.

     

    가. 의사결정나무

    분류함수를 의사결정 규칙으로 위뤄진 나무 모양으로 그리는 방법이다.

    잎은 분류 결과에 따라 분리된 데이터를 의미한다.

    나무구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 한다.

    계산결과가 의사결정나무에 직접 나타나게 돼 분석이 간편하다.

     

    노드 : 나무 그림에서 타원은 변수에 대한 물음이다.

    최상위 노드는 뿌리 노드라고 부른다.

     

    나. 의사결정나무의 활용

    세분화 : 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성을 발견하는 경우 또는 각 고객이 어떤 집단에 속하는지를 파악하고자 하는 경우다.

    분류 : 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇개의 등급으로 분류하고자 하는 경우다.

    예측 : 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우다.

    차원축수 및 변수선택 : 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 골라내고자 하는 경우다.

    교호작용효과의 파악 : 여러 개의 예측변수들을 결합해 목표변수에 작용하는 규칙(교호작용효과)을 파악하고자 하는 경우다.

    범주의 병합 또는 연속형 변수의 이산화 : 범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 이산화 하고자 하는 경우다.

     

    다. 의사결정나무의 특성

     

    -결과가 누구에게나 설명이 용이하다.

    -정확도가 다른 분류모형에 뒤지지 않는다.

    - 만드는 방법이 계산적으로 복잡하지 않고, 빠르게 만들 수 있으며, 한번 모델링을 하면 소속집단을 모르는 데이터를 분류하는 작업도 매우 빠르게 할 수 있다.

    - 의사결정나무 알고리즘은 비정상적인 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있다.

    - 한 변수와 매우 상관성이 높은 다른 불필요한 변수가 있더라도 의사결정나무는 크게 영향을 받지 않는다. 그러나 불필요한 변수가 많아지면 나무의 크기가 커질 수 도 있으니 분류 전에 불필요한 변수를 제거해야 하는 작업이 필요하다.

     

    R에서 지원되는 분류

    rpart, rpartOrdinal, randomForsest, party, Tree, marginTree, MapTree등 다양한 방법이 있다.

     

    2. 성과분석과 스코어링

     

    가. party 패키지를 이용한 의사결정나무

     

    party 패키지의 핵심

    사용하기 편한 다양한 분류 패키지 중 하나.

    분실값을 잘 처리하지 못하는 문제를 갖는다.

    투입된 데이터 표시가 되지 않거나 predict가 실패하는 경우, 명목변수의 테스트 데이터가 train과 다르게 처리되는 문제가 있다.

     

    나. rpart를 이용한 의사결정나무

    CART와 유사한 트리다.

    예측 오차를 최소화 할 수 있다.

     

    다. 랜덤 포리스트

    random input에 따른 forest of tree를 이용한 분류방법이다.

    대용량 데이터에서 효율적으로 실행된다.

    수천 개의 변수를 통해 변수제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보인다.

    특히 unbalanced된 클래스의 모집단을 잘 지원한다.

     

    제약점 : category variable의 value종류가 32개를 넘을 수 없음. 이에 대한 대안으로

    party 패키지의 randomforest를 사용할 수 있다.

     

    라. ROCR 패키지로 성과분석

     

    다양한 성과분석이 있는데 ROC analysis와 Lift analysis에 대해 알아보자.

     

    ROCR 패키지는 binary classification만 지원한다.

     

    마. caret

    분류 관련 알고리즘이 수십 가지다 보니 각각 형식이 다르고 혼란스럽기까지 하다.

    전체적으로 동일한 형식으로 사용할 수 있도록 한 caret패키지도 있다.

     

    제3절 예측분석

    분류와 예측은 불연속적인 값과 연속적인 값을 목표로 값을 한다는 점에서 차이가 있다.

     

    1. 활용분야

     

    가. 행동예측 유형

    특정행동 예측능력이 뛰어날수록 더욱 정교한 고객관계활동을 전개할 수 있으나, 행동의 결과를 모두 상식적으로 설명할 수 있어야 한다는 것은 잘못된 생각이다.

     

    나. 휴먼 이탈 예측

    다. 등급변동 예측

    라. 신규고객 우수가망 예측

    마. 상품구매 예측

    바. 캠페인 반응예측

     

    2. party 패키지를 이용한 airquality 데이터 선형모델링(lm)

     

    제4절 군집분석

     

    1. 군집분석 개요

     

    군집분석은 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것이다. 결과는 방법에 따라 차이가 날 수 있다.

     

    군집의 개수나 구조에 대한 가정 없이 데이터로부터 거리 기준에 의해 자발적인 군집화를 유도한다.

     

    통계적 기법을 사용하는가 or 임의적으로 나누는가

    통계적 기법은 1, 2세대 알고리즘을 이용해 사용돼 왔으나 실무적용성에 대한 논란이 많았다.

    임의적 방법은 논란의 여기자 많으나 많이 사용돼 왔다.

     

    2, 전통적 군집분석

     

    가. 기존 세분화 방법의 유형

     

    임의로 나누는 방법 : 고객 등급과 고객 구분(신규/기존)이라는 두 변수로 나누거나 현재가치와 미래가치를 기준으로 4분면이나 9개의 집단으로 나누는 등 다양한 방법 존재

     

    통계적 기법을 이용한 방법 : clustering, k-means 등

     

    나. 전통적 세분화 방법의 문제점

     

    전통적 세분화 방법 : 변수를 선정하고 구간대로 나눈 다음, 이를 기준으로 격자형으로 단순히 나누고 집단이 적으면 병합하는 방식과 단순 clustering, k-means가 있다.

     

    단순 격자형은 오랜 시간 소요되고 후처리로 병합할 때 원칙이 명화갛지 않다는 것.

    격자나 cluster, k-means의 공통적인 문제는 변수의 특성으로 인한 변동에 따라 의미 없이 고객집단이 이동하게 된다는 것.

     

    이런 경우 세분화를 안정적으로 관리하면서 전략 수립과 액션을 할 수 없고, 자연스러운 변화에 마치 의미가 있는 것 처럼 이리저리 끌려감. 특히 세분집단의 수가 많은 경우 더 심해짐

     

    해결 하기 위해 k-means에 SRM을 결합한 방식, 세분집단의 변화가 많지 않다.

    집단은 안정적으로 유지, 해당 집단에 속한 고객이 변화.

     

    다. 목표기반 세분화 방법

    고객가치 또는 특정상품을 구매하는 고객을 타깃으로 세분화하는 방법

    해당 집단이 많이 존재하는 집단과 그렇지 않는 집단으로 구분되며, 이러한 집단들도 다른 변수들에 의해 집단의 특성이 구분된다.

     

    라. 프로파일링 방법

    누가 사용해도 동일한 결과가 나오는 프로파일링 기법이 필요하다.

    자동화한 방식으로 세분화가 되고 프로파일링돼야 동일한 데이터에 대해 일관된 품질의 결과가 나오게 된다.

    세분화한 집단의 프로파일링은 집단을 변별하는 가장 유의미한 변수 순서로 표시돼야 하며, 이것 또한 자동으로 이뤄져야 한다. 그리고 고정된 변수로 다양한 세분집단을 비교할 수 있어야 한다.

     

    마. 세분화 수행기간

    일반적으로 세분화를 수행하고 보고서를 작성하는 데 마트 준비부터 총 2개월은 걸린다. 매우 낭비적인 방식이다.

    그래서 나온 방법이 군집분석이다. 일단 군집을 3~10개 정도 사이로 나누어 보면 군집 내에서 분산의 크기 통계에 따라 몇 개로 나누는 경우가 적합한지를 알 수 있고, 그러한 군집 개수 내에서의 프로파일을 보면 한 번에 데이터 전체에 대한 특성을 파악할 수 있다.

     

    바. 세부집단 개수

    마케팅 및 영업 전략수립을 할 때 전략적으로 집단을 MECE하게 나누는데, 이러한 경우 MECE한 집단이 어느 정도는 규모를 갖춰야 의미가 있으므로 보통 3~10개 정도로 나뉜다.

     

    사. 거리

    군집분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단해야 한다. 그 측도로 데이터간의 거리를 이용할 수 있다. 관측값들이 서로 얼마나 유사한지 또는 유사하지 않은지를 측정하는 방법으로 변수들이 연속형인 경우에 다음과 같은 거리들을 사용한다.

     

    유클리드 거리/표준화 거리/ 마할라노비스 거리/체비셰프 거리/ 맨하탄 거리/ 캔버라 거리/ 민코우스키 거리

     

    3. 계층적 군집방법

    계층적 군집방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법이다. 군집분석에서는 관측벡터간의 거리뿐만 아니라 군집간 거리에 대한 정의가 필요하다.

     

    가. 최단연결법

    거리가 가장 가까운 데이터가 U와 V라면, 먼저 두 데이터를 묶어서 군집(UV)을 혈성한다. 다음 단계는 UV와 다른 데이터 또는 군집과의 거리를 계산한다.

     

    나. 최장연결법

    최장연결법은 거리행렬에서 거리가 가장 먼 데이터가 U와 V라면, 우선 두 데이터를 묶어서 군집(UV)을 혈성한다. 다음 단계는 군집(UV)과 나머지 (n-2)개의 다른 데이터 또는 군집과의 거리를 계산한다.

     

    다. 평균연결법

    평균연결법은 거리가 가장 가까운 데이터가 U와 V라면, 두 데이터를 묶어서 군집(UV)을 혈성한다. 다음 단계는 군집(UV)과 나머지 (n-2)개의 다른 데이터나 군집과의 거리를 계산한다. 군집(UV)과 군집 W와의 평균 거리를 다음과 같이 계산한 후 거리행렬 중 가장 가까운 데이터와 다시 군집을 형성 한다.

     

    바. 와드연결법

    와드연결법은 군집내 편차들의 제곱합을 고려한 방법이다. 군집 간 정보의 손실을 최소화 하기 위해 군집화를 진행한다.

     

    4. 비계층적 군집방법

     

    계층적 군집 방법 외에 비계층적인 방법으로 군집으로 군집을 형성할 수 있다.

     

    K-평균법 절차

    1) 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성한다.

    2) 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류한다.

    3) 각 군집의 seed값을 다시 계산한다.

    4) 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복한다.

     

    K-평균법은 계층적 군집 방법과는 달리 한 개체가 속해 있던 군집에서 다른 군집으로 이동해 재배치가 가능하다. 초기값 선택이 최종 군집 선택에 영향을 미친다.

     

    가. 비계층적 군집화의 장점

    1) 주어진 데이터의 내부구조에 대한 사전정보 없이 의미 있는 자료구조를 찾을 수 있는 방법이다.

    2) 다양한 형태의 데이터에 적용가능하다. 즉 관찰치 간의 거리를 데이터형태에 맞게 정의하면 모든 형태의 데이터에 대해 적용이 가능한 방법이다.

    3) 분석방법의 적용이 용이하다.

     

    나. 비계층적 군집화의 단점

    1) 가중치와 거리정의가 어렵다.

    2) 초기 군집수를 결정하기 어렵다.

    3) 사전에 주어진 목적이 없으므로 결과 해석이 어렵다.

     

    5. 최신 군집분석 기법들의 적용

     

    가. K-means

    wine 데이터를 이용하기 위해 HDclassif 패키지 설치

    xlab옵션과 ylab 옵션으로 x축과 y축 이름 설정 가능

     

    나. PAM

    탄탄한 K-means라고 할 수 있다.

    결측값 허용

    프로파일링시 실제 observation으로 표현해주는 장점이 있다.

    대용량 데이터에 대해서는 처리 시간이 급상승한다는 단점을 갖는다.

     

    다. overall cluster.R

    라.Hierarchical Clustering

    마.Density-based Clustering

     

    바. Fuzzy Clustering

    특징 : 숫자변수만 가능하고, NA 허락

    k개의 cluster가 생성되는데 개수는 observation/2개 까지 가능

     

    제5절 연관분석

     

    1. 연관성 규칙

     

    가. 연관성 규칙의 개념

    연광성분석은 흔히 장바구니분석, 서열분석이라 불린다.

     

    교차판매를 할 때 효율적.

    어느 고객이 어떤 제품을 같이 구매할까?

     

    if-then(조건과 반응), "If- A then B"와 같은 형식으로 표현되는 규칙

     

    나. 연관성분석의 측도

    지지도(lift), 신뢰도(confidence), 향상도(lift) 값을 잘 보고 규칙을 선택해야 한다.

    그리고 연관성 분석 Average Duration을 고려해 적용하지 않으면 낭패를 보게 된다.

     

    1) 지지도(Support) :

    전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의된다. 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래가 어느 정도인지를 나타내주며, 전체 구매 경향을 파악할 수 있다.

     

    지지도 = A와 B가 동시에 포함된 거래수 / 전체 거래수

     

    2) 신뢰도 (Confidence) :

    항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률은 어느 정도인가를 나타내주며 연관성의 정도를 파악할 수 있다.

     

    신뢰도 = A와 B를 동시에 포함하는 거래수 / A를 포함하는 거래수

     

    3) 향상도(Lift) :

    A가 주어지지 않았을 때 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율이다. 구매가 서로 관련이 없는 경우에는 향상도가 1이 되고, 만약 1보다 크게 되면 예측이 우연적이기 보다 우수하다는 것을 뜻함. 1보다 작으면 우연적 기회보다 도움이 되지 않음을 의미

     

    향상도 1 = 서로 독립적인 관계

    향상도 < 1 = 음의 상관관계

    향상도 > 1 = 양의 상관관계

     

    향상도 = A와 B를 포함하는 거래수 / A를 포함하는 거래수 X B를 포함하는 거래수

     

    다. 연관규칙분석 절차

    1) 최소 지지도를 정한다.

    2) 개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다.

    3) 2에서 찾은 개별 품목만을 이용해 최소 지지도를 넘는 2가지 품목 집합을 찾는다.

    4) 위의 두 절차에서 찾은 품목 집합을 최소 지지도를 넘는 3가지 품목 집합을 찾는다.

    5) 반복적으로 수행해 최소 지지도가 넘는 빈발품목 집합을 찾는다.

     

    라. 연관규칙의 장점

    1) 매력적인 기법 : 조건 반응으로 표현되는 연관성 분석의 결과 이해가 쉽다.

    2) 강력한 비목적성 분석기법 : 분석 방향이나 목적이 특별이 없는 경우 목적변수가 없으므로 유용하다.

    3) 사용이 편리한 분석 데이터의 형태: 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료구조를 갖는 분석방법이다.

    4) 계산의 용이성: 분석을 위한 계산이 상당히 간단하다.

     

    마. 연관규칙의 단점

    1) 상당한 수익 계산과정 : 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.

    2) 적절한 품목의 결정 : 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미없는 분석이 될 수도 있다.

    3) 품목의 비율차이 : 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고, 규칙 발견 시 제외하기가 쉽다.

     

    바. 순차패턴

    동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성측정에 시간이라는 개념을 포함시켜 순차적인 구매 가능성이 큰 상품군을 찾아내는 것.

     

    구매의 순서가 고려돼 상품 간 연관성이 측정되고 유용한 연관 규칙을 찾는 기법

     

    2. 기존 연관성분석의 이슈

    기존에는 대용량 데이터에 대한 연관성분석이 불가능하다는 점이었다. 또는 너무 당연한 결과를 도출해 활용할 실질성이 낮았다. 그러나 이러한 문제를 해결하기 위해 새로운 알고리즘들이 계속 나오고 있다.

     

    3. 최근 연관성분석 동향

    KXEN에서는 처음부터 1세대 알골즘은 Apriori나 2세대인 FP Tree가 아닌 3세대의 FPV를 이용해 메모리를 효율적으로 사용함으로써 SKU 레벨의 연관성분석을 성공적으로 적용했다.

     

    4. 연관성분석 활용방안

    실시간 상품추천을 통한 교차판매에 응용할 수 있다. 현재 관심이 없고 상호작용이 없ㄴ믄 고객은 타깃팅한다고 해도 성과가 나오지 않는다. 즉 연관성 규칙의 효과와 타깃팅의 효과를 결합해 테스트하는 것이 필요하다.

     

    5. 연관성분석

     

    csv로 "," separator를 사용하는 경우 format이 문제가 생기는 데이터 형태이므로 tab separator를 이용한다.



    출처: https://sinpong.tistory.com/96?category=172577 [새로운 바람]

     

    제5장 비정형 데이터 마이닝

    제5장 비정형 데이터 마이닝

     

    학습목표

    텍스트 마이닝 기법의 이해

    감성분석의 이해

    워드크라우드 기법 이해

    사회연결망 분석 기법 이해

    연결정도 중심성 이해

    근접 중심성 이해

    매개 중심성 이해

    위세 중심성 이해

    사회 연결망 분석을 이용한 마케팅활용방안 고안

     

    제1절 텍스트 마이닝

     

    텍스트로부터 고품질의 정보를 도출하는 과정으로, 입력된 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가 해석하는 일련의 과정을 통칭한다.

     

    문서로부터 텍스트를 추출해 이를 하나의 레코드로 만들어 단어 구성에 따라 마트를 구성하고, 이들 간의 관계를 이용해 감성분석이나 워드 클라우드를 수행하고, 이 정보를 클러스터링이나 분류와 사회연결망 분석에 활용할 수 있다.

     

    1. 텍스트 마이닝 기능 요약

    문서 요약

    문서 분류

    문서 군집

    특성 추출

     

    해당 언어에 대한 깊이 있는 이해와 문화나 관습에 대한 이해도 필요하다.

     

    2. 정보검색의 적절성

    정보검색이나 자연어 처리 분야에서 분석 결과를 평가하기 위해 사용하는 방법 가운데 대표적인 것은

    정확도와 재현율이다.

     

    정확도 : 분석 모델이 경과 중에서 정답과 일치하는 비율

    재현율 : 실제 정답 중에서 분석 모델에서 정답이라고 내놓은 결과의 비율

     

    ex) 트위터 감성분석 / 분석 모델 20개 트위트 메시지를 긍정, 그 중 9개가 실제로 긍정일 경우 정확도 9/20. 트위터에 존재하는 모든 긍정 메시지 수가 100개라면 재현율 9/100

     

    두 개념은 반비례 관계.

     

    가. Corpus

     

    데이터 마이닝의 절차 중 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화의 단계로서 더 이상 추가적인 절차 없이 데이터 마이닝 알고리즘 실험에서 화용될 수 있는 상태를 의미한다.

     

    텍스트 마이닝 패키지인 TM에서 문서를 관리하는 기본 구조를 Corpus라 부르며, 이는 텍스트 문서들의 집합을 의미한ㄷ나.

     

    메모리에서만 유지되는 VCorpus와

    R외부의 DB나 파일로 관리되는 PCorpus가 있다.

     

    언어별 stop word : 한글에서 조사에 해당되며 띄어쓰기 등을 통해 확인할 수 있고, 영어의 경우도 띄어쓰기와 시제 등의 내용을 제거한다.

     

    나 .Create Term-Document Matrix

     

    읽어 들인 문서를 단순하게 처리한 다음 문서번호와 단어 간의 사용 여부 또는 빈도수를 이용해 matrix를 만드는 작업이다.

     

    다. Dictionary

    복수의 문자들의 집합으로 텍스트 마이닝에서 분석에 사용하고자 하는 단어들의 집합이다. 여기에 단어를 추가할 수 있는데 분석하고자 하는 단어들을 별도 사전으로 정의해서 해당 단어들에 대해서만 결과를 산출해서 보려고 할 때 사용한다.

     

    라. 감성분석

    감성분석은 Opinion Mining 등으로 언급하는 내용이다. 긍정과 부정여부를 가진 단어에 따라 소스를 부여해 긍정 문장인지를 평가한다.

     

    plyr은 Hadley 교수가 공개한 패키지로 R사용자들로부터 가장 사랑받는 패키지 가운데 하나다.

    데이터를 분리(splitting), 적용(applying), 조합(combining)할 대 사용하는 패키지다.

     

    마. 한글처리

    한글 텍스트 마이닝 패키지는 KoNLP가 대표적이다. rJava 패키지 등을 추가로 설치해 주어야 한다. 또한 반드시 JRE를 설치해야 한다.

     

    연관성 분석을 수행하는 대표적인 알고리즘

     

    apriori와 FP-성장(Frequent Pattern)이 있다.

     

    apriori 알고리즘에서 연관 분석을 수행하기 위해 빈발 아이템 집합과 연관 규칙이라고 하는 두 가지 형태로 관계를 표현한다.

    지지도 : 아이템의 빈발 정도 측정

    신뢰도 : 연관 규칙 관계의 강도를 측정하기 위해

     

    계산량을 많이 줄여주지만 유통사의 SKU 수준의 다양한 상품 데이터를 처리하기 위해서는 제약사항이 많다.

     

    FP-성장(Frequent Pattern) 알고리즘은 apriori보다 빠르다. 빈발 아이템을 집합을 찾기 위해 FP-트리라는 특별한 데이터 구조를 사용해 데이터 집합을 저장한다.

     

    바. 워드클라우드

    gdata 라이브러리를 로드한다.

    available.packages는 R에서 가용한 패키지 리스트를 출력하며, 각 패키지에 대한 상세 정보를 매트릭스 형태로 반환한다.

     

    제2절 사회연결망 분석

    igraph를 이용해 사회연결망 분석(SNA)를 하려고 한다.

     

    1. 사회연결망 분석 정의

    가. SNA 정의

    개인과 집단들 간의 관계를 노드와 링크로서 모델링해 그것의 위상구조와 확산 및 진화과정을 계량적으로 분석하는 방법론이다.

     

    1) 집합론적 방법

    객체들의 집합에서 각 개체들 간의 관계를 관계 쌍으로 표현한다.

     

    2) 그래프 이론을 이용한 방법

    객체는 점으로 표현된다. 두 객체 간의 연결망은 두 점을 연결하는 선으로 표현된다. 이때 점을 꼭지점 또는 노드라고 한다.

     

    3) 행렬을 이용한 방법

    각 객체를 행렬의 행과 열에 대칭적으로 배치하고, i번째 객채와 j번째 객체가 연결망으로 연결돼 있으면 행렬의 (i,j) 번째 칸에 1을 넣고, 연결망이 없으면 0을 넣는다..

     

    ** 사회연결망 분석에서는 분석하고자 하는 데이터는 행렬로 표현한다.

     

    사회연결망 분석에서 네트워크 구조를 파악하기 위한 기법

     

    1) 연결정도 중심성

    한 점에 직접적으로 연결된 점들의 합으로 얻어진다. 한 점에 얼마나 많은 다른 점들이 관계를 맺고 있는지를 기준으로, 그 점이 중심에 위치하는 정도를 계량화한 것이다.

    연결된 노드의 수가 많을수록 연결정도 중심성이 높아진다.

     

    2) 근접 중심성

    각 노드 간의 거리를 근거로 중심성을 측정하는 방법으로, 연결정도 중심성과는 달리 직접적으로 연결된 노드뿐 아니라 간접적으로 연결된 모든 노드 간의 거리를 합산해 중심성을 측정한다.

    근접중심성이 높을 수록 네트워크 중앙에 위치하게 된다.

     

    3) 매개 중심성

    네트워크 내에서 한 점이 담당하는 매개자 혹은 중재자 역할의 정도로서 중심성을 측ㅈ벙하는 방법이다. 한 노드가 연결망 내의 다른 노드들 사이의 최다 경로 위에 위치하면 할수록 그 노드의 매개 중심성이 높다. 매개 중심성 또한 네트워크 간 비교를 위해 상대적 매개 중심성이 사용된다.

     

    4) 위세 중심성

    연결된 노드의 중요성에 가중치를 둬 노드의 중심성을 측정하는 방법이다.

    위세 중심성의 일반적인 형태는 보나시치 권력지수로 불리며, 자신의 연결정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합해 위세 중심성을 결정한나.

     

    나. SNA 적용

     

    소셜 네트워크는 노드 또는 점, 링크 또는 에지로 구성된 그래프다.

     

    링크 방향성이 있는지 없는지에 따라 방향 그래프와 무방향 그래프로 구분한다.

     

    다. 단계

    그래프를 생성하는 단계

    이 그래프를 목적에 따라 가공해 분석하는 단계

    커뮤니티를 탐지하고 각 객체 또는 노드의 롤을 정의해 어떠한 롤로 영향력을 보다 효율적으로 줄 수 있는지를 정의하는 단계

    이를 데이터화해 다른 데이터 마이닝 기법과 연계하는 단계로 구분할 수 있다.

     

    2. R을 이용한 SNA

     

    가. 데이터 로딩

    read.table() : 데이터를 읽어 들일 때 사용

    setwd() : 로컬 디스크의 데이터를 읽을 때

     

    1) 그래프 로딩

    as.undirected : 선이 깔끔하지 못할 때 이 명령어를 이용해 대칭적으로 정리

     

    2) 그래프에 꼭지점 속성 추가

     

    3) 네트워크 시각화

    R에서는 한 번에 하나의 플롯만 보여주기 때문에 여러 플롯을 동시에 보기 위해서는 PDF나 이미지 형식으로 저장

     

    레이아웃 알고리즘을 적용하면 레이아웃을 최적화할 수 있다. Fruchterman-Rheingold 알고리즘 사용

     

    4) 그래프를 다양한 타입으로 저장

     

    나. 데이터 로드

     

    다. 노드 레벨 통계값

    shortest.paths : 개인 간의 가장 짧은 거리를 알고 싶을 때

     

    라. 네트워크 레벨 통계량

     

    1) Degree

    2) Shortest paths

    3) Reachability

    4) density

    5) Reciprocity

    6) Transitivity

    7) Triad census

     

    마. Clusters

    바. community detection

    커뮤니티를 그래프토 나타내는 다양한 방법 중

    walktrap과 edge-betweenness

     

    1) COMMUNITY DETECTION: WALKTRAP

    walktrap 알고리즘은 일련의 random walk 과정을 통해 커뮤니티를 발견한다.

    이 알고리즘은 각 버텍스를 하나의 커뮤니티로 취급하면서 시작해, 점차 더 큰 그룹을 병합하면서 클러스터링을 한다.

     

    2) COMMUNITY DETECTION : EDGE BETWEENNESS METHOD

    특정 에지의 edge-betweenness 점수는 그래프에 존재하는 최단거리 중 몇 개가 그 에지를 거쳐가는지로 측정 된다.

    높은 edge-betweenness 점수를 갖는 에지가 클러스터를 분리하는 속성을 가진다고 가정

    edge의 betweenness를 기반으로 군집화를 한다.

     

    3. 활용방안

     

    가. 단어 간 연관성을 이용한 소셜네트워크 분석

    simplify함수는 loop나 multiple edge를 제거해서 단순하게 해준다. 0값이 가장 많은 이유는 sparcity에 의해 삭제된 경우이기 때문이다.

     

    graph.incidence는 아래와 같은 형식으로 이분그래프를 생성할 수 있다.

     

    나. 트위터 검색을 통한 사용자 간 소셜 네트워크

     

     

    '시험' 카테고리의 다른 글

    6.4_알기쉬운 Big 데이터  (0) 2019.05.29
    클라우드  (0) 2019.05.28
    참조자료  (0) 2019.05.27
    9. Big 데이터 분석 기술(신기술), Big 데이터품질관리  (0) 2019.05.27
    8. ETLvsCDC  (0) 2019.05.27
Designed by Tistory.