7. Data 관리(Meta Data 관리, Data 품질 관리)
MetaData 관리
https://pdfs.semanticscholar.org/1b51/307add039c193fcb93d66caf4d3cb252f2c9.pdf
데이터를 위한 데이터 - 메타데이터(Metadata)의 현재와 미래 -
안녕하세요? LG CNS 대학생 기자단 최종호입니다. 최근, 생산되는 정보의 양이 급격하게 증가하면서, 필요한 정보를 알맞은 때에 정확하게 찾아내는 것이 중요해지고 있습니다. 정보 관리 시스템이 중요한 시대가..
blog.lgcns.com
[메타데이터 관리시스템 구축방안 정의 - 매트릭스 기준]
[메타메이터 관리 구조 선택]
[메타데이터 관리지표]
[메타데이터 구축 효과(ROI)]
[메타데이터 구축 시 고려사항]
데이터 품질 관리
- 데이터 품질 관리 프레임워크
데이터에 관한 연구는 지난 30년 동안 IT 분야에 이론적으로나 산업적으로 엄청난 변화를 일으켜 왔다. 현재 데이터 품질 관리에 관한 연구는 경영 관리 사이클(Plan-Do-See) 관점에서 재해석되고 있으며, 많은 학계 및 산업계에서 데이터 품질에 대한 중요성을 인식하고 있다.
데이터 품질 관리란 조직 내외부의 지식 노동자와 최종 사용자의 기대를 만족시키기 위한 지속적 인 데이터 및 데이터 서비스 개선 활동을 말한다. 한국데이터베이스진흥원은 데이터 품질 관리 개선 과 관리를 위한 체계적인 계획을 수립하여 2003년에 데이터베이스 품질 관리 확장 모델을 개발한 후, 2005년에는 해당 실무에서 실제로 적용할 수 있는 데이터베이스 품질 관리 지침과 해설서를 제 시함으로써 지속적인 개선을 통한 품질 관리를 지향하고 있다.
데이터 품질 요소에는 크게 데이터 값(Data Value), 데이터 서비스(Data Service), 데이터 구조 (Data Hierarchy), 데이터 관리 프로세스(Data Management Process) 등이 있다. 이러한 요소들 은 서로 연계되어 조직 데이터 품질에 영향을 주고 있어 종합적이고 체계적인 품질 관리 노력을 필요 로 한다. 그 결과 [표 6-1-1]과 같은 데이터 품질 관리 프레임워크를 개발하였다. 프레임워크를 구성 하고 있는 각 요소에 대한 설명은 본 과목에서 다루게 될 주요 내용으로, 2절 표준 데이터를 비롯해 본격적으로 데이터에 대한 이해를 하기 바란다.
[데이터 품질 관리 프레임워크]
※ [표6-1-1]의 ‘DA’는 Data Administrator를 의미함
표준 데이터
- 정의 및 관리 목적
표준 데이터란 정보시스템에서 사용되는 용어 및 도메인, 코드, 기타 데이터 관련 요소에 대해 공통된 형식과 내용으로 정의하여 사용하는 표준 관련 데이터를 의미한다. 표준 데이터는 정보시스템과 정보시스템 데이터의 품질 확보와 직결되는 요소로, 표준 데이터를 관리함으로써 기관이나 기업 전사 차원에서 단일화하고 표준화된 정보 시스템을 구현할 수 있다. 또한 데이터의 불일치나 데이터 오류를 방지하며, 표준화 되지 않은 데이터로 인해 야기되는 산출물 보정 작업 등을 최소화 함으로써 정보 시스템의 생산성을 향상시킬 수 있다. 표준 데이터를 관리함으로써 데이터에 대한 이해도를 높이고 의사소통을 원활하게 하며 데이터 통합을 효율적으로 수행할 수 있도록 한다.
현재 많은 기관 및 기업의 표준화 정도를 보면 대부분의 경우 단위 시스템별 표준화는 많은 부분에서 지켜지고 있지만 전사적인 표준화를 통해 통합 관리하는 경우는 매우 드물다. 그래서 전사 데이터 웨어하우스(EDW, Enterprise Data Warehouse)와 같은 통합 시스템을 구축할 경우 표준에 대한 재정비 및 재정비된 표준에 따른 기존 시스템에 대한 변경 작업을 위해 많은 인력 및 비용을 지불해야 한다. 표준 데이터는 관리 시스템 및 메타 관리 시스템을 도입하면 지속적이고 정량화된 관리가 가능하다.
- 세부 관리 대상
- 표준 단어(Word) 사전
일반적으로 단어란 문법상 일정한 뜻과 구실을 가지는 말의 최소 단위를 의미하며, 정보 시스템에서 사용되는 표준 단어 사전이란 기업이나 기관에서 업무상 사용되며 일정한 의미를 갖고 있는 최소단위의 단어를 정의한 사전을 말한다. 표준 단어를 정의함으로써 업무상 편의나 관습에 따라 동일한 단어를 서로 다른 의미로 사용하는 경우(예, 자산 이관 시‘인수자’,‘ 이관자’를 주는 곳과 받는 곳에서 서로 상반되는 의미로 사용하는 경우가 있음), 혹은 하나의 단어에 다양한 의미를 부여(예, 처리자)하여 사용하는 등의 문제를 방지할 수 있다. 표준 단어 사전은 다음과 같은 기준에 따라 관리되어야 한다.
ㅇ표준성
표준 단어는 정보시스템 구축 대상 업무 범위에서 사용하고 있거나 일반적으로 사용되는 사전적 의미의 단어 가운데에서 추출해야 하며, 지나치게 업무에 의존적이거나 방언을 사용해서는 안되며 약어의 사용도 최소화해야 한다.
ㅇ참조 가능성
표준 단어는 기업이나 기관에서 새로운 업무를 정의할 때 참조할 수 있어야 한다.
ㅇ일반성
표준 단어는 일상적으로 사용하고 있는 사전적 의미의 단어와 의미상 크게 다르지 않아 일반인도 해당 단어의 의미를 이해할 수 있어야 한다.
ㅇ대표성
표준 단어는 동의어를 가질 수 있으나 표준 단어로 선언된 단어는 비슷한 의미의 동의어들을 대표할 수 있어야 한다.
표준 단어는 전사적으로 관리하고 있는 엔터티와 속성을 개별 단위로 하여 추출하며 추출된 단어는 동음이의어와 이음동의어를 정비한 후 논리명(한글명)을 기준으로 물리명(영문명, 영문 약어명), 유사 용어까지 함께 정리하여 관리한다. 표준 단어 사전에는 개별 단어 외에도 동의어, 유의어, 반의어 등과 같은 단어 간의 구조도 함께 정의해야 한다.
- 표준 도메인(Domain) 사전
도메인이란 속성에 정의된 조건을 만족시키는 값의 범위를 의미하며, 표준 도메인은 전사적으로 사용되고 있는 데이터 중에서 논리적, 물리적으로 유사한 유형의 데이터를 그룹화하여 해당 그룹에 속하는 데이터의 유형과 길이를 정의한 것을 말한다. 도메인은 여러 개의 하위 도메인(복합 도메인)으로 구성되거나 하나의 도메인이 여러 개의 도메인에 중복적으로 사용될 수 있다. 표준 도메인은 다음과 같은 기준에 따라 관리되어야 한다.
ㅇ표준성
표준 도메인은 전사 차원에서 공통적으로 사용되는 속성을 대상으로 정의한다. 예를 들어 은행의 계좌번호는 은행 하위 업무나 상품에 따라 다르지 않으므로 표준 도메인을 정의하여 사용해야 한다.
ㅇ유일성
동일한 내용의 중복 도메인이 서로 다른 이름으로 선언되지 않도록 관리해야 한다.
ㅇ업무지향성
도메인은 지나치게 일반화하여 정의하기 보다는 업무의 특성을 충분히 반영할 수 있도록 선언하여 관리한다. 예를 들어 계좌번호의 도메인은'-'가 없이 정의하는 것 보다 적절한 의미를 나타내도록 '-'를 이용하여 표현한다.
전사적으로 관리하고 있는 모든 데이터 속성 혹은 대표 속성 가운데에 DBMS(DatabaseManagement System)에 동일한 형태로 구현되는 속성들을 추출하여 그룹화한다. 모든 속성은 임의의 도메인에 할당되어야 하며, 하나 이상의 도메인에 복수로 할당되어서는 안 된다. 속성과 도메인은 상호 매핑하여 관리해야 하며 새로운 속성이 추가될 경우 해당 속성의 도메인을 선정, 등록할 것을 권장한다. 또한 도메인의 삭제는 해당 도메인을 사용하고 있는 속성이 없을 경우에만 가능하도록 해야 한다.
- 표준 용어(Terms) 사전
용어는 업무에서 자주 사용하는 단어의 조합을 의미하며, 표준 용어는 전사적으로 사용하는 엔터티와 속성을 대상으로 표준 단어 사전에 정의된 단어를 조합하여 정의한다. 단어는 개별적이나 용어는 업무와 조직의 성격에 따라 그 조합이 달라질 수 있다. 표준 용어를 정의함으로써 기업 내부에서 서로 상이한 업무 간에 의사소통이 필요한 경우 용어에 대한 이해 부족으로 유발되는 문제점을 최소화 할 수 있다. 표준 용어 사전은 다음과 같은 기준에 따라 관리되어야 한다.
ㅇ표준성
같은 기업 내부라도 업무별로 동일한 의미를 서로 다른 용어를 사용하여 표현하는 경우가 매우 많다. 따라서 표준 용어 사전은 용어의 표준화를 통해 용어 사용의 차이에 따라 발생되는 전사 차원의 혼란을 최소화 할 수 있어야 한다.
ㅇ일반성
용어가 지나치게 업무 관점에서만 정의되어 일반적으로 이해하기 힘들거나 의미상 혼란을 초래해서는 안 된다. 일반적인 의미와 전혀 다르게 사용된 용어는 적절한 다른 용어로 대체하고, 새로운 용어 개발 또한 자제해야 한다.
ㅇ업무지향성
용어는 기업의 업무 범위 내에서 약어를 사용하거나 내부에서 별도로 정의하여 사용할 수 있다. 단 지나친 약어의 사용은 업무에 대한 이해도를 떨어뜨릴 수 있으므로 주의한다.
표준 용어는 전사적으로 보유하고 있는 엔터티와 속성을 대상으로 추출된 표준 단어를 조합하여 생성되며, 용어 사전은 엔터티 용어 사전과 속성 용어 사전으로 구분하여 정의 관리한다. 정의된 각각의 용어는 논리명(한글명)과 물리명(영문명)을 가지며, 용어 범위 및 자격 형식 등이 설명되어야 한다.
- 표준 코드
표준 코드에는 각 산업별로 법적, 제도적으로 부여하여 공통적으로 사용되는 코드뿐만 아니라 기관이나 기업 내부에서 정의하여 사용하는 코드가 대상이 된다. 표준 코드는 다음과 같은 기준에 따라 관리되어야 한다.
ㅇ재사용성
표준 코드는 기관이나 기업에서 자체적으로 정의하여 사용하는 것보다 표준화 기구나 정부, 공공 기관에서 정의한 코드를 재??드 관리를 용이하게 하는 데 더 효과적이다.
ㅇ일관성
코드는 업무 범위 내에서 가능한 한 유일하게 정의해야 한다. 동일한 내용의 코드를 사용 형태나 업무 범위에 따라 중복 정의하여 사용할 경우 전사 차원의 코드 데이터의 중복은 물론 코드 데이터 의 불일치(Inconsistency)라는 보다 심각한 문제를 야기할 수 있다.
ㅇ정보 분석성
가능한 범위의 데이터는 모두 코드화하여 관리한다. 즉 사용자가 텍스트로 직접 입력하는 값을 최소화하고 정의된 범위 안에서 선택하도록 함으로써 정보 분석 시에 데이터는 있으나 분석 가치가없는 데이터가 양산되지 않도록 한다.
전사적으로 사용하고 있는 코드를 추출하여 법·제도적으로 부여된 코드와 동일한지를 확인하고, 동일한 값을 가지는 코드를 통합하여 단일화 작업을 수행한다. 코드는 표준화 팀에서 엄격한 기준에 따라 관리해야 하며, 사용자 임의대로 코드 체계를 생성하거나 수정해서는 안 된다. 코드는 도메인과 밀접하게 연관되어 관리해야 하나 도메인에 값의 범위가 명확히 정의되어 있는 경우(예를 들어‘여부’는‘Y/N’으로 표기)에는 특별히 코드화하여 관리하지 않아도 된다.
- 데이터 표준 요소
데이터 표준 요소란 시스템을 설계하고 구축하는데 필요한 데이터 관련 요소의 표준이다. 데이터 관련 요소 표준 대상은 논리 데이터 모델의 주제 영역, 엔터티, 속성, 관계명을 포함하여 물리적 객체 대상인 Subject Areas, Relationships, Database & Instance, Indexes, Constraints, Sequences, 사용자 정의 Procedures & Functions, Synonyms, Views, Rollback Segments, Tablespaces, File Names, Script Names 등의 명명 규칙을 포함한다.
시스템 운영에는 시스템 운영에만 필요한 본질적 요소와 시스템 운영자가 필요에 의해 생성한 요소들이 존재할 수 있다. 예를 들어 프로그램 수행 결과를 단순 적재하는 요소들은 문제 발생시 역추적에 필요하지만 시스템 운영의 필수 요소라고는 할 수 없다. 데이터 관련 요소 중 관리 대상의 선별 기준은 시스템 운영에 필수적인 요소가 1차 대상이 될 수 있어야 한다.
데이터 표준 요소는 시스템 운영에 필요한 요소를 정확히 선별하여 관리해야 한다. 설계 및 구축에 필요한 요소를 추출하여 표준이 필요한 요소를 정의하고 그 요소에 대해 업무적 표준을 정의한다.
데이터 표준 요소는 다음과 같은 기준에 따라 관리되어야 한다.
ㅇ통합성
데이터 표준 요소의 각 요소는 전사적으로 통합하여 관리 및 적용해야 한다.
ㅇ일관성
정의된 표준 데이터가 데이터 모델 및 데이터베이스 스키마의 전 영역에 걸쳐 일관되게 적용되고 있는지 정기적으로 검토 확인한다.
- 표준 데이터 상관도
표준 데이터 간의 상관 관계를 도식화하면 [그림 6-1-1]과 같다.
모델 데이터
정의 및 관리 목적
모델 데이터는 데이터 모델을 운용 관리하는데 필요한 데이터를 의미한다. 여기에는 데이터 참조 모델, 개념 데이터 모델, 논리 데이터 모델, 물리 데이터 모델에 대한 메타 데이터 및 DBMS 객체 정보가 포함된다. 데이터 모델에 대한 메타 데이터를 관리함으로써 데이터 구조에 대한 최신 정보를 유지하고 전사 차원에서 데이터 모델의 공유와 재사용성을 극대화하고 체계적인 데이터 모델의 변경관리를 가능하게 한다.
세부 관리 대상
모델 데이터에서 다루는 세부 관리 대상은 데이터 참조 모델, 개념 데이터 모델, 논리 데이터 모델, 물리 데이터 모델에 대한 메타 데이터 및 DBMS 객체 정보 등이 있다. 이러한 모델 데이터는 다음과 같은 기준에 따라 관리되어야 한다.
완전성
모델 데이터는 개념 데이터 모델, 논리 데이터 모델, 물리 데이터 모델, 데이터베이스와 같은 데이터 구조의 각 단계별 데이터 모델에 대한 모든 메타 데이터를 포함해야 한다.
일관성
모델 데이터는 단어, 용어, 도메인 및 데이터 관련 요소 표준을 준수해 정의해야 한다.
추적성
모델 데이터는 데이터 모델의 변경 이력에 대한 추적이 용이하고 과거 데이터 모델에 대한 활용 요구를 충족시켜야 한다.
상호 연계성
모델 데이터는 데이터 구조를 입체적, 체계적으로 관리할 수 있도록 데이터 모델간의 상호 연관 관계를 표현해야 한다.
최신성
모델 데이터는 데이터 구조의 각 단계별 데이터 모델과 업무 규칙은 물론, 실제 시스템에 구현된 물리 데이터와도 논리적으로 일치해야 한다.
호환성
모델 데이터는 다른 종류의 관리 데이터와도 상호 호환이 가능해야 한다.
데이터 구조와 구조를 표현하는 모델 데이터는 별개로 관리한다. 데이터 모델에 변경 사항이 발생하면 변경 전과 변경 후의 데이터 모델과 이력은 물론, 데이터 모델 변경에 영향을 받은 응용 프로그램과 SQL의 변경 전과 변경 후의 내용도 함께 관리한다.
관리 데이터
정의 및 관리 목적
관리 데이터란 데이터베이스를 효과적으로 운영, 관리하기 위해 필요한 데이터를 의미한다. 여기에는 사용 관리 데이터, 장해 및 보안 관리 데이터, 성능 관리 데이터, 흐름 관리 데이터, 품질 관리 데이터 등이 포함된다. 데이터베이스는 크게 두 가지로 구분할 수 있다. 하나는 주로 기관이나 기업의 경영에 따라 OLTP에서 발생하는 운영계 시스템의 데이터베이스이고 다른 하나는 이러한 운영계 시스템으로부터 정보를 추출하여 기업의 의사 결정에 사용하는 분석계 시스템의 데이터베이스이다.
본 가이드의 세부 관리 대상 가운데 사용 관리 데이터, 장애 및 보안 관리 데이터, 성능 관리 데이터 등은 두 가지 모두 적용하되 주로 운영계 시스템에서 사용하는 데이터베이스에 초점을 두고 있다. 반면에 흐름 관리 데이터는 주로 분석계 시스템의 데이터베이스에 초점을 두고 있다.
세부 관리 대상사용 관리 데이터
사용 관리 데이터란 사용자가 데이터베이스를 효과적으로 사용할 수 있도록 지원하고 문제를 해결하는데 필요한 관리 데이터를 의미하며, 다음과 같은 기준에 따라 관리되어야 한다.
데이터 활용도
주기적으로 데이터 사용 추세를 파악하여 저장 공간의 활용과 데이터로서의 활용 가치를 평가한다.
사용자 만족도
사용자의 데이터베이스 관리에 대한 만족도는 제공되는 데이터에 대한 만족과 유지되는 데이터의 품질을 보증할 수 있다.
문제 해결 소요기간
문제 발생에서 확인까지 소요되는 시간과 문제 확인 후 해결까지 소요되는 시간을 점검한다. 문제 해결 소요 기간은 데이터가 얼마나 체계적이고 구체적으로 관리되고 있는지를 가늠할 수 있는 잣대이다.
사용 관리 데이터의 관리 방법은 다음과 같이 요약할 수 있다.
-
일별, 주별, 월별로 데이터 변경 현황을 집계한다. 급격한 변화의 기준을 정하고 원인 및 추세 분석, 예상되는 문제점과 대책을 세운다.
-
월별로 데이터베이스 사용상의 문제점에 대한 개선 요구를 분석한다. 추세가 악화되는 원인을 파악한다.
-
문제 발견에 대한 경로를 다양하게 정의한다.
-
문제 원인을 유형별로 분류하고 처리 결과를 상세히 기록한다.(문제 정의, 관련 데이터베이스, 담당자와 관련자, 작업 진행 상황 등)
장애 및 보안 관리 데이터
장애 및 보안 관리 데이터란 데이터베이스의 정상적인 상태 유지나 효과적인 사용을 방해하는 사건을 사전에 예방하거나 사건 발생시에 신속한 복구가 이루어질 수 있도록 하는 데이터이며, 다음과 같이 기준에 따라 관리되어야 한다.
주기적인 상태 기록
데이터베이스의 백업 주기, 백업 방법, 백업된 데이터의 안전한 보관과 백업된 데이터로부터의 정상적인 복구 여부의 관리는 장애로부터 데이터의 안전성을 보장한다.
복구 절차와 규칙
비상시 복구 절차와 적용되는 규칙의 완전성은 장해로부터 데이터의 안전성과 데이터 복구의 완전성을 보장한다.
접근 통제
사용자 관리와 사용자 접근 권한의 관리는 내부 및 외부의 부적합한 사용자의 접근은 차단하고 권한 없는 자의 데이터베이스 접근을 차단하여 데이터의 안전성을 보장한다.
장애 및 보안 관리 데이터의 관리 방법은 다음과 같이 요약할 수 있다.
-
데이터베이스를 평가하여 중요도를 결정한다.
-
중요도에 따라 일별, 주별, 월별로 백업할 데이터를 분류한다.
-
백업 및 복구 절차를 확립하고 주기적으로 교육한다.
-
적용하는 규칙은 최대한 상세히 기술하되 중복이나 모순이 없는지를 확인한다.
-
백업 데이터의 보관 장소는 가급적 네트워크 및 서버가 다른 시스템과 분리되도록 하며 안전 장치를 설정한다.
-
데이터베이스에 대한 보안 규정을 수립하고 주기적으로 교육 및 홍보한다.
-
데이터베이스별로 사용자의 접근 권한을 명시하고 주기적으로 불법적인 접근을 검사하여 조치한다.
성능 관리 데이터
성능 관리 데이터란 데이터베이스의 성능을 향상시키는데 필요한 관리 데이터를 의미하며, 다음과 같은 기준에 따라 관리되어야 한다.
주기적 성능 점검
데이터베이스의 성능 측정 기준과 측정 주기가 정립되어 있어야 하며 그에 대한 사용자의 만족도 역시 관리되어야 한다.
성능 향상 수단
데이터베이스의 성능 향상을 위한 절차와 규칙을 정의하여 전반적인 데이터베이스 성능을 관리한다.
성능 관리 데이터의 관리 방법은 다음과 같이 요약할 수 있다.
-
성능 측정 기준을 정립한다. 기준은 모두 정량화한다.
-
일별, 주별, 월별로 성능을 측정하고 그 추세를 분석한다.
-
성능 향상을 위한 절차와 규칙을 정비한다. 질의어 최적화, 데이터베이스 구조 변경 등에 대한 절차와 규칙을 포함한다. 데이터베이스 관리에 따른 재구성 작업의 시기와 방법을 정의한다.
-
스토리지의 교체 및 확장 시기에 대한 규칙을 정립한다.
흐름 관리 데이터
흐름 관리 데이터란 하나의 정보시스템 데이터를 다른 정보시스템으로 이동할 때 사용하는 소스 데이터와 타깃 데이터 간의 매핑 정보를 관리하는 데이터를 의미하며, 다음과 같은 기준에 따라 관리되어야 한다.
안전성
데이터 이동이 필요한 모든 소스와 타깃을 정의하고 소스, 타깃 간의 매핑 규칙을 정의해야 한다.
유효성
정의된 소스와 타깃의 매핑 규칙을 준수하고 이에 위배되는 데이터에 대한 클린징(Cleansing) 규칙이 정의되어 있어야 한다.
데이터 정합성
소스와 타깃의 데이터가 매핑 규칙을 준수하여 데이터의 정합성이 보장되어야 한다.
흐름 관리 데이터의 관리 방법은 다음과 같이 요약할 수 있다.
-
소스 데이터와 타깃 데이터 간의 매핑 리스트를 작성하고, 타깃 시스템에서 필요로 하는 소스 데이터가 모두 포함되어 있는지 확인한다.
-
데이터 이동이 필요 없는 소스와 타깃의 매핑 여부를 검사한다.
-
삭제된 소스를 매핑 소스로 사용하고 있는지를 검사한다.
-
소스와 타깃의 데이터 구조가 동일한지 조사한다. 동일하지 않은 경우 변환 규칙을 적용하고 있는지 조사한다.
-
변환 규칙이 데이터 무결성 규칙을 준수하는지 검사한다. 그 결과가 데이터 정합을 보장하는지 검사한다.
품질 관리 데이터
품질 관리 데이터란 데이터의 정합성을 확보하고 데이터 품질의 유지, 개선을 위할 데이터를 의미하며, 다음과 같은 기준에 따라 관리되어야 한다.
품질 기준
시스템에서 관리하는 데이터의 품질 기준을 정의한다. 품질 기준은 데이터의 중요도에 따라 등급을 두어 관리할 수 있다.
품질 점검 주기
데이터 품질 관리를 지속적, 정기적으로 수행하기 위해 데이터베이스 성능과 데이터 품질 등에 대 한 측정 주기를 설정한다. 품질 점검 주기는 사용자의 요구 수준을 반영하여 결정한다.
품질 검증 절차와 규칙
정의된 품질 기준을 적용하기 위한 데이터 품질 검증 절차와 규칙을 정의한다. 여기에서는 정의된 절차와 규칙을 따를 수 없는 예외 사항에 대한 조치 방안도 함께 고려되어야 한다.
품질 개선 절차
측정된 품질 평가 결과를 반영하여 데이터의 품질을 향상시키고 고품질 데이터를 유지할 수 있는 절차와 방법을 정의한다.
데이터 품질 관리가 필요한 항목을 도출해야 하며, 여기에는 기본적으로 다음과 같은 항목들이 포함된다.
-
엔터티 무결성(Entity Integrity)
-
참조 무결성(Referential Integrity)
-
도메인 무결성(Domain Integrity)
-
속성, 칼럼의 비즈니스 규칙 적용
-
엔터티, 테이블(Table) 정의에 따른 데이터 생성, 변경, 삭제 규칙
-
트리거(Trigger) 등 사용자 정의 DBMS 객체의 작동 여부
-
데이터 복제 허용시 원본 데이터와 복제 데이터 간의 정합성
그 밖에 품질 기준에 어긋나는 부적합한 데이터에 대한 오류 수정 규칙을 정의한다.
정의 및 관리 목적
업무 데이터란 기관이나 기업의 업무 및 비즈니스를 수행하는 데 필요한 데이터를 의미하며, 일반적으로 데이터 흐름에 따라 원천, 운영, 분석 데이터로 구분할 수 있다.
세부 관리 대상원천(Source) 데이터
원천 데이터란 운영 업무 데이터의 원천이 되는 현실 세계의 데이터로, 일반 문서, PC에 저장된 데이터 원천 파일, 이메일 및 팩스 등을 말하며, 통합적 시스템에 의한 관리보다는 원천 업무 데이터 소유주인 개인이나 단체에 의하여 관리되는 데이터를 의미한다. 원천 데이터는 다음과 같은 기준에 따라 관리되어야 한다.
보안성
원천 데이터는 시스템이나 프로그램, 데이터베이스 객체에 의해 시스템적으로 관리되지 않아 허용되지 않은 사용자에게 노출될 위험성이 많으므로 중요 원천 데이터의 경우 보안에 각별히 유의해야 한다.
안전성
원천 데이터는 재해 발생 시 데이터 손실률이 높고 손실된 원천 데이터의 복구가 매우 어려우므로 중요 원천 데이터의 경우 안전 관리의 수준이 높아야 한다.
신뢰성
원천 데이터의 정확성과 신뢰성을 판단할 수 있도록 이와 관련된 근거를 정의하여 관리해야 한다.
데이터베이스 구축에 필요한 원천 데이터를 분류해 각 원천 데이터에 대한 접근 권한과 생성, 변경, 소멸 규칙을 정의한다. 원천 데이터의 검색은 일반적으로 시스템 내에 저장된 데이터를 검색하는 것보다 많은 시간이 소요될 수 있으므로 관리 체계를 명확히 정의해야 한다.
운영(Operation) 데이터
운영 데이터란 기업 및 기관의 목표 달성을 위해 데이터베이스에서 저장, 관리하여 활용하는 데이터로 단순한 입출력 작업 처리상 일시적으로 필요한 임시 데이터는 제외한다. 운영 데이터는 다음과 같은 기준에 따라 관리되어야 한다.
정확성
실세계에 존재하는 원천 데이터와 동일한 데이터가 오류 없이 관리되어야 한다.
일관성
데이터가 용어 정의, 규정, 표준, 속성 정의, 데이터 형식 등과 일치하여야 한다.
최신성
제공 데이터가 가장 최근 형태로 갱신되어야 하고 데이터의 최신성 유지를 위하여 데이터 최신성 등급(매우 중요, 중요, 보통)을 둘 수 있다.
완전성
정보 시스템 내의 저장된 데이터는 완전한 형태를 가지고 있어야 하며, 조직의 목표 달성을 위해 요구되는 데이터의 폭과 깊이의 관점에서 이를 제공할 수 있을 만큼의 데이터를 보유하고 있어야 한다.
사용 용이성
정보시스템에서 제공하는 인터페이스, 도움말, 고객 지원 기능 등이 사용자가 데이터베이스를 이용하는 데 불편함이 없도록 제공되어야 한다.
검색 용이성
정보 시스템에서 원하는 데이터를 추출하여 활용할 수 있도록 검색 관련 제반 기능과 검색 조건에 따른 검색 결과 및 출력 방식이 정확하며 적절하여야 한다.
데이터의 정확성, 일관성, 최신성, 완전성을 보장하기 위해 정의된 관리 기준과 관리 방법에 따라 주기적으로 데이터를 점검 관리한다. 사용 용이성과 검색 용이성은 성능 관리 데이터의 관리 기준과 관리 방법을 따를 수 있다.
분석(Analysis) 데이터
분석 데이터란, 운영 데이터의 추출(Extract), 변환(Transformation), 적재(Loading) 등의 과정을 통해 생성되는 데이터이다. 분석 데이터가 기관이나 조직의 업무나 제반 활동을 신속하게 지원할 수 있도록 하기 위해서는 최신성과 정확성을 갖춰야 하며, 다음과 같은 기준에 따라 관리되어야 한다.
분석 주기
분석용 데이터의 원천이 되는 운영 데이터의 분석 및 변환 주기를 결정한다.
마감 기한
운영 데이터를 분석용 데이터로 변환하기 위해 이용하는 운영 데이터의 특정 시점을 정의한다.
요약 레벨
분석 데이터에 요구되는 요약 수준을 정의한다. 요약 수준은 운영 데이터의 범위와 깊이의 관점에서 고려되어야 한다.
주제 지향성
분산되어 관리되는 운영 데이터를 통일된 주제 영역별로 분류할 수 있어야 한다.
통합성
분석 데이터를 동일하고 일관된 표준‘( 남/여’,‘ 1/0’,…)에 따라 분류할 수 있어야 한다.
시계열성
일정 시간 동안 축적된 데이터를 다양한 시점별로 정의할 수 있어야 한다.
비휘발성
데이터의 삭제, 갱신이 자주 일어나지 않고 검색 위주의 데이터로 구성되어야 한다.
운영 데이터를 분석 데이터로 추출, 변환, 적재하는 규칙을 정의한다. 또한 일반적으로 분석되는 데이터의 양이 매우 많을 수 있으므로 사용되는 데이터베이스의 특성에 맞는 관리 방법이 같이 병행 되어야 한다.
데이터 전문가 지식포털 DBGuide.net
정의 및 관리 목적 업무 데이터란 기관이나 기업의 업무 및 비즈니스를 수행하는 데 필요한 데이터를 의미하며, 일반적으로 데이터 흐름에 따라 원천, 운영, 분석 데이터로 구분할 수 있다. 세부 관리 대상 원천(Source) 데이터 원천 데이터란 운영 업무 데이터의 원천이 되는 현실 세계의 데이터로, 일반 문서, PC에 저장된 데이터 원천 파일, 이메일 및 팩스 등을 말하며, 통합적 시스템에 의한 관리보다는 원천 업무 데이터 소유주인 개인이나 단체에 의하여
www.dbguide.net
데이터 품질 관리 (DQM : Data Quality Management)
데이터품질관리 이해
대표사진 삭제
사진 설명을 입력하세요.
텍스트 추가
X축 품질관리 대상
Y축 품질관리 조직
대표사진 삭제
사진 설명을 입력하세요.
텍스트 추가
데이터
텍스트 추가
데이터 구조
데이터 관리 프로세스
데이터 품질 관리 (DQM : Data Quality Management)
출처: https://unabated.tistory.com/entry/데이터-품질-관리-DQM-Data-Quality-Management
1. 정의 - 기관이나 조직 내외부의 정보시스템 및 DB 사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선활동. 2. 관점에 따른 분류 데이터 품질관리 모형의 3가지 관점 가. 미시적 관점 - 데이터 품질 관리의 각 요소를 확인하고 요소별 데이터 품질 향상 방안을 도출. 나. 거시적 관점 - 전사 조직 측면에서 데이터 관리의 성숙도 단계를 정의하고 각 조직의 성숙도를 측정하여 상위 단계로 발전하도록 유도. 다. 부가가치적 관점 - 데이터 품질관리의 비용, 효과, 위험 모형을 개발하여 각 조직의 상황에 맞는 데이터 품질관리 방안을 제시. 3. 데이터 품질 관리 대상 데이터 품질관리 대상의 3가지 관점 가. 데이터 값 - 기관 및 기업의 비전이나 목표를 달성하기 위해 사용되어지는 전산화된 데이터 또는 전산화에 필요한 데이터. - 데이터의 현상적 값, 구조적 값 나. 데이터 구조 - 데이터가 담겨져 잇는 모양, 틀로서 데이터를 취급하는 관점에 따라 구조가 달라짐.
|
다. 데이터 관리 프로세스 - 데이터 및 데이터 구조의 품질을 안정적으로 유지, 개선하기 위한 활동으로 절차, 조직, 인력 등을 포함함. - 데이터 정의 프로세스, 데이터 변경 프로세스, 데이터 평가 프로세스 4. 데이터 품질 관리 기본틀 (Framework) - 데이터 품질관리의 대상이 되는 구성요소와 요소들 간의 관계를 정의한 데이터 품질관리의 기본 개념틀. 가. 데이터 값 1) 표준 데이터 2) 모델 데이터 3) 관리 데이터 4) 업무 데이터 나. 데이터 구조 1) 개념 데이터 모델 2) 데이터 참조 모델 3) 논리 데이터 모델 4) 물리 데이터 모델 5) 데이터베이스 6) 사용자 View 다. 데이터 품질 관리 Main 프로세스 1) 데이터 관리 정책 수립 2) 데이터 표준 관리 3) 데이터 모델 관리 4) 데이터 흐름 관리 5) DB 관리 6) DB 보안 관리 7) 데이터 활용 관리 7) 요구사항 관리 |
[매핑정의서 예시]