2022-07-31
Author: 98hyun
Published: 2022-08-01
Data Validation
Kaggle을 했을 때도 처음 데이터의 설명을 보곤했다.
데이터 열이 숫자형일때, 범위를 본다던가.
있어야할 곳에 이상한 값이 있다던가. 이상한 점을 파악하는 단계이다.
요즘 인턴을 하면서 Data Validation과 Management에 대해서 공부하고 있다.
어떻게 하면 나중에 정교한 분석을 위해 정확한 값을 유지하게 할 수 있을지 고민하고 공부한 내용을 적는다.
설명
1. Data Type data type을 확인한다. python을 했을 때도 numeric 열에서 중간에 갑자기 string이 들어가면 함수가 안먹곤했었다. 그럴때 이유를 몰랐는데 나중에 하나씩 행을 까보다가 string을 발견했을 때가 있었다. Data Type을 확실하게 본다. 2. Range histogram 등 분위를 나누거나 할 때 숫자의 범위가 굉장히 중요하다. 예를 들어, 어떤 item의 값이 너무 크다거나 0이라던가 이런 이상값은 범위를 적절하게 조절하여 포함되지 않게 한다. 3. Uniqueness 예를 들어 Item 데이터를 정리할 때 겹치는 Item Number가 있으면 안되듯. unique함을 확인해봐야한다. 4. format 예를 들어 어떤것은 소문자로쓰고 어떤것은 대문자로쓰고 예를 들어 니켈을 ni라고 했는데 어떤것은 kel 로 들어가있고 이러면 안된다는 것이다. 5. null 사실 null이 있으면 무조건 안좋긴하다. 그래서 현재 mark rate라고 기입율을 뽑아내는작업도 하고있다.
Data Management
Management를 함으로써 좋은 점은 기업은 고객과의 변화하는 데이터를 통해 추세를 확인하며 실시간으로 데이터를 모을 수 있다.
이렇게 함으로써 Business Intelligence를 활용할 수 있게 한다.
아직 회사에서도 다뤄본 적은 없지만 어떤 내용이 있을지 미리 공부해봤다.
설명
1. Master data management Data는 크게 Master Data와 Transaction Data로 나눌 수 있다. Transaction Data는 매일 혹은 주기적으로 추가되는 Data로 고정되어있지 않다는 특징이 있고 Master Data는 Unique Name과 특징을 가진 Data로 Transaction Data와 함께 이해를 하기 위해 쓰인다. 고정적이다. 2. Data Quality 3. Data security 4. Data governance Data governace는 Data가 들어오는 것부터 어떻게 정의하고 정리하고 관리하고 유지하는 등 모든 활동에 대해서 법률 및 규칙을 정해놓는. 그렇게 Data가 움직이게끔 해놓는 모든 장치들을 합한것을 Data Governance라고 한다. 그래서 보통 Data Governance가 중앙에 있고 다른 것들을 수식해준다. 5. Data Warehousing 6. Data Modeling 7. Data Architecture 등. 쓰지 않았지만 당연히 중요한 품질, 보안 등을 모두 관리하는 것에 속한다. 아마 회사내에서도 거의 하게 될 업무가 이런 느낌일 것 같다.
Data Governance
데이터 거버넌스에 대해서 들었다.
옛날에 ADSP 준비할 때 들었었는데 오늘 데이터 관리와 프로세스 정립에 대해서 일이 생겼다.
Data Governance에 대해서 공부한 내용을 적고자 한다.
설명
1. Accountability for data items 이게 가장 우선시 된다. responsibility랑 비슷할 수 있는데 책임감보다는 작성잘하는, 관리잘하는 마음이다. 그리고 Steward랑 연결된다. 2. Data Stewardship Ownership과 연결된다. 자기가 데이터를 생성하는 만큼 주의를 해야한다는 뜻이다. = 3. Data Policy rule이자 Guideline이다. 우리가 정한, 맞다고 생각하는 규칙을 따른다. 4. Meta Data Management 메타데이터는 중심이되는 데이터로 거의 변하지 않아 정적이다. 이와 반대로 transaction data는 동적이라 쌓인다. transaction data 분석을 할 때 메타데이터가 중요하다. 5. Data Tracking change log가 있다면 같이 저장하는것이 좋다. 6. Data Quality 데이터가 정확한지 validation 작업도 포함된다. 7. Data Security 데이터 노출되거나 변질되지 않게 보안에 신경도 써야한다.