분석기획에서의 데이터 사이언스 역량
- 분석역량: 문제영역에 대한 전문성/ 수학과 통계학적 지식
- 균형잡힌 시각, 데이터/프로그래밍 기술역량
분석대상과 방법
대상 known | 대상 Unknown | |
분석방법 known | 최적화 | 통찰 |
분석방법 Unknown | 솔루션 | 발견 |
분석기획방안
목표 시점별 분석기획 방안
- 과제중심적 접근 : Speed & Test / Quick & Win / 문제해결이 중심
- 장기적인 마스터플랜 : Accuracy & Deploy / Long Term View / 문제정의가 중심
분석기획시 고려사항
- 가용데이터 : 분석의 기본이 되는 데이터 확보 및 파악
- 적절한 USE case : 유사분석 시나리오, 솔루션을 최대한 활용
- 장애요소들에 대한 사전계획 수립 : 이행저해요소 관리, 일회성 분석이 아닌 조직의 역량으로 내재화 도모
데이터 기반 의사결정의 중요성
- 직관적인 의사결정 → 데이터 기반의 의사결정
- 합리적 의사결정을 가로막는 장애요소 : 프레이밍효과 / 고정관념 / 편향된 생각
분석방법론
1. 상세한 절차/방법/도구
2. 기법/템플릿/산출물
- 폭포수모델 : 단계를 순차적으로 진행 / 이전단계가 진행되어야 다음단계로 진행가능, Top down방식
- 나선형모델 : 여러 번의 개발과정을 거쳐 점진적으로 프로젝트를 수행, 관리체계를 효과적으로 갖추지 못하면 복잡도가 상승
- 프로토타입모델 : 일부분을 우선개발하고, 개선작업을 거치는 것. 중요한 기능들이 포함되어있는 시스템의 초기모델
KDD 분석방법론
* 순서 : 데이터셋 선택 → 데이터 전처리 → 데이터 변환 → 데이터 마이닝 → 분석결과 평가
- 전처리 과정에서 이상값과 잡음을 식별하고 데이터 변환에서 분석 목적에 맞는 변수 선택 및 차원축소 과정을 거침
CRISP-DM 분석 방법론
* 순서 : 업무이해 → 데이터이해 → 데이터 준비 → 모델링 → 평가&분석
- CRISP-DM 에서의 데이터 준비과정은 KDD분석의 데이터 변환과 유사
- 모델링 단계에서 모델평가는 수행하지만, 모델 적용성 평가는 평가&분석 단계에서 진행함
빅데이터 분석방법론
순서 : 분석기획 → 데이터준비 → 데이터분석 → 시스템구현 → 평가&전개
* 추가적인 데이터확보가 필요한경우 데이터 준비단계로 다시진행한다.
- 분석기획 단계는 범위설정 → 프로젝트 정의 & 계획 → 위험식별 & 대응으로 이루어짐
지도학습 / 비지도학습
- 지도학습 : 명확한 목적 하에 데이터 분석을 실시, 자료가 입력변수와 출력변수로 주어지며 예측모형을 얻을때 사용(정답이 있음)
- 비지도학습 : 데이터 자체의 결합과 연관성을 중심으로 데이터의 상태를 표현하는 것. 데이터 마이닝에서 자료가 출력변수 없이 입력변수만 주어지는 경우(정답이 없음)