KT에이블스쿨 5기/빅데이터분석기사

[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 데이터 분석 계획 (요약 정리)

ryuming 2024. 3. 26. 00:35

[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 데이터 분석 계획 (요약 정리)

으악.. 미프2차와 DX 9반 회식 

그리고 광주로 찾아온 대학 친구들과의 만남... 등등 

빅분기 필기 공부가 예상 못하게도 너무너무 밀렸습니다

자격증 공부 외에도 IT트렌드스터디,알고리즘 스터디등을 준비하고있는터라.....

글고 아직 칭구들과의 만남, 데이트는 포기를 못하겠어요 ㅠㅠㅠㅠㅠㅠㅠ

흑흑흑흑 그래도 해야죠 뭐 어ㅉ ㅓ 겠어용 ~

다 핑계지 뭐 

 


1과목; 빅데이터 분석 기획 - 데이터 분석 계획

 

 

[데이터 분석]

- 데이터 분석은 분석기술과 방법론을 기반으로 여러 형태의 데이터를 구축,탐색,분석 및 시각화까지 수행하는 것이다

- 일차원적인 데이터 분석은 지양하여야 하며, EDA 또한 전략적 통찰을 기반으로 진행되어야한다,

빅데이터를 활용하기 위한 장애물은 비용보다 데이터 분석을 수행하기 위한 분석적 방법과 성과에 대한 이해의 부족이다.

 

[과제중심적접근방식]

- 단기적 접근방식

- 주로 당면한 과제를 빠르게 해결하기 위해 사용

 

[마스터플랜접근방식]

- 중장기적 접근방식

- 지속적인 분석 문화를 내재화하기 위해 사용

 

[혼합방식]

- 분석의 가치를 증명하기 위해 과제를 빠르게 해결

- 동적인 환경에서 발산과 수렴 단계 반복 -> 신제불 개발이나 전략 수립 등 중요한 의사결정 시 사용

 

[분석로드맵설정]

- 마스터 플랜에서 정의한 목표를 기반으로 분석 과젤르 수행하기 위해 필요한 기준등을 담아 만든 종합적인 계획이다

- 단계별로 추진하고자 하는 목표를 명확하게 정의하고,추진 과제별 선행관계를 고려하여 단계별 추진 내용을 정렬한다

데이터 수집 및 확보와 분석 데이터 준비 단계는 순차적으로 진행하고 모델링 단계는 반복적으로 수행하는 순차형과 반복형을 혼합하여 사용한다

 

[분석마스터플랜]

- 분석 과제를 수행함에 있어 그 과제의 목적이나 목표에 따라 전체적인 방향성을 제시하는 기본계획

 

[분석 대상과 방법에 따른 분류]

데이터 분석 주제 유형

 

[분석 마스터 플랜수립시 적용 우선순위를 결정하는 주요요인]

- 비즈니스 성과

- 전략적 중요도(ROI)

- 실행용이성

 

[분석 ROI요소를 고려한 과제 우선순위 평가기준]

<시급성(중요)>

평가요소: 전략적 중요도/목표가치(KPI)

ROI요소: 비즈니스 효과 (새로운가치 Value)

<난이도>

평가요소: 데이터획득비용/데이터가공비용/데이터저장비용/분석적용비용/분석수준

ROI요소 : 투자비용 요소 (데이터 크기 Volume , 데이터 형태 Variety ,데이터 속도 Velocity)

 

 

[분석과제 우선순위 선정 및 조정(ROI)]

- 포트폴리오 사분면 분석기법 : 난이도와 시급성을 기준으로

- 시급성 우선 : 3>4>1>2

- 난이도 우선 : 3>1>4>2

- 3과 2는 고정

 

[하향식접근방식]

- 전통적

- 문제가 주어지고 해법을 찾기 위해 체계적으로 단계화되어 수행

-  문제 탐색(Problem Discovery) > 문제 정의(Problem Definition) > 해결방안 탐색(Solution Search) > 타당성 평가()

 

[상향식접근방식]

- 문제의 정의자체가 어려운 경우

- 데이터를 기반으로 문제의 재정의 및 해결방안 탐색 -> 지속적 개선 

- 데이터 분석을 통해 원인 추적 및 생각지 못한 인사이트 도출

- 비지도학습 방법에 의해 수행 -> 시행착오로 개선

- 하향식 접근 방식의 한계를 극복하기 위해 등장 

 

[분석방법론]

- 상세한절차(procedures),방법(methods),도구와 기법(tool&techniques),템플릿과 산출물(templates&outputs)

- 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도

- 형식화>체계화>내재화의 선순환

- 일반적으로 계층적 프로세스 모델형태로 구성 -> 단계/태스크/스텝 3계층 

 

[KDD 분석방법론]

- Knowledge Discovery in Database

- 데이터 마이닝,기계학습,인공지능,패턴인식,시각화 등에 응용

- 데이터에서 패턴을 찾는 9개의 프로세스 제시 

- 데이터셋 선택>데이터전처리>데이터변환>데이터마이닝>데이터마이닝 결과 평가 ; 총 5단계

- Selection > Preprocessing > Transformation > DataMining > Interpretation/Evalution

- 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스 

 

[CRISP-DM 분석방법론]

- Cross Industry Standard Process for Data Mining

- 계층적 프로세스 모델 

- 4계층으로 구성 ; 최상위 레벨,일반화 태스크(Generic Tasks),세분화 태스크(Specialized Tasks),프로세스 실행(Process Instances)

- 데이터 탐색과 이해 및 데이터를 통한 문제 인식과 해결 가능 

- 비즈니스 요구사항에 맞게 데이터 마이닝 반복 수행 가능 

- 업무이해>데이터이해>데이터준비모델링>평가>전개 ; 총6단계

- Business Understanding > Data Understanding >Data Preparation > Modeling > Evalution > Deployment

 

[SEMMA 분석방법론]

- 추출 > 탐색 > 수정 > 모델링 > 평가

- Sample > Explore > Modify > Model > Assess 

- SAS Insitute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스 

 

[빅데이터분석방법론]

- 응용 서비스 개발을 위한 방법론

- 3계층 ; 단계(Phase),태스크(Task),스텝(Step)

- 각 단계별로 세부태스크와 스텝이 정의

- 분석기획>데이터준비>데이터분석>시스템구현>평가 및 전개 ; 총5단계

- Planning > Preparing > Analyzing > Developing > Deploying

- 텍스트분석을 위한 용어사전 필요

 

[빅데이터분석방법론 단계별 세부 태스크]

<분석 기획 단계> : 비즈니스 이해 및 범위 설정/프로젝트 정의 및 계획수립/프로젝트 위험 계획 수립

<평가 및 전개 단계> : 모델 발전 계획 수립

 

[데이터 분석 거버넌스 구성요소]

- 데이터 분석 기획과 관리를 수행하는 조직(Organization)

- 데이터 분석 과제 기획과 운영 프로세스(Process)

- 데이터 분석 지원 인프라(System)

- 데이터 거버넌스(Data)

- 데이터 분석 교육 및 마인드 육성체계(Human Resource)

 

[데이터 거버넌스 주요 관리 대싱]

- 마스터데이터

- 메타데이터

- 데이터사전

 

[협의의 분석 플랫폼]

- 데이터처리 프레임워크

- 분석 엔진

- 분석 라이브러리

 

[광의의 분석 플랫폼]

- 협의의 분석 플랫폼

- 분석 서비스 제공 엔진

- 분석 애플리케이션

- 분석 서비스 제공 API

- 운영체제

 

[분석 준비도]

-  조직 내 데이터 분석 업무 도입을 목적으로 현재 수준을 파악하기 위한 진단 방법

- 총 6가지 영역을 대상으로 현재 수준을 파악

- 각 진단 결과 전체 요건 중 일정 수준 이상 충족하면 데이터 분석 업무를 도입

 

[분석 성숙도]

- 비즈니스 부문/조직 및 역량 부문/IT부문 ; 총 3개의 부문을 대상으로 실시

- 성숙도 수준에 따라 도입단계/활용단계/확산단계/최적화 단계로 구분

- 확산 단계에서는 전사 차원에서 분석을 관리하고 공유

- 데이터사이언스그룹,경영진 분석활용,전략 연계는 조직 및 역량 부문의 최적화 단계에 해당

- 전사 성과,실시간 분석,프로세스 혁신 3.0,분석 규칙 관리,이벤트 관리는 비즈니스 부문에서 확산 단계에 해당

- 전문 담당부서에서 수행,분석기법 도입,관리자가 분석 수행은 조직 및 역량 부문의 활용 단계에 해당

 

[분석 기획시 고려해야할 사항]

- 사용 가능 한 데이터에 대한 확인 필요

- 기존에 잘 구현되어 활용되고 있는 적합한 사례가 있는 탐색

- 분석 수행 시 발생 가능한 위험요소들에 대한 고려가 필요

 

[분석 수행시 고려해야할 사항]

- 반복 작업이 빈번하므로 반복 횟수와 회당 제한시간에 대한 고려


 

 

[데이터 처리 영역]

- 데이터 소스

- 데이터 수집

- 데이터 저장

- 데이터 처리

 

[데이터 분석 영역]

- 데이터 분석 : 도메인 이슈 도출/분석목표 수립/프로젝트 계획 수립/보유 데이터 자산 확

- 데이터 표현 : 빅데이터 분석 결과 시각화

 

[데이터 분석 기법에 따른 데이터셋]

- 훈련 데이터셋(Training) : 모델을 학습하는데 사용

- 검증 데이터셋(Validation) : 훈련 데이터셋으로 만들어진 모델의 성능을 측정하는데 사용

- 테스트 데이터셋(Test) : 검증 데이터셋을 통해 사용할 모델이 결정된 후 모델의 예상 성능을 측정하는데 사용