KT에이블스쿨 5기/빅데이터분석기사

[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 빅데이터의 이해 요약정리

ryuming 2024. 3. 18. 00:11

[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 빅데이터의 이해 (요약정리)

 

에이블스쿨 교육과 병행하며

 제일 따고 싶은 자격증이 바로 빅분기 입니당!!

 

저번 ADsP를 3일 벼락치기.......를 실패하며 ^^...

빅분기는 정말정말 따야하는데...!! 그래서 공부한 개념을 정리해보려구합니당~

DX과정을 들으면서 꼭 알아야 할 배경 지식이기도 합니다!!!

 

아 참고로 저는 이기적 수험서로 공부합니다!


1과목; 빅데이터 분석 기획 - 빅데이터의 이해 

 

[데이터의 구분]

- 정량적데이터 : 주로 숫자로 이루어짐

- 정성적데이터 : 문자와 같은 텍스트. 함축척 의미

 

[데이터의 유형]

- 정형 (Structured Data) : 관계형 데이터베이스 테이블에 저장되는 데이터 등

- 반정형 (Semi-Structured Data) : JSON,XML,RDF,HTML 등

- 비정형 (Unstrutured Data) : 동영상,이미지,음성,문서,메일 등

* 데이터의 구분은 품질과 무관

* 정형데이터보타 비정형데이터가 일반적으로 다양한 분석을 시도하기엔 유리함

 

[지식 창조 메커니즘] ; 공포연내

1. 공통화 

2. 표출화

3. 연결화

4. 내면

 

[지식의피라미드 - 가치창출 프로세스]

데이터 > 정보 > 지식 > 지혜

* 정보의 특징 : 정확성/적시성/적당성/관련성

 

[OLTP와 OLAP]

- OLTP : 갱신 ; 복잡,동적으로 순간적,정규적인 핵심데이터,현재 데이터,트랜잭션 중심,주기적이며 예측가능 

- OALP : 조회 ; 단순,정적으로 주기적,비정규적 읽기 전용 데이터,요약된 데이터,주제 중심,예측하기 어려움

 

[3V +2V]

3V : 규모(Volume;대용량성) - 유형(Variety;다양) - 속도(Velocity;신속성)

+2V : 품질(Veracity),가치(Value)

 

[빅데이터 활용을 위한 3요소]

- 자원(Resource) : 빅데이터 

- 기술(Technology) : 빅데이터 플랫폼,AI

- 인력(People) :알고리즈미스트,데이터사이언티스트

 

[데이터 웨어하우스]

- 특징 : 주제지향성/통합성/시계열성/비휘발성

- 구성요소 : 데이터모델/ETL/ODS/DW MetaData/OLAP/데이터마이닝/분석 TOOL/경영기반솔루션

* ODS : 운영데이터 저장소

 

[빅데이터가 만들어낸 변화]

- 사전처리>사후처리

- 인과관계>상관관계

- 표본조사>전수조사

- 데이터의 질>데이터의 양

 

[데이터의 가치 측정이 어려운 이유]

- 데이터 활용방식(재사용 등)/가치창출방식/분석기술발전

 

[데이터 산업 구조]

- 인프라 영역

- 서비스 영역 : 데이터나 데이터를 가공한 정보를 제공/데이터 활용 교육/데이터 처리 제공/데이터 기반 컨설팅

 

[조직구조]

- 집중 : 중복 및 이원화 가능성,전략적 중요도에 따라 우선순위가 정함,별도의 전담조직에서 수행

- 기능 : 일반적구조,각 현업부서에서 직접 수행,협소한 분석

- 분산 : 현업에 빠르게 적용가능,분석 전문 인력을 현업부서에 배치, 우선순위 선정 및 수행

 

[마이데이터 등장 시점]

- 데이터 권리 시대

 

[데이터 사이언티스트 요구역량]

- 소프트스킬 : 문과적

- 하드스킬 : 이과적

 

[빅데이터 플랫폼의 요소 기술]

- 데이터 생성기술/수집기술/저장기술/공유기술/처리기술/분석기술/시각화 기술

 

[ETL; Extract/Transform/Load]

- 원천 데이터로부터 필요한 데이터를 추출하여 적재하고자 하는 데이터 웨어하우스에 맞게 변환하여 적재하는 과정 

 

[빅데이터 플랫폼 빅데이터 수집기술]

- 크롤링,로그 수집기,센서네트워크,RSS Reader/Open Api,ETL

* Clustering은 데이터 분석기술 

 

[맵리듀스의 데이터 처리과정]

- Split > Map > Shuffle > Reduce

- 데이터분할 > 맵처리 > 셔플 > 리듀스

* 맵리듀스 : 대용량 데이터를 분산처리 하기위한 목적으로 개발된 프레임 워크

 

[빅데이터 플랫폼의 등장배경]

- 데이터 처리 복잡도 증가

- 데이터 구조의 변화

- 데이터 처리의 신속성 요구

- 데이터 분석 유연성 즈대

- 비즈니스 요구사항 변화 

- 데이터 규모 증가

 

[빅데이터 플랫폼 부하 제어 기능]

- 컴퓨팅 부하 제어

- 저장 부하 제어

- 네트워크 부하 제어

 

[딥러닝 분석 기법]

- CNN ( Convolutional Neural Networ): 컨볼루션 네트워크 (합성곱 신경망)

- RNN (Recurrent Neural Network)

- LSTM (Log Short Neural Network)

- Auto - encoder

* KNN(K Nearest Neighborhood)은 무신러닝 알고리즘

 

[기계학습 종류]

- 지도학습 (Supervised Learning)

- 비지도학습  (Unsupervised Learning)

- 준지도학습 (Semi - supervised Learning )

- 강화학습 (Reinforcement Learning)

 

[애노테이션 (Annotation)]

- 데이터상의 주석 작업으로 딥러닝과 같은 학습알고리즘이 무엇을 학습해야 하는지 알려주는 표식 작업

 

[개인정보 판단기준]

- 생존하는 개인에 관한 정보

- 정보의 내용이나 형태등은 제한이 없음

- 개인을 알아볼 수 있는 정보여야함

- 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함

* 법인은 아님

 

[데이터 기본3법]

- 개인정보보호법 : 살아있는 개인에 관한 정보

- 정보통신망 이용촉진 및 정보보호 등에 관한 법률

- 신용정보의 이용 및 보호에 관한 법률 : 금융거래 등 상거래에서 신용을 판단할 때 필요한 정보

* 문제 중 보기가 맞는 내용이더라도 각 법률에 해당되는 내용인지 체크 필수

* 2020년에 개정된 내용 : 데이터 이용 활성화를 위한 가명정보 개념을 도입/개인정보처리자 책임 강화/개인정보 판단기준 명확/거버넌스 체계 효율화

*일반법과 특별법이 저촉되면 특별법이 먼저 적용 / 법률이 상호 모순되거나 저촉되면 신법이 구법에 우선함

 

[개인정보 식별 ]

- 개인정보 재식별시 조치사항  : 비식별화된 개인정보가 재식별된 경우 즉시 파기하거나 추가적인 비식별화 조치

- 개인정보 비식별화 절차 : 사전검토 > 비식별 조치 > 적정성 평가 > 사후 관리

- 비식별화 방법 : 가명처리/총계처리/데이터삭제/데이터 범주화/데이터 마스킹 

 

[빅데이터로 인한 위기 요인]

- 사생활의 침해 : 익명화(개인정보를 삭제하거나 변환)/ 데이터 수집 단계/동의에서 책임으로

- 책임 원칙의 훼손 : 데이터 활용 단계 / 결과 기반 책임원칙 고수(클러스터링의 피해)

- 데이터의 오용 : 데이터 처리 단계 / 알고리즘 접근을 허용

 


 

내일은 데이터 분석 계획 정리