[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 빅데이터의 이해 (요약정리)
에이블스쿨 교육과 병행하며
제일 따고 싶은 자격증이 바로 빅분기 입니당!!
저번 ADsP를 3일 벼락치기.......를 실패하며 ^^...
빅분기는 정말정말 따야하는데...!! 그래서 공부한 개념을 정리해보려구합니당~
DX과정을 들으면서 꼭 알아야 할 배경 지식이기도 합니다!!!
아 참고로 저는 이기적 수험서로 공부합니다!
1과목; 빅데이터 분석 기획 - 빅데이터의 이해
[데이터의 구분]
- 정량적데이터 : 주로 숫자로 이루어짐
- 정성적데이터 : 문자와 같은 텍스트. 함축척 의미
[데이터의 유형]
- 정형 (Structured Data) : 관계형 데이터베이스 테이블에 저장되는 데이터 등
- 반정형 (Semi-Structured Data) : JSON,XML,RDF,HTML 등
- 비정형 (Unstrutured Data) : 동영상,이미지,음성,문서,메일 등
* 데이터의 구분은 품질과 무관
* 정형데이터보타 비정형데이터가 일반적으로 다양한 분석을 시도하기엔 유리함
[지식 창조 메커니즘] ; 공포연내
1. 공통화
2. 표출화
3. 연결화
4. 내면
[지식의피라미드 - 가치창출 프로세스]
데이터 > 정보 > 지식 > 지혜
* 정보의 특징 : 정확성/적시성/적당성/관련성
[OLTP와 OLAP]
- OLTP : 갱신 ; 복잡,동적으로 순간적,정규적인 핵심데이터,현재 데이터,트랜잭션 중심,주기적이며 예측가능
- OALP : 조회 ; 단순,정적으로 주기적,비정규적 읽기 전용 데이터,요약된 데이터,주제 중심,예측하기 어려움
[3V +2V]
3V : 규모(Volume;대용량성) - 유형(Variety;다양) - 속도(Velocity;신속성)
+2V : 품질(Veracity),가치(Value)
[빅데이터 활용을 위한 3요소]
- 자원(Resource) : 빅데이터
- 기술(Technology) : 빅데이터 플랫폼,AI
- 인력(People) :알고리즈미스트,데이터사이언티스트
[데이터 웨어하우스]
- 특징 : 주제지향성/통합성/시계열성/비휘발성
- 구성요소 : 데이터모델/ETL/ODS/DW MetaData/OLAP/데이터마이닝/분석 TOOL/경영기반솔루션
* ODS : 운영데이터 저장소
[빅데이터가 만들어낸 변화]
- 사전처리>사후처리
- 인과관계>상관관계
- 표본조사>전수조사
- 데이터의 질>데이터의 양
[데이터의 가치 측정이 어려운 이유]
- 데이터 활용방식(재사용 등)/가치창출방식/분석기술발전
[데이터 산업 구조]
- 인프라 영역
- 서비스 영역 : 데이터나 데이터를 가공한 정보를 제공/데이터 활용 교육/데이터 처리 제공/데이터 기반 컨설팅
[조직구조]
- 집중 : 중복 및 이원화 가능성,전략적 중요도에 따라 우선순위가 정함,별도의 전담조직에서 수행
- 기능 : 일반적구조,각 현업부서에서 직접 수행,협소한 분석
- 분산 : 현업에 빠르게 적용가능,분석 전문 인력을 현업부서에 배치, 우선순위 선정 및 수행
[마이데이터 등장 시점]
- 데이터 권리 시대
[데이터 사이언티스트 요구역량]
- 소프트스킬 : 문과적
- 하드스킬 : 이과적
[빅데이터 플랫폼의 요소 기술]
- 데이터 생성기술/수집기술/저장기술/공유기술/처리기술/분석기술/시각화 기술
[ETL; Extract/Transform/Load]
- 원천 데이터로부터 필요한 데이터를 추출하여 적재하고자 하는 데이터 웨어하우스에 맞게 변환하여 적재하는 과정
[빅데이터 플랫폼 빅데이터 수집기술]
- 크롤링,로그 수집기,센서네트워크,RSS Reader/Open Api,ETL
* Clustering은 데이터 분석기술
[맵리듀스의 데이터 처리과정]
- Split > Map > Shuffle > Reduce
- 데이터분할 > 맵처리 > 셔플 > 리듀스
* 맵리듀스 : 대용량 데이터를 분산처리 하기위한 목적으로 개발된 프레임 워크
[빅데이터 플랫폼의 등장배경]
- 데이터 처리 복잡도 증가
- 데이터 구조의 변화
- 데이터 처리의 신속성 요구
- 데이터 분석 유연성 즈대
- 비즈니스 요구사항 변화
- 데이터 규모 증가
[빅데이터 플랫폼 부하 제어 기능]
- 컴퓨팅 부하 제어
- 저장 부하 제어
- 네트워크 부하 제어
[딥러닝 분석 기법]
- CNN ( Convolutional Neural Networ): 컨볼루션 네트워크 (합성곱 신경망)
- RNN (Recurrent Neural Network)
- LSTM (Log Short Neural Network)
- Auto - encoder
* KNN(K Nearest Neighborhood)은 무신러닝 알고리즘
[기계학습 종류]
- 지도학습 (Supervised Learning)
- 비지도학습 (Unsupervised Learning)
- 준지도학습 (Semi - supervised Learning )
- 강화학습 (Reinforcement Learning)
[애노테이션 (Annotation)]
- 데이터상의 주석 작업으로 딥러닝과 같은 학습알고리즘이 무엇을 학습해야 하는지 알려주는 표식 작업
[개인정보 판단기준]
- 생존하는 개인에 관한 정보
- 정보의 내용이나 형태등은 제한이 없음
- 개인을 알아볼 수 있는 정보여야함
- 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함
* 법인은 아님
[데이터 기본3법]
- 개인정보보호법 : 살아있는 개인에 관한 정보
- 정보통신망 이용촉진 및 정보보호 등에 관한 법률
- 신용정보의 이용 및 보호에 관한 법률 : 금융거래 등 상거래에서 신용을 판단할 때 필요한 정보
* 문제 중 보기가 맞는 내용이더라도 각 법률에 해당되는 내용인지 체크 필수
* 2020년에 개정된 내용 : 데이터 이용 활성화를 위한 가명정보 개념을 도입/개인정보처리자 책임 강화/개인정보 판단기준 명확/거버넌스 체계 효율화
*일반법과 특별법이 저촉되면 특별법이 먼저 적용 / 법률이 상호 모순되거나 저촉되면 신법이 구법에 우선함
[개인정보 식별 ]
- 개인정보 재식별시 조치사항 : 비식별화된 개인정보가 재식별된 경우 즉시 파기하거나 추가적인 비식별화 조치
- 개인정보 비식별화 절차 : 사전검토 > 비식별 조치 > 적정성 평가 > 사후 관리
- 비식별화 방법 : 가명처리/총계처리/데이터삭제/데이터 범주화/데이터 마스킹
[빅데이터로 인한 위기 요인]
- 사생활의 침해 : 익명화(개인정보를 삭제하거나 변환)/ 데이터 수집 단계/동의에서 책임으로
- 책임 원칙의 훼손 : 데이터 활용 단계 / 결과 기반 책임원칙 고수(클러스터링의 피해)
- 데이터의 오용 : 데이터 처리 단계 / 알고리즘 접근을 허용
내일은 데이터 분석 계획 정리
'KT에이블스쿨 5기 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 필기 오답노트 (0) | 2024.05.27 |
---|---|
빅데이터분석기사 필기 (턱걸이) 합격 후기 (2) | 2024.04.22 |
[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 데이터 분석 계획 (요약 정리) (4) | 2024.03.26 |