빅데이터분석기사 필기 오답노트
지난번에 빅분기 필기 합격후기를 올렸었는데요 ㅎㅎ!!
글서 내일부터 실기공부를 시작합니다
지난 포스팅에서,
필기 공부를 영진닷컴 CBT로 했다고 했었는데, 거기서 자주 틀렸던 문제들
오답노트 공유합니다 ㅎㅎ!
KT에이블스쿨 강의를 가볍게 복습할 수 있으니
빅분기 시험이 아니더라두 한번 읽어보시는ㄱ ㅓ 추천드립니당 ✅
1과목
- 애노테이션(annotation)
- 데이터상의 주석 작업으로 딥러닝과 같은 학습 알고리즘이 무엇을 학습해야 하는지 알려 주는 표식 작업
- 하향식 접근 방식
- 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 평가
- CRISP-DM 분석 방법론
- 업무 이해(Business Understanding) → 데이터 이해(Data Understanding) → 데이터 준비(Data Preparation), 모델링(Modeling) → 평가(Evaluation) → 전개(Deployment)
- 비식별화 방법
- 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹
- 맵리듀스의 데이터 처리과정
- 데이터 분할(Split) → 맵(Map) 처리 → 셔플(Shuffle) → 리듀스(Reduce)
- KDD 분석 방법
- 데이터셋 선택(Selection) → 데이터 전처리(Preprocessing) → 데이터 변환(Transformation) → 데이터마이닝(Data Mining) → 데이터마이닝 결과 평가(Interpretation/ Evaluation)
- 분석 마스터 플랜 수립 시 적용 우선순위
- 전략적 중요도, 비즈니스 성과(ROI), 실행 용이성
- 데이터 활용에 필요한 3요소
- 자원(데이터), 기술, 인력
- 프로세스 아님
2과목
- 수치자료
- 구간자료
- 비율자료
- 수치의 크기에 의미를 부여할 수 있는 자료
- 이원시간데이터
- 거래, 유효시간과 스냅샷데이터를 동시에 지원하는 데이터
- 분포 성질 ; 이산확률분포/연속확률분포
- 이산확률분포 : 포아송분포
- 연속확률분호 : T-분포,정규분포,카이제곱분포
- 구간추정과 점추정
- 점추정 : 모집단의 모수를 하나의값으로 추정 해주는 것
- 구간추정 : 점추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것
- 우리가 아무리 좋은 추정방법을 사용한다고 하더라도 표본을 택하고 이 표본으로부터 계산된 추정값이 목표값을 정확하게 추정한다고 주장할 수는 없음
- 모수와 모수추정
- 일치성(consistency) : 표본 크기가 증가할수록 좋은 추정값을 제시한다.
- 모수는 모집단의 특성을 수치화하여 나타낸 것
- 모수의 추정량의 선택기준으로는 불편성,효율성,일치성,충분성이 있음
- 충분성은 추정량이 모수에 대하여 가장 많은 정보를 제공할 때 그 추정량은 충분 추정량이 됨
- 질적자료(Qualitative Data)
- 정성적 자료라고도 하며 자료를 범주의 형태로 분류한다. 분류의 편리상 부여된 수치의 크기자체에는 의미를 부여하지 않는 자료이며 명목자료, 서열자료 등이 질적자료로 분류된다.
- 명목자료 : 측정대상이 범주나 종류나 대해 구분 되어지는 것을 수치 또는 기호로 분류할 수 없는 자료
- 정성적 자료라고도 하며 자료를 범주의 형태로 분류한다. 분류의 편리상 부여된 수치의 크기자체에는 의미를 부여하지 않는 자료이며 명목자료, 서열자료 등이 질적자료로 분류된다.
- 차원축소 필요성
- 차원의 증가는 분석모델 파라메터의 증가 및 파라메터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다. 이것은 분석모형의 정확도(신뢰도) 저하를 발생시킬 수 있다.
- 데이터를 분석하는데 있어서 분석시간의 증가(시간 복잡도)와 저장변수 양의 증가 (공간복잡도)를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야함
- 차원이 작은 간단한 분석 모델일수록 내부구조 이해가 용이하고 해석이 쉬워진다.
- 작원 차원반으로 안정적인(robust) 결과를 도출해낼 수 있다면 많은 차원을 다루는 것보다 효율적이다.
- 결측데이터의 종류
- 완전무작위결측(MCAR) : 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않은 다른 변수와 아무런 연관이 없는 경우 → 대규모데이터에서 단순 무작위 표본 추출을 통해 처리 가능
- 무작위결측(MAR) : 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만, 그 자체가 비관측값들과는 연관되지 않은 경우 ex 젊은(x) 여성(y)의 경우는 체중 공개를 꺼린느 경우가 높음
- 비무작위결측(NMAR) : 어떤 변수의 결측데이터가 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의하는 즉, 결측 변수값이 결측여부(이유)와 관련이 있는 경우이다. ex 무겁거나 가벼운 사람들은 체중 공개 가능성이 적음
- 시공간 정의언어와 조작언어
- 정의언어 :
- 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간속성 타입이 추가되어 있다.
- 시공간테이블 인덱스 및 뷰의 정의문,변경문 등이 포함되어있다,
- 조작언어
- 객체의 삽입,삭제,변경 등의 검색문이 있다
- 시간 지원 연산자와 공간연산자를포함하며 이를 통해 객체에 대한 공간관리와 이력정보를제공한다.
- 정의언어 :
💡 이론적으로 값은 통계적 확률 시행을 무한 번 반복시행하면 수학적 확률을 값으로 수렴한다.
- 오차역전파
- 실제 출력과 목표 출력값과의 오차 산출, 비례한 가중치를 출력층에서 은닉층으로 갱신한다. → 가중치 매개변수의기울기를미분을 통해 진행하는것은 시간 비용이 크기때문
- ReLU (렐루) 활성화홤수 - 이진분류
- Sigmoid의 Gradient Vanishing 문제를 해결하며 0보다 크면 입력값을 그대로 출력하고 0 이하의 값은 0으로 출력
- 활성화 함수
- 입력신호의 총합을 출력신호로 변환하는 함수를 일반적으로 활성화 함수
- 분석시나리오작성
- 분석과정에 필요한 데이터, 절차, 분석기법 등의 세부사항들을 정의, 분석과정과 결과가 어떻게 활용되는지 명확히 알 수 있다.
- 과대적합 방지하기위한기법
- 데이터 분할, K-fold 교차검증, 정규화 등의 방법
- 로지스틱 회귀분석이 선형 회귀분석과 비교시 차이점
- 종속변수 : 범주형범수
- 분포 : 이항분포
- 종속변수가 없을 시에 사용할 수 있는 알고리즘
- 군집분석
- 연관분석
- 주성분분석
- 분류분석
- 종속변수는 결과값 변수로 지도학습 기반 분석모형에 해당하는 것으로 이와 관계있는분석은분류 분석
- 정보획득(Information Gain)
- 정보이론에서 순도가 증가하고 불확실성이 감소하는 것을 의미하는 용어
3과목
- 과대적합 방지를위한기법
- 드롭아웃
- L2규제
- L1규제
- 시각적분석
- 데이터 시각화의 하위 개념으로 상호작용이 가능한 시각적 인터페이스를 사용해 데이터의 특징을 분석해 나가는 과정
- 상호작용이 가능한 시각적 인터페이스를 사용해 데이터의 분석적 추론을 진행하는 과정을 말한다. 문제의 크기가 크거나 복잡한 영역에서 시각적으로 다양한 측면에 따라 사람과 컴퓨터가 상호작용하면서 분석을 진행한다.
4과목
ADP) 3-4. 파이썬 그래프 총정리 - 4탄: 히트맵, 체르노프 페이스, 스타차트(거미줄차트,방사형차트), 평형좌표계, 다차원척도법
- AUC(Area Under the Curve)
- ROC 곡선 하단영역의 넓이를 구한 값으로 0~1 사이의 범위를 가지며 더 높을수록 더 좋은 분류성능을 의미
- 평가모델의 ROC곡선의 하단 면적을 뜻하며 ROC곡선이 직선에서 멀어질수록 성능이 더 뛰어남을 뜻하는 용어
- 분석모니터링
- 분석 서비스의 안정적인 운영과 현행화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동
- 주변 환경과 데이터의 변화를 빅데이터 분석 모델에 지속적으로 반영하기 위해 분석 모형을 지속적으로 모니터링하고 리모델링해야함
- 초매개변수 최적화 기법
- 미니배치크기
- 훈련반복 횟수
- 은닉층개수조정
- 회귀분석 잔차진단 유형
- 정규성
- 등분산성
- 독립성
'KT에이블스쿨 5기 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 필기 (턱걸이) 합격 후기 (2) | 2024.04.22 |
---|---|
[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 데이터 분석 계획 (요약 정리) (4) | 2024.03.26 |
[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 - 빅데이터의 이해 요약정리 (0) | 2024.03.18 |