모의고사 1회 [1.빅데이터분석기획] 데이터 수집과 관련된 표준용어로, 추출, 변환, 적재의 과정: ETL
딥러닝: dropout-과적합 방지하기 위한 방법으로, 데이터학습과정에서 유니스이 일부 랜덤하게 누락 sigmoid function을 주로 activation으로 사용(애매) 오류역전파 알고리즘: 최적의 학습 결과를 찾기위해 역방향으로
빅데이터 분석 방법론: 과정)분석 기획-데이터준비-데이터분석-시스템구현-평가
기존 데이터 학습시켜(지도학습) 분류, 회귀에 적합한 학습방식-지도학습
*개인정보 비식별 조치에 대한 익명성 검증 방법: t-근접성: 민감한 정보의 분포 낮춰 추론 가능성을 낮춤 k-익명성: 특정인 추론가능한지 여부를 검토, 일정 확률수준이상 비식별 m-유일성: 원본데이터와 동일한 속성값 조합이 최소 m개 존재해야 재식별 낮음
개인정보 비식별화 방법: (0)가명처리/총계처리/데이터범주화/데이터삭제/데이터마스킹: 분석가능 (x)데이터암호화: 분석 불가
EDA(탐색적 데이터 분석): 분석용 데이터에 대한 특성을 파악..의미있는 결과 도출 분석을 위한 모델을 선정하기 위한 과정(x) 어떻게 데이터를 가공해서 쓸 수 있을까 기술통계, 가설검정, 데이터시각화 등은 데이터를 단순히 통계적으로 분석한것
분석대상/분석방법 유무 시에 문제해결방법
분석대상0 분석대상x
분석방법0 optimize insight
분석방법x solution discovery
정보주체의 동의없이 수집 및 이용 가능한 경우 (x)학교에서 임용시 범죄 이력: 동의 받아야함 (0)급박한 경우, 병원 진료기록부 개인정보, 통신사에서 요금 부과위해 조회
정형데이터의 품질진단 방법 메타데이터 수집 및 분석, 칼럼 속성 분석, 값의 허용범위 분석, .....
모형화: 데이터 분석시 복잡한 문제의 단순화를 통해 문제를 변수간의 관계로 정의하는 것
분석 유형 진단분석: 원인 파악 예측분석: 앞으로 어떻게 처방분석: 대처 파악 기술분석: 무엇이 발생
이상치: 추정치가 편파성 일으키는 문제나 추정치의 타당도 문제가 발생할 수 있는 값
데이터 유형별 데이터 수집 방법 센서데이터-센싱 동영상-스트리밍 DBMS-DBtoDB 웹:크롤링
데이터 분석 성숙도 모델: 성숙도 수준 도입-활용-확산-최적화(도활확최)
개인정보 수집시 사전고지해야할 정보 수집 및 이용 목적 보유 및 이용기간 동의를 거부할 권리가 있음 (x)파기할 내용
상향식 접근 방식-근대적, 데이터 활용한 인사이트 도출, 시행착오 하향식 접근 방식-전통적, 기존 모델통한 문제 탐색, 단계 반복적 실행
품질 기준 유효성: 데이터 중 더 유효한것 정확성: 객체의 표현값이 정확히 반영되어야함 무결성: 데이터 결함없어야함
데이터 거버넌스: 전사 차원의 표준화된 관리 체계 수립하는 것 데이터 표준화, 데이터 아키텍처: 거버넌스의 한 축
================================================================ [2.빅데이터탐색] 박스 플롯: 수치적 자료를 표현한 그래프, 자료로부터 알아낸 통계수치 알수있는 요약수치) 최소값, 최대값, 이상값 유무, 사분위(0) 분산, 편차 (x)
단계적 선택법