Skip to content

zkdk1241/bigdata-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 

Repository files navigation

bigdata-analysis

모의고사 1회 [1.빅데이터분석기획] 데이터 수집과 관련된 표준용어로, 추출, 변환, 적재의 과정: ETL

딥러닝: dropout-과적합 방지하기 위한 방법으로, 데이터학습과정에서 유니스이 일부 랜덤하게 누락 sigmoid function을 주로 activation으로 사용(애매) 오류역전파 알고리즘: 최적의 학습 결과를 찾기위해 역방향으로

빅데이터 분석 방법론: 과정)분석 기획-데이터준비-데이터분석-시스템구현-평가

기존 데이터 학습시켜(지도학습) 분류, 회귀에 적합한 학습방식-지도학습

*개인정보 비식별 조치에 대한 익명성 검증 방법: t-근접성: 민감한 정보의 분포 낮춰 추론 가능성을 낮춤 k-익명성: 특정인 추론가능한지 여부를 검토, 일정 확률수준이상 비식별 m-유일성: 원본데이터와 동일한 속성값 조합이 최소 m개 존재해야 재식별 낮음

개인정보 비식별화 방법: (0)가명처리/총계처리/데이터범주화/데이터삭제/데이터마스킹: 분석가능 (x)데이터암호화: 분석 불가

EDA(탐색적 데이터 분석): 분석용 데이터에 대한 특성을 파악..의미있는 결과 도출 분석을 위한 모델을 선정하기 위한 과정(x) 어떻게 데이터를 가공해서 쓸 수 있을까 기술통계, 가설검정, 데이터시각화 등은 데이터를 단순히 통계적으로 분석한것

분석대상/분석방법 유무 시에 문제해결방법

        분석대상0  분석대상x

분석방법0 optimize insight

분석방법x solution discovery

정보주체의 동의없이 수집 및 이용 가능한 경우 (x)학교에서 임용시 범죄 이력: 동의 받아야함 (0)급박한 경우, 병원 진료기록부 개인정보, 통신사에서 요금 부과위해 조회

정형데이터의 품질진단 방법 메타데이터 수집 및 분석, 칼럼 속성 분석, 값의 허용범위 분석, .....

모형화: 데이터 분석시 복잡한 문제의 단순화를 통해 문제를 변수간의 관계로 정의하는 것

분석 유형 진단분석: 원인 파악 예측분석: 앞으로 어떻게 처방분석: 대처 파악 기술분석: 무엇이 발생

이상치: 추정치가 편파성 일으키는 문제나 추정치의 타당도 문제가 발생할 수 있는 값

데이터 유형별 데이터 수집 방법 센서데이터-센싱 동영상-스트리밍 DBMS-DBtoDB 웹:크롤링

데이터 분석 성숙도 모델: 성숙도 수준 도입-활용-확산-최적화(도활확최)

개인정보 수집시 사전고지해야할 정보 수집 및 이용 목적 보유 및 이용기간 동의를 거부할 권리가 있음 (x)파기할 내용

상향식 접근 방식-근대적, 데이터 활용한 인사이트 도출, 시행착오 하향식 접근 방식-전통적, 기존 모델통한 문제 탐색, 단계 반복적 실행

품질 기준 유효성: 데이터 중 더 유효한것 정확성: 객체의 표현값이 정확히 반영되어야함 무결성: 데이터 결함없어야함

데이터 거버넌스: 전사 차원의 표준화된 관리 체계 수립하는 것 데이터 표준화, 데이터 아키텍처: 거버넌스의 한 축

================================================================ [2.빅데이터탐색] 박스 플롯: 수치적 자료를 표현한 그래프, 자료로부터 알아낸 통계수치 알수있는 요약수치) 최소값, 최대값, 이상값 유무, 사분위(0) 분산, 편차 (x)

단계적 선택법

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published