Skip to content

Latest commit

 

History

History
43 lines (27 loc) · 2.19 KB

README.md

File metadata and controls

43 lines (27 loc) · 2.19 KB

Data Sampling

Data Sampling이란

  • 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스
  • 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부분을 조사하고 전체 데이터 집합에 대한 결론을 도출하는데 활용한다.
  • 큰 데이터 집합을 다 볼 수는 없을 때가 있다. 이 중에 Data Sampling을 통해 작은 집합을 추출할 수 있다면, 이 집합으로 전체 데이터가 이렇겠구나 라는 통찰력을 얻을 수 있고, 계산 저장 등 공간을 줄이는데에도 도움이 된다.

Data Sampling의 목적

위에 정의에서도 살짝 언급되었지만, 그래서ㅐ Data Sampilng을 하는 이유는

  • 자원 및 시간 절약: 전체 데이터 집합을 처리하거나 분석하는 데 걸리는 시간과 자원을 절약. 대규모 데이터 집합에서 무작위로 추출된 샘플은 대부분의 데이터를 다루지 않아도 결과를 얻을 수 있음
  • 데이터 테스트: 더 많은 데이터를 수집하기 전에 시스템 및 알고리즘을 테스트 가능

Data Sampling의 종류

  1. Random Sampling
  • 무작위로 데이터 집합에서 샘플을 선택하는 방법
  • 랜덤하기 때문에 편향이 적음
  1. Stratified Sampling
  • 데이터를 계층적으로 분류한 뒤, 그 계층에서 샘플을 추출
  • 계측의 특성을 반영해서 추출하고 싶을때 사용
  1. Cluster Sampling
  • 데이터를 여러 그룹 또는 cluster로 나누고, 몇 개의 cluster를 무작위로 선택한 후 선택된 cluster 내의 모든 데이터를 포함하는 방법.
  • 데이터가 고루 분포되지 않은 경우에 유용
  1. weight Sampling
  • 데이터 포인트에 가중치를 할당하고 이러한 가중치를 기반으로 샘플을 추출하는 방법
  • 데이터 포인트에 할당된 가중치는 해당 데이터 포인트의 중요성을 나타내며, 중요한 데이터는 더 자주 선택될 가능성이 높음
  • 불균형 데이터 분포를 가진경우 잘 활용됨
  1. Importance Sampling
  • 확률 분포에 기반한 통계 샘플링 기법.
  • 베이지안 추론, 몬테 카를로 시뮬레이션, 결합 확률 분포의 추정 등