Data Sampling

Data Sampling이란

큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스
통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부분을 조사하고 전체 데이터 집합에 대한 결론을 도출하는데 활용한다.
큰 데이터 집합을 다 볼 수는 없을 때가 있다. 이 중에 Data Sampling을 통해 작은 집합을 추출할 수 있다면, 이 집합으로 전체 데이터가 이렇겠구나 라는 통찰력을 얻을 수 있고, 계산 저장 등 공간을 줄이는데에도 도움이 된다.

Data Sampling의 목적

위에 정의에서도 살짝 언급되었지만, 그래서ㅐ Data Sampilng을 하는 이유는

자원 및 시간 절약: 전체 데이터 집합을 처리하거나 분석하는 데 걸리는 시간과 자원을 절약. 대규모 데이터 집합에서 무작위로 추출된 샘플은 대부분의 데이터를 다루지 않아도 결과를 얻을 수 있음
데이터 테스트: 더 많은 데이터를 수집하기 전에 시스템 및 알고리즘을 테스트 가능

Data Sampling의 종류

Random Sampling

무작위로 데이터 집합에서 샘플을 선택하는 방법
랜덤하기 때문에 편향이 적음

Stratified Sampling

데이터를 계층적으로 분류한 뒤, 그 계층에서 샘플을 추출
계측의 특성을 반영해서 추출하고 싶을때 사용

Cluster Sampling

데이터를 여러 그룹 또는 cluster로 나누고, 몇 개의 cluster를 무작위로 선택한 후 선택된 cluster 내의 모든 데이터를 포함하는 방법.
데이터가 고루 분포되지 않은 경우에 유용

weight Sampling

데이터 포인트에 가중치를 할당하고 이러한 가중치를 기반으로 샘플을 추출하는 방법
데이터 포인트에 할당된 가중치는 해당 데이터 포인트의 중요성을 나타내며, 중요한 데이터는 더 자주 선택될 가능성이 높음
불균형 데이터 분포를 가진경우 잘 활용됨

Importance Sampling

확률 분포에 기반한 통계 샘플링 기법.
베이지안 추론, 몬테 카를로 시뮬레이션, 결합 확률 분포의 추정 등