- 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스
- 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부분을 조사하고 전체 데이터 집합에 대한 결론을 도출하는데 활용한다.
- 큰 데이터 집합을 다 볼 수는 없을 때가 있다. 이 중에 Data Sampling을 통해 작은 집합을 추출할 수 있다면, 이 집합으로 전체 데이터가 이렇겠구나 라는 통찰력을 얻을 수 있고, 계산 저장 등 공간을 줄이는데에도 도움이 된다.
위에 정의에서도 살짝 언급되었지만, 그래서ㅐ Data Sampilng을 하는 이유는
- 자원 및 시간 절약: 전체 데이터 집합을 처리하거나 분석하는 데 걸리는 시간과 자원을 절약. 대규모 데이터 집합에서 무작위로 추출된 샘플은 대부분의 데이터를 다루지 않아도 결과를 얻을 수 있음
- 데이터 테스트: 더 많은 데이터를 수집하기 전에 시스템 및 알고리즘을 테스트 가능
- Random Sampling
- 무작위로 데이터 집합에서 샘플을 선택하는 방법
- 랜덤하기 때문에 편향이 적음
- Stratified Sampling
- 데이터를 계층적으로 분류한 뒤, 그 계층에서 샘플을 추출
- 계측의 특성을 반영해서 추출하고 싶을때 사용
- Cluster Sampling
- 데이터를 여러 그룹 또는 cluster로 나누고, 몇 개의 cluster를 무작위로 선택한 후 선택된 cluster 내의 모든 데이터를 포함하는 방법.
- 데이터가 고루 분포되지 않은 경우에 유용
- weight Sampling
- 데이터 포인트에 가중치를 할당하고 이러한 가중치를 기반으로 샘플을 추출하는 방법
- 데이터 포인트에 할당된 가중치는 해당 데이터 포인트의 중요성을 나타내며, 중요한 데이터는 더 자주 선택될 가능성이 높음
- 불균형 데이터 분포를 가진경우 잘 활용됨
- Importance Sampling
- 확률 분포에 기반한 통계 샘플링 기법.
- 베이지안 추론, 몬테 카를로 시뮬레이션, 결합 확률 분포의 추정 등