team dataset EDA 시각화 공유 #120
jaehwan-AI
started this conversation in
Show and tell
Replies: 1 comment 2 replies
-
재환님 혹시 mAP_s, m, l 크기 기준 정리해주셨던 거 다시 보고싶은데 링크 있으실까요?! |
Beta Was this translation helpful? Give feedback.
2 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
금주는 대회 마감 + Wrap-up 리포트 제출이 있어서 간단한 EDA를 공유합니다.
1. class 분포
-> 전체 class의 분포가 비슷하게 sampling 된 것을 확인할 수 있었습니다.
2. 한 이미지 당 bbox 개수 분포
-> 한 이미지에서 bbox의 개수가 43개 이상인 이미지들은 train set에서만 존재하는 것을 확인했습니다.
-> 평균이나 다른 수치들로 보아 분포는 bbox가 많은 outlier들을 제외하고는 비슷한 분포를 보입니다.
3. bbox area(sqrt area) 분포
(비교를 위해 옆으로 붙였습니다. 확대해서 보시는 것을 권장합니다.)
-> Battery는 데이터의 수가 적어서 sampling되는 과정에서 분포가 많이 바뀌었습니다.
-> Valid 데이터셋을 보면, Plastic bag은 평균에 가까운 데이터가 많아졌고 Plastic은 평균 이하의 데이터가 많아졌습니다.
-> 그러나 전체적인 경향은 바뀌지 않았습니다.
4. 평가지표 s, m, l
평가지표인 mAP_s, mAP_m, mAP_l를 나누는 기준입니다.
-> 지금 성능이 높다고 생각되는 모델도 mAP_s = 0.02, mAP_m = 0.2 정도입니다.
-> 해당 기준을 참고해서 mAP_s와 mAP_m의 성능을 올릴 것인지, mAP_s와 mAP_m을 버리고 mAP_l을 더 잘 맞출 것인지 선택해서 실험을 진행해봐도 괜찮을 것 같습니다.
-> 실제로 서비스하는 모델을 개발한다면 이런 문제점을 어떻게 해결할 것인지 판단을 해보는 것도 좋을 것 같습니다.
별 것 아닌 정보지만 인사이트 도출 및 Wrap-up 리포트 작성에 도움이 되었길 바랍니다.
감사합니다.
Beta Was this translation helpful? Give feedback.
All reactions