My bachelor thesis on FIT (V|B)ut Brno, assembled in 2022/2023
Final thesis in CZ is available in: Automaticke_rozpoznani_hudebnich_zapisu_pomoci_neuronovych_siti.pdf
- dataset downloaded from: https://grfia.dlsi.ua.es/primus/packages/primusCalvoRizoAppliedSciences2018.tgz
- Info and other links: https://grfia.dlsi.ua.es/primus/
- Code for experiments: https://github.com/OMR-Research/tf-end-to-end
- Prostudujte základy konvolučních neuronových sítí, sítí založených na attention a autoregresivních modelů.
- Vytvořte si přehled o současných metodách automatického rozpoznání hudebního zápisu z obrazu.
- Navrhněte metodu schopnou automaticky rozpoznávat hudební zápis z obrazu nebo upravte vhodnou existující metodu.
- Obstarejte si databázi vhodnou pro experimenty. Můžete rozšířit existující databázi.
- Implementujte navrženou metodu a proveďte experimenty nad datovou sadou.
- Porovnejte dosažené výsledky a diskutujte možnosti budoucího vývoje.
- Vytvořte jednoduchou demonstrační aplikaci, která bude využívat implementovaný systém.
- Vytvořte stručné video prezentující vaši práci, její cíle a výsledky.
Codebase consists of individual scripts where each one has its own purpose and documentation at the top.
There following folders in this repository:
- BMPD_stats - containing statistics about the new BMPD dataset
- dataset-utilities - python scripts for working with both PrIMuS and BMPD datasets
- experiments - python scripts for experiments with CRNN and Transformer models.
- layout_detection - python scripts for training and detecting layout detection of staves on pages using ultralytics YOLOv8 models (added AFTER submission of thesis)
- musescore-dataset-utilities - python scripts used for creating the BMPD dataset itself.
- primus_stats - statistics about PrIMuS dataset
- streamlit_helpers - one script used to show dataframe in a web browser using streamlit server
- translators - dictionaries used in shortening ground-truths of both PrIMuS and BMPD datasets.