Pour le jeu de données, vous pouvez le trouver dans le lien Drive suivant (avec autorisation): https://drive.google.com/drive/folders/1vn_RM47LA_HdpQwZqdwqNRPm7CXyeeV3?usp=sharing
Vous pouvez exécuter les codes en local ou avec le google colab en dessous. Lien de google colab:
- Modèle BERT avec comparaison whistespace/seg/whisperx: https://colab.research.google.com/drive/1INLl75B7AyXSJ-gz1-3WUzEuHF4-VgAa?usp=sharing
- Modèle BERT avec comparaison début vs all: https://colab.research.google.com/drive/1WdwMM1YMYJWPNDUfVE8cWFhyjAg934ab
- Modèle multimodale avec BERT/features acoutics: https://colab.research.google.com/drive/1WPEyj6I_2gbpOlSIRT2wXYuiRPHo2Ogw?usp=sharing
- Statistiques sur le nombre de tokens: https://colab.research.google.com/drive/12nXC8_mYSasNtr8fuS27N5NMnS27Juqd?usp=sharing