Attempt to extend generated audio to fit captions gaps: extend voice breaks after commas #1

OscarKuzniar · 2021-12-21T17:13:45Z

Dorzuciłem komentarze do poszczególnych fragmentów kodu. Daj znać jak coś jeszcze będzie niejasne :)

…r commas

…P-extend-breaks

OscarKuzniar · 2021-12-21T17:14:45Z

generate-audio.py

+    caption_end_time = caption_end(caption)
+    diff = ((caption_end_time - caption_start_time) - audio_duration).__round__(3)
+    result = ''
+    split_caption = caption.text.split(',')


tu dzielimy każdy caption przecinkami

potem można by pomyśleć o uwzględnieniu innych znaków interpunkcyjnych i nadaniu im różnych wag.
Np przecinek to średnia przerwa, myślnik krótka, kropka długa.

OscarKuzniar · 2021-12-21T17:16:28Z

generate-audio.py

+    for idx, cpt in enumerate(split_caption):
+        result = result + cpt
+        if idx != len(split_caption):
+            result = result + '<break time="{}ms"/>'.format(define_break(diff, len(split_caption) - 1))


Jeśli to nie jest ostatnia część "captiona" doklejamy tag ciszy o konkretnej długości obliczonej przez define_break

OscarKuzniar · 2021-12-21T17:17:46Z

generate-audio.py

@@ -80,6 +113,8 @@ def load_captions(config):
        print(f'Processing {caption}')
        sentence_audio = synthesize(caption.text, config)

+        sentence_audio = extend_sentence_audio(sentence_audio, caption)


Przekazujemy już wygenerowane zdanie (potrzebna nam jest jego długość) żeby móc zdefiniować odpowiednio dobraną długość pauzy po przecinku

jkatnik · 2022-02-14T12:59:28Z

generate-audio.py

@@ -92,4 +127,4 @@ def load_captions(config):
    new_audio = mpe.AudioFileClip(f'output/{config.audio_file_name}')
    # new_audio = mpe.CompositeAudioClip([input_clip.audio, new_audio])
    final_clip = input_clip.set_audio(new_audio)
-    final_clip.write_videofile(f'output/{config.movie_file_name}')
+    final_clip.write_videofile(f'output/output_{config.movie_file_name}')


plik jest już w katalogu output więc nie ma sensu go prefixować

jkatnik · 2022-02-14T13:03:31Z

generate-audio.py

+    audio_duration = sentence_audio.duration_seconds
+    caption_start_time = caption_start(caption)
+    caption_end_time = caption_end(caption)
+    diff = ((caption_end_time - caption_start_time) - audio_duration).__round__(3)


można to lekko zoptymalizowąc. Jeśli diff < noticeable_difference (np: 0,25) to zaakceptuj bieżące audio

jkatnik · 2022-02-14T13:12:58Z

generate-audio.py

@@ -61,6 +67,33 @@ def load_captions(config):
        raise Exception('Unsupported subtitles format')


+# TODO figure out better way of defining break length
+def define_break(diff_length, num_of_pauses):


To jest jedyny fragment z którego zrozumieniem mam problem.

Jeśli mamy 2 sek różnicy (diff_length=2.0) oraz 3 przecinki (num_of_pauses=3) to domyślna długość pauzy wyniesie 0,66(6) sekundy.

Potem jest mapowanie:
Jeśli domyślna długośc pauzy jest za dluga (powyżej 2 sek) to przytnij do 1 sek
Jeśli domyślna długośc pauzy jest między 1 a 2 sek to przytnij do 0,8 sek
Jeśli domyślna długośc pauzy jest poniżej 1 sek to przytnij do 0,5 sek

Dlaczego jest potrzebne to mapowanie? Dlaczego nie można po prostu zwrócić length_of_pause?

jkatnik · 2022-02-14T13:14:33Z

generate-audio.py

+    caption_end_time = caption_end(caption)
+    diff = ((caption_end_time - caption_start_time) - audio_duration).__round__(3)
+    result = ''
+    split_caption = caption.text.split(',')


potem można by pomyśleć o uwzględnieniu innych znaków interpunkcyjnych i nadaniu im różnych wag.
Np przecinek to średnia przerwa, myślnik krótka, kropka długa.

OscarKuzniar added 2 commits December 21, 2021 18:10

Extend generated audio to fit captions gaps: extend voice breaks afte…

ab2171c

…r commas

Merge branch 'main' of github.com:jkatnik/karpik-poc-py into oscar/WI…

490db5f

…P-extend-breaks

OscarKuzniar commented Dec 21, 2021

View reviewed changes

jkatnik reviewed Feb 14, 2022

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Attempt to extend generated audio to fit captions gaps: extend voice breaks after commas #1

Attempt to extend generated audio to fit captions gaps: extend voice breaks after commas #1

OscarKuzniar commented Dec 21, 2021 •

edited

Loading

OscarKuzniar Dec 21, 2021

jkatnik Feb 14, 2022

OscarKuzniar Dec 21, 2021

OscarKuzniar Dec 21, 2021

jkatnik Feb 14, 2022

jkatnik Feb 14, 2022

jkatnik Feb 14, 2022

jkatnik Feb 14, 2022

Attempt to extend generated audio to fit captions gaps: extend voice breaks after commas #1

Are you sure you want to change the base?

Attempt to extend generated audio to fit captions gaps: extend voice breaks after commas #1

Conversation

OscarKuzniar commented Dec 21, 2021 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

OscarKuzniar commented Dec 21, 2021 •

edited

Loading