Moduł językowy | Spiżarnia Form Artystycznie Nieoczywistych

Moduł językowy

Kliknij poniżej, żeby wybrać pieśń

I. Des Färbers Rache

II. Das entfūhrte Hirtenmädchen

III. Ei Altendurf

IV. Bloe Barche, griene Täla

V. Hirtenlied aus dem Riesengebirge

Powyżej znajdują się odnośniki do podstron zawierających nagrania audio przygotowane w ramach eksperymentalnego modułu językowego projektu „Riesengebirgs-Lieder”. Każda podstrona poświęcona jest osobnemu utworowi i umożliwia odsłuch kolejnych wersów pieśni w gwarze karkonoskiej wraz z odpowiadającymi im nagraniami audio.

Moduł językowy stanowi próbę przybliżenia wymowy historycznej gwary karkonoskiej z wykorzystaniem współczesnych narzędzi AI do syntezy i przetwarzania mowy. Projekt miał charakter eksperymentalny i łączył pracę językową, techniczną oraz wieloetapową kontrolę jakości materiałów dźwiękowych.

Podstawą procesu były nagrania przygotowane przez germanistkę współpracującą przy projekcie, odpowiedzialną za opracowanie wymowy tekstów gwarowych na podstawie materiałów historycznych i źródeł językowych. Zarejestrowany materiał został następnie ręcznie podzielony na krótkie segmenty audio, zsynchronizowany z tekstem i wykorzystany do trenowania modelu syntezy mowy.

Do generowania nagrań wykorzystano architekturę VITS (Variational Inference Text-to-Speech), stosowaną w nowoczesnych systemach syntezy mowy. Model trenowano lokalnie na niewielkim, specjalistycznym zbiorze danych obejmującym około 220 segmentów audio. Ze względu na ograniczoną liczbę materiałów fonetycznych oraz specyfikę gwary karkonoskiej proces wymagał wielokrotnego testowania kolejnych wersji modelu, ręcznej analizy jakości nagrań oraz porównywania efektów uzyskiwanych na różnych etapach uczenia.

Praca nad modułem obejmowała między innymi:
– przygotowanie i standaryzację materiału audio,
– ręczną segmentację nagrań,
– synchronizację tekstu i dźwięku,
– wielogodzinne treningi kolejnych wersji modelu,
– analizę artefaktów akustycznych,
– odsłuch i ocenę czytelności generowanej mowy,
– wybór najbardziej stabilnych checkpointów treningowych,
– testowanie różnych metod generowania i przetwarzania głosu.

W końcowym etapie część materiałów została wygenerowana i poddana dalszej obróbce z wykorzystaniem narzędzi AI do syntezy oraz postprodukcji audio, w tym technologii ElevenLabs. Proces nie miał charakteru automatycznego ani „jednoklikowego” — wymagał wielodniowych testów, ręcznej kontroli jakości oraz ciągłego porównywania rezultatów uzyskiwanych na kolejnych etapach pracy.

Nagrania mają charakter edukacyjny, popularyzatorski i badawczo-eksperymentalny. Ich celem nie jest stworzenie jednej „ostatecznej” rekonstrukcji historycznej wymowy, lecz przybliżenie możliwego brzmienia gwary karkonoskiej oraz pokazanie możliwości wykorzystania współczesnych technologii w pracy nad niematerialnym dziedzictwem kulturowym regionu Karkonoszy.