Autor Wątek: Synteza mowy w Puppy Linux - espeak_espeakedit_mbrola (Przeczytany 3976 razy)

Asgard · « **dnia:** Lutego 26, 2013, 04:58:26 »

Od wielu lat korzystam z różnych programów TTS pod Linuksem. Kiedyś ich możliwości były (jak na ówczesne i dość pionierskie czasy) całkiem imponujące: Mbrola (zwłaszcza z nakładką Hadifax działającą z niemieckimi głosami), Espeak czy Festival to rozwiązania wystarczające, choć mniej lub bardziej "robotyczne" w brzmieniu.

Z chwilą udoskonalenia windowsowych narzędzi typu Acapella, AT&T, Linguatec Voice Reader oraz pojawienia się bezkonkurencyjnej Ivony 2 (nie mylić ze starszą dość lipną generacją bez "dwójki" w nazwie) Linux niestety został dość mocno w tyle, a odpalenie porządnych "windzianych" syntezatorów pod Wine jest bardzo trudne lub wręcz niemożliwe (no może z wyjątkiem archaicznych Read Please 2000 / Read Please 2003, które akurat nie wspierają języka polskiego).

Pod Puppy Linux sprawa wygląda jeszcze mniej różowo. "Lucidowcy" mogą dossać z repo ubuntowego program Gespeaker oraz wszelkie zależności (jest to graficzna nakładka na Mbrolę lub Espeaka) oraz dołożyć właściwe paczki fontów głosowych Mbroli, ale efekty działania będą marne (dużo gorsze niż w przypadku innych frontendów do tych samych syntezatorów działających pod "większymi" dystrybucjami pingwinowymi). O katowaniu się poprzez terminal nawet nie wspominam, bo choć takie rozwiązanie jest oczywiście możliwe, to funkcjonalność będzie taka, że człowieka po prostu szlag trafia (no chyba żeby napisać skrypt w bashu).

Wczoraj trafiłem jednak na paczkę *.pet o nazwie espeak_espeakedit_mbrola-1.42.04.pet, będącą całym pakietem zawierającym wszystkie istotne narzędzia i zależności (z pełnym zakresem fontów głosowych do Espeaka oraz możliwością rozszerzenia podstawowej funkcjonalności także wbudowanej w "zestaw" Mbroli).

Oto link do paczki instalacyjnej:

https://yadi.sk/d/QIbvfczM3FjTqa
(21 MB, MD5: a6275ecbf2fb4ab14480d082c4b4aa98)

Jest to paczka przetestowana pod Lucid 520. Czy zadziała pod innymi "szczeniakami"? Kto to wie, ale szanse są baaaardzo duże, więc warto spróbować.

Instalator umieszcza starter odpalający w menu "Documents". Po uruchomieniu należy wybrać font TTS poprzez Voice --> Select Voice oraz dodatkowo (choć nieobowiązkowo) wariant danego fontu poprzez Voice --> Select Voice Variant. Tempo odczytu możemy ustalić poprzez Options --> Speed ("fabryczne" ustawienie 160 w moim odczuciu jest za wysokie, więc zmniejszyłem do 120). Do górnego okienka wklejamy/wpisujemy tekst oraz klikamy na Translate, a następnie na Speak. Odczyt można wyeksportować także do pliku *.wav, co osiągniemy poprzez Options --> Set paths --> Synthesised sound WAV file (ścieżkę ustalamy jednorazowo, a potem plik z nagranym tekstem będzie pojawiał się automatycznie w ustalonym miejscu).

Nie jest to żadna rewelacja, ale działa, jest proste w obsłudze, czyta w wielu językach, ma spore możliwości konfiguracyjne i przede wszystkim jest bezpłatne. Dodatkową zaletą jest graficzny wykres prozodyczny (melodia zdań) oraz zapis fonematyczny (zbliżony częściowo do znaków międzynarodowej transkrypcji fonetycznej IPA), co stanowi swoistą wisienkę na torcie i ukłon w stronę uczących się języków obcych (a zwłaszcza filologów obcych, gdyż przy pomocy wbudowanej funkcjonalności analitycznej można nawet pokusić się o napisanie porządnej pracy naukowej z zakresu fonetyki).

Przykład krótkiego tekstu w języku polskim (Espeak PL, wariant M4, tempo 120):

https://yadi.sk/d/iTqA_u6N3FjTud

A tak wygląda główne okno aplikacji:

=================

niniejszy post/wątek jako plik PDF: https://yadi.sk/i/0lM6Y2yA3FjU8L

Mr_Sparrow · « **Odpowiedź #1 dnia:** Listopada 15, 2013, 22:37:37 »

Pod winda korzystałem swego czasu z Ivony dołączanej do AllPlayera i bardzo się przydawało. Pod Puppym spróbowałem na razie w Wary'm 5.5. Wybrałem voice pl (bez wariantu), wkleiłem tekst u góry z lewej. Kliknąłem na Translate - pojawił się osobliwy tekst poniżej. Po kliknięciu "Speak" żadnej reakcji, oprócz mignięcia okna. Wybrałem więc ścieżkę do zapisania pliku wave (w katalogu programu), ale podkusiło mnie zaraz potem znów kliknąć "Speak" i.. pojawiła się zawartość dużego okna z prawej, ale ciągle nic nie usłyszałem. W menu Speak znalazłem znalazłem speak file... i wybrałem plik wav jaki zauważyłem w katalogu (speech.wav). To co usłyszałem brzmi jak literowanie co którąś głoskę a zrozumieć da się jedynie "guwna kropka"a czasem "kreska"

Nie zauważyłem skąd się wziął tamten plik więc wszedłem w menu jeszcze raz ustyalając katalog który utworzyłem i dając nazwę pliku czytane.wav Jeszcze raz kliknąłem "Translate" a po tym jak nic nie usłyszałem przeszedłem do Speak file i wybrałem wskazany wcześniej katalog gdzie był już plik o wybranej nazwie. Efekt ten sam. Ciekawe że "guwna kropka" z czasem przestaje się pojawiać, a słychać co raz "umlałt" i literowanie jakby zmieniało się na brzmiące z angielska a nawet... węgierska

. Taki jakiś język elfów, gdyby nie kaleczył tego ten umlałt. A i jeszcze co... wkleiłem fragment z tego posta:

Cytuj

Nie jest to żadna rewelacja, ale działa, jest proste w obsłudze, czyta w wielu językach, ma spore możliwości konfiguracyjne i przede wszystkim jest bezpłatne. Dodatkową zaletą jest graficzny wykres prozodyczny (melodia zdań) oraz zapis fonematyczny (zbliżony częściowo do znaków międzynarodowej transkrypcji fonetycznej IPA), co stanowi swoistą wisienkę na torcie i ukłon w stronę uczących się języków obcych (a zwłaszcza filologów obcych, gdyż przy pomocy wbudowanej funkcjonalności analitycznej można nawet pokusić się o napisanie porządnej pracy naukowej z zakresu fonetyki).

Skróciłem potem do pierwszego zdania.
Wydaje się, że coś nie jest tak w procesie owego tłumaczenia bo tekst na twoim obrazku w okienku poniżej oryginału bardziej go przypomina niż ten który ja otrzymałem. Tłumaczenie pierwszego zdania wygląda u mnie tak:

Cytuj

n'aI dZ'Est t@5 z'adn@ rI2w'ElakdZ@ || 'eIl d'i:z'aI@l@ || dZ'Est pr'0st d'Vb@Lj,u: 0bsl'Vdz || kz'aIt@ d'Vb@Lj,u: w'i:lu: dZ'EzIk,atS || m'A: sp'o@ m0zl,i:w'0skaI k'0nfIgj,Ura2s,IdZnI; 'aI prz'i:d d,Vb@Lju:'Esz'IstkIm dZ'Est b'EzplatnI ||

PS. Wygląda też na to, że owe tłumaczenie czytane jest bez końca w pętli...

Autor Wątek: Synteza mowy w Puppy Linux - espeak_espeakedit_mbrola (Przeczytany 3976 razy)

Asgard

Synteza mowy w Puppy Linux - espeak_espeakedit_mbrola

Mr_Sparrow

Odp: Synteza mowy w Puppy Linux - espeak_espeakedit_mbrola