Parler-TTS 🗣️

Parler-TTS to biblioteka do trenowania i wnioskowania modeli tekst-na-mowę (TTS) wysokiej jakości.

Prezentowane tu modele, Parler-TTS Mini v1 i Large v1, zostały wytrenowane na 45 tysiącach godzin nagranych angielskich audiobooków. Generują wysokiej jakości mowę z cechami, którymi można sterować za pomocą prostego opisu tekstowego (np. płeć, szum tła, tempo mówienia, wysokość głosu i pogłos).

Domyślnie Parler-TTS generuje 🎲 losowy głos. Aby zapewnić 🎯 spójność głosu mówcy w kolejnych generacjach, te punkty kontrolne zostały również wytrenowane na 34 mówcach, identyfikowanych po imieniu. Pełna lista dostępnych mówców: Laura, Gary, Jon, Lea, Karen, Rick, Brenda, David, Eileen, Jordan, Mike, Yann, Joy, James, Eric, Lauren, Rose, Will, Jason, Aaron, Naomie, Alisa, Patrick, Jerry, Tina, Jenna, Bill, Tom, Carol, Barbara, Rebecca, Anna, Bruce, Emily.

Aby to wykorzystać, po prostu wybierz mówcę z listy rozwijanej, a następnie dostosuj swój opis tekstowy, aby określić jego cechy (np. 'głos jest monotonny, ale nieco szybki w dostawie, z bardzo bliskim nagraniem, które prawie nie ma szumu tła').

Uwaga: Modele są wytrenowane na angielskim tekście. Generowanie polskiego tekstu może nie działać poprawnie.

Tekst wejściowy (angielski)

Wybierz mówcę (opcjonalnie, domyślnie losowy głos)

Cechy głosu (np. 'monotonny, szybki, bez szumów')

Generuje z Parler-TTS Large v1 zamiast Mini v1.

Użyj większego modelu (Parler-TTS Large v1) - lepsza jakość, ale wolniejsze.

Generacja Parler-TTS

Examples

Tekst wejściowy (angielski)	Wybierz mówcę (opcjonalnie, domyślnie losowy głos)	Cechy głosu (np. 'monotonny, szybki, bez szumów')	Użyj większego modelu (Parler-TTS Large v1) - lepsza jakość, ale wolniejsze.

Wskazówki dla dobrej generacji:

Użyj terminu "very clear audio", aby uzyskać najwyższą jakość audio, oraz "very noisy audio" dla wysokiego poziomu szumu tła.
Interpunkcja może być używana do kontrolowania prozodii generacji, np. używaj przecinków, aby dodać krótkie pauzy w mowie.
Pozostałe cechy mowy (płeć, tempo mówienia, wysokość głosu i pogłos) można kontrolować bezpośrednio poprzez opis.

Parler-TTS może być znacznie szybszy. Wskazówki dotyczące szybszego generowania znajdziesz w przewodniku inferencji. Pomyśl o SDPA, torch.compile, batchingu i streamingu!

Jeśli chcesz dowiedzieć się więcej o tym, jak model został wytrenowany, a nawet samemu go dostroić, sprawdź repozytorium Parler-TTS na GitHubie.

Kod źródłowy Parler-TTS i związane z nim punkty kontrolne są licencjonowane na podstawie Apache 2.0.