Parler-TTS 🗣️
Parler-TTS to biblioteka do trenowania i wnioskowania modeli tekst-na-mowę (TTS) wysokiej jakości.
Prezentowane tu modele, Parler-TTS Mini v1 i Large v1, zostały wytrenowane na 45 tysiącach godzin nagranych angielskich audiobooków. Generują wysokiej jakości mowę z cechami, którymi można sterować za pomocą prostego opisu tekstowego (np. płeć, szum tła, tempo mówienia, wysokość głosu i pogłos).
Domyślnie Parler-TTS generuje 🎲 losowy głos. Aby zapewnić 🎯 spójność głosu mówcy w kolejnych generacjach, te punkty kontrolne zostały również wytrenowane na 34 mówcach, identyfikowanych po imieniu. Pełna lista dostępnych mówców: Laura, Gary, Jon, Lea, Karen, Rick, Brenda, David, Eileen, Jordan, Mike, Yann, Joy, James, Eric, Lauren, Rose, Will, Jason, Aaron, Naomie, Alisa, Patrick, Jerry, Tina, Jenna, Bill, Tom, Carol, Barbara, Rebecca, Anna, Bruce, Emily.
Aby to wykorzystać, po prostu wybierz mówcę z listy rozwijanej, a następnie dostosuj swój opis tekstowy, aby określić jego cechy (np. 'głos jest monotonny, ale nieco szybki w dostawie, z bardzo bliskim nagraniem, które prawie nie ma szumu tła').
Uwaga: Modele są wytrenowane na angielskim tekście. Generowanie polskiego tekstu może nie działać poprawnie.
Generuje z Parler-TTS Large v1 zamiast Mini v1.
| Tekst wejściowy (angielski) | Wybierz mówcę (opcjonalnie, domyślnie losowy głos) | Cechy głosu (np. 'monotonny, szybki, bez szumów') | Użyj większego modelu (Parler-TTS Large v1) - lepsza jakość, ale wolniejsze. |
|---|
Wskazówki dla dobrej generacji:
- Użyj terminu "very clear audio", aby uzyskać najwyższą jakość audio, oraz "very noisy audio" dla wysokiego poziomu szumu tła.
- Interpunkcja może być używana do kontrolowania prozodii generacji, np. używaj przecinków, aby dodać krótkie pauzy w mowie.
- Pozostałe cechy mowy (płeć, tempo mówienia, wysokość głosu i pogłos) można kontrolować bezpośrednio poprzez opis.
Parler-TTS może być znacznie szybszy. Wskazówki dotyczące szybszego generowania znajdziesz w przewodniku inferencji. Pomyśl o SDPA, torch.compile, batchingu i streamingu!
Jeśli chcesz dowiedzieć się więcej o tym, jak model został wytrenowany, a nawet samemu go dostroić, sprawdź repozytorium Parler-TTS na GitHubie.
Kod źródłowy Parler-TTS i związane z nim punkty kontrolne są licencjonowane na podstawie Apache 2.0.