Fast richtig, ElevenLabs kann ganz ohne vorheriges Einsprechen fertiges Audio liefern. Darum ist das vermutlich so teuer. Wenn dann am Ende ein Wort komisch gesprochen oder falsch betont wird, ist die Offline-Methode mit dem Selber-Einsprechen vielleicht besser.
Bei dem Gedanken würde ich mich anschließen, aber diese besonders guten Stimmen bekommt man nur mit ElevenLabs. Der oben verlinkte YouTube-Kanal nutzt auch genau diese Plattform, siehe Stelle im Video:
Inhalte von externen Seiten werden ohne deine Zustimmung nicht automatisch geladen und angezeigt.
ElevenLabs kostet aber nicht wenig:
5 $ / Monat = 30 Minuten Audio / Monat
22 $ / Monat = 2 Stunden Audio / Monat
99 $ / Monat = 10 Stunden Audio / Monat
330 $ / Monat = 40 Stunden Audio / Monat
Wenn man einen guten Sprecher hat, kann man auch lokale, kostenlose RVC-Modelle trainieren und nutzen. Ich habe hier z. B. ein Modell von Rufus Beck mit meiner Grafikkarte trainiert, müsste aber alle Sätze erst möglichst professionell selber einsprechen, um danach mit dem Modell die Umwandlung in eine andere Stimme zu machen.
Wenn ich andere Hörbuchsprecher damit zu Rufus Beck machen will, klingt das meist so echt, dass man es nicht mehr unterscheiden kann. Aber dafür müssen das Sprechtempo und die Betonung eben recht ähnlich wie die des trainierten Modells sein.