Zurück zu Add-ons

Cartesia

Mitgeliefert

von TypeWhisper

TranskriptionText-to-Speech macOS
Cartesia Einstellungen

Über

Cartesia ergänzt TypeWhisper unter macOS um einen Cloud-Anbieter für Spracherkennung und Text-to-Speech. Das TypeWhisper-Plugin nutzt Cartesias Batch-Speech-to-Text-API mit ink-whisper und die Text-to-Speech-Bytes-API mit sonic-3.5.

TypeWhisper bringt keine gemeinsamen Cartesia-Zugangsdaten mit. Du hinterlegst deinen eigenen Cartesia-API-Key, TypeWhisper speichert ihn über den Plugin-Secret-Speicher, und Audio oder Text wird direkt an Cartesia gesendet, wenn du diesen Anbieter auswählst.

Quellen: Cartesia API-Konventionen, Cartesia Batch Speech-to-Text, Cartesia Text-to-Speech Bytes, Cartesia Plugin-Quellcode, TypeWhisper Plugin-Registry

Funktionen

  • Cloud-Spracherkennung mit Cartesia ink-whisper
  • Explizite Auswahl der gesprochenen Sprache für das Quellaudio
  • Wort-Zeitstempel als TypeWhisper-Transkriptionssegmente
  • API-Key-Validierung in den Plugin-Einstellungen
  • Sichere API-Key-Speicherung über TypeWhisper Plugin-Secrets
  • Text-to-Speech-Wiedergabe mit Cartesia sonic-3.5
  • Cartesia-Stimmenaktualisierung plus Standardstimme und eigene Voice-ID
  • Keine TypeWhisper-Übersetzungsunterstützung

Anforderungen & Datenschutz

AnforderungDetailsWarum das wichtig ist
PlattformmacOS 14.0 oder neuer.Die aktuelle TypeWhisper-Integration ist ein macOS-Plugin.
TypeWhisper-Host1.4.0 oder neuer.Das ist minHostVersion im Plugin-Manifest.
SDK-Kompatibilitätv1.Die Release wird über den kompatiblen Plugin-Registry-Pfad veröffentlicht.
ZugangsdatenEin Cartesia-API-Key aus deinem Cartesia-Konto.Das Plugin sendet ihn als Authorization: Bearer <api_key> bei Cartesia-API-Anfragen.
OAuth-ScopesKeine.Dieses Plugin nutzt einen nutzerbereitgestellten API-Key, kein Cartesia OAuth.
NetzwerkzugriffAudio wird für STT an api.cartesia.ai hochgeladen; Text wird für TTS an api.cartesia.ai gesendet.Das ist ein Cloud-Anbieter, keine lokale Transkription oder lokale Sprachsynthese.
Eigentum der ZugangsdatenAusschließlich nutzerbereitgestellt.TypeWhisper leitet Anfragen nicht über ein TypeWhisper-eigenes Cartesia-Konto weiter.

Quellen: Cartesia API-Konventionen, Cartesia API-Keys

Cartesia-API-Key erhalten

  1. Erstelle ein Cartesia-Konto oder melde dich an.
  2. Öffne die Cartesia-API-Key-Seite unter play.cartesia.ai/keys.
  3. Erstelle einen Standard-API-Key für TypeWhisper.
  4. Kopiere den Key und behandle ihn vertraulich. Rotiere ihn in Cartesia, wenn er verloren geht oder offengelegt wurde.
  5. Öffne in TypeWhisper Einstellungen > Plugins > Cartesia und füge den API-Key ein.
  6. Warte, bis das Plugin den Key validiert hat, bevor du Cartesia für Diktat oder Text-to-Speech auswählst.

Cartesia bietet zusätzlich Admin-API-Keys für Verwaltungs-Endpunkte. TypeWhisper benötigt für Transkription oder Text-to-Speech keinen Admin-API-Key.

Quellen: Cartesia API-Konventionen, Cartesia API-Keys, Cartesia Admin-API-Key-Hinweise

Speech-to-Text

Das Plugin sendet WAV-Audio an Cartesias Batch-Endpunkt /stt mit model=ink-whisper, fordert Wort-Zeitstempel an und fügt das Feld language für die Sprache des Quellaudios hinzu.

Cartesia dokumentiert language als Sprache des Eingabeaudios im ISO-639-1-Format. TypeWhisper normalisiert Profil-, Workflow- und Plugin-Sprachauswahlen auf Cartesias primären Sprachcode, sodass aus de-DE de und aus en-US en wird.

TypeWhisper-EingabeCartesia-Anfrage
Profil- oder Request-Sprache auf Deutsch gesetztSendet language=de.
Profil- oder Request-Sprache auf Englisch gesetztSendet language=en.
Sprachhinweise vorhanden, aber keine exakte ProfilspracheNutzt den ersten unterstützten Sprachhinweis.
Keine unterstützte Profil- oder Hinweis-SpracheNutzt die Cartesia-Plugin-Einstellung Gesprochene Sprache.
Keine gültige konfigurierte SpracheFällt auf Englisch zurück und sendet language=en.

Cartesia bewirbt keine TypeWhisper-Übersetzungsfunktion. Wenn lokal noch eine alte Einstellung für englische Übersetzung gespeichert ist, ignoriert das Plugin sie und sendet weiter den aufgelösten Code der gesprochenen Sprache.

Quellen: Cartesia Batch Speech-to-Text, Cartesia Plugin-Quellcode

Unterstützte Erkennungssprachen

Das Plugin zeigt in TypeWhisper Cartesias ink-whisper-Sprachliste an, einschließlich Englisch (en), Deutsch (de), Russisch (ru), Spanisch (es), Französisch (fr), Japanisch (ja), Portugiesisch (pt), Ukrainisch (uk), Chinesisch (zh) und vielen weiteren Sprachen.

Nutze eine explizite gesprochene Sprache, wenn du die Audiosprache kennst. Das vermeidet Provider-Defaults und macht mehrsprachige Profile vorhersehbarer.

Quellen: Cartesia Batch Speech-to-Text

Verhalten bei kurzer und langer Aufnahme

Cartesias Batch-STT-Endpunkt akzeptiert Audiodateien direkt und dokumentiert, dass lange Dateien nicht manuell aufgeteilt werden müssen; der Dienst teilt lange Audiodateien serverseitig auf. Das aktuelle TypeWhisper-Plugin nutzt deshalb dieselbe Batch-REST-Anfrage für kurze und längere Aufnahmen.

AufnahmeTypeWhisper-VerhaltenCartesia-Ablauf
Kurze ClipsSendet eine Multipart-Anfrage an /stt.WAV-Audio, model=ink-whisper, ausgewählte language, Wort-Zeitstempel.
Längere ClipsSendet dieselbe Multipart-Anfrage an /stt.Cartesia übernimmt das Chunking serverseitig.

Im Cartesia-Plugin gibt es keinen separaten Async-Upload, kein Task-Polling und keinen Ergebnis-Download.

Quellen: Cartesia Batch Speech-to-Text

Text-to-Speech

Das Plugin nutzt Cartesias Endpunkt /tts/bytes mit sonic-3.5 und fordert rohes pcm_s16le-Audio mit 44,1 kHz für die Wiedergabe an.

EinstellungBedeutung
Text-to-Speech VoiceWählt eine Stimme aus Cartesias Stimmenliste, nachdem das Plugin verfügbare Stimmen aktualisiert hat.
AktualisierenRuft bis zu 100 Cartesia-Stimmen ab, die für dein Konto verfügbar sind, und speichert die geladene Liste lokal.
Eigene Voice-IDErmöglicht das manuelle Einfügen einer Voice-ID, falls die Stimme noch nicht in der geladenen Liste steht.
SpracheTypeWhisper übergibt eine TTS-Sprache, wenn die Anfrage oder die ausgewählte Stimme eine von Cartesia unterstützte Sprache liefert.

Quellen: Cartesia Text-to-Speech Bytes, Cartesia Sonic 3.5

Konfiguration

  • API-Key - Füge einen Standard-Cartesia-API-Key ein. TypeWhisper validiert ihn gegen Cartesias Stimmen-Endpunkt und speichert ihn über den Plugin-Secret-Speicher.
  • Entfernen - Löscht den gespeicherten Cartesia-API-Key aus TypeWhisper.
  • Gesprochene Sprache - Wähle die Quellsprache des Audios für STT.
  • Text-to-Speech Voice - Wähle eine geladene Cartesia-Stimme oder nutze die eingebaute Standardstimme.
  • Aktualisieren - Lädt die aktuelle Cartesia-Stimmenliste, die für dein Konto verfügbar ist.
  • Eigene Voice-ID - Nutzt eine manuell eingefügte Cartesia-Voice-ID für TTS.

Einrichtung

  1. Erstelle ein Cartesia-Konto und generiere einen Standard-API-Key.
  2. Öffne TypeWhisper Einstellungen > Plugins.
  3. Finde Cartesia und klicke auf Konfigurieren.
  4. Füge den API-Key ein und warte auf die Validierung.
  5. Wähle die Gesprochene Sprache, die zur Audioquelle passt.
  6. Klicke auf Aktualisieren, wenn TypeWhisper die für dein Cartesia-Konto verfügbaren Stimmen laden soll.
  7. Wähle eine Text-to-Speech Voice oder füge eine Eigene Voice-ID ein.
  8. Wähle Cartesia als Transkriptions- oder Text-to-Speech-Anbieter in den Einstellungen oder in einem Profil.

Hinweise

  • Das Plugin ist ausschließlich cloudbasiert und sendet Audio oder Text an Cartesia; nutze eine lokale Engine, wenn Inhalte auf dem Gerät bleiben müssen.
  • Cartesia-Limits, Abrechnung und verfügbare Stimmen werden durch dein Cartesia-Konto bestimmt.
  • Die öffentliche 1.0.0-Release benötigt TypeWhisper-Hostversion 1.4.0 oder neuer, SDK-Kompatibilität v1 und macOS 14.0 oder neuer.