Cartesia - TypeWhisper Add-ons

Über

Cartesia ergänzt TypeWhisper unter macOS um einen Cloud-Anbieter für Spracherkennung und Text-to-Speech. Das TypeWhisper-Plugin nutzt Cartesias Batch-Speech-to-Text-API mit ink-whisper und die Text-to-Speech-Bytes-API mit sonic-3.5.

TypeWhisper bringt keine gemeinsamen Cartesia-Zugangsdaten mit. Du hinterlegst deinen eigenen Cartesia-API-Key, TypeWhisper speichert ihn über den Plugin-Secret-Speicher, und Audio oder Text wird direkt an Cartesia gesendet, wenn du diesen Anbieter auswählst.

Quellen: Cartesia API-Konventionen, Cartesia Batch Speech-to-Text, Cartesia Text-to-Speech Bytes, Cartesia Plugin-Quellcode, TypeWhisper Plugin-Registry

Funktionen

Cloud-Spracherkennung mit Cartesia ink-whisper
Explizite Auswahl der gesprochenen Sprache für das Quellaudio
Wort-Zeitstempel als TypeWhisper-Transkriptionssegmente
API-Key-Validierung in den Plugin-Einstellungen
Sichere API-Key-Speicherung über TypeWhisper Plugin-Secrets
Text-to-Speech-Wiedergabe mit Cartesia sonic-3.5
Cartesia-Stimmenaktualisierung plus Standardstimme und eigene Voice-ID
Keine TypeWhisper-Übersetzungsunterstützung

Anforderungen & Datenschutz

Anforderung	Details	Warum das wichtig ist
Plattform	macOS `14.0` oder neuer.	Die aktuelle TypeWhisper-Integration ist ein macOS-Plugin.
TypeWhisper-Host	`1.4.0` oder neuer.	Das ist `minHostVersion` im Plugin-Manifest.
SDK-Kompatibilität	`v1`.	Die Release wird über den kompatiblen Plugin-Registry-Pfad veröffentlicht.
Zugangsdaten	Ein Cartesia-API-Key aus deinem Cartesia-Konto.	Das Plugin sendet ihn als `Authorization: Bearer <api_key>` bei Cartesia-API-Anfragen.
OAuth-Scopes	Keine.	Dieses Plugin nutzt einen nutzerbereitgestellten API-Key, kein Cartesia OAuth.
Netzwerkzugriff	Audio wird für STT an `api.cartesia.ai` hochgeladen; Text wird für TTS an `api.cartesia.ai` gesendet.	Das ist ein Cloud-Anbieter, keine lokale Transkription oder lokale Sprachsynthese.
Eigentum der Zugangsdaten	Ausschließlich nutzerbereitgestellt.	TypeWhisper leitet Anfragen nicht über ein TypeWhisper-eigenes Cartesia-Konto weiter.

Quellen: Cartesia API-Konventionen, Cartesia API-Keys

Cartesia-API-Key erhalten

Erstelle ein Cartesia-Konto oder melde dich an.
Öffne die Cartesia-API-Key-Seite unter play.cartesia.ai/keys.
Erstelle einen Standard-API-Key für TypeWhisper.
Kopiere den Key und behandle ihn vertraulich. Rotiere ihn in Cartesia, wenn er verloren geht oder offengelegt wurde.
Öffne in TypeWhisper Einstellungen > Plugins > Cartesia und füge den API-Key ein.
Warte, bis das Plugin den Key validiert hat, bevor du Cartesia für Diktat oder Text-to-Speech auswählst.

Cartesia bietet zusätzlich Admin-API-Keys für Verwaltungs-Endpunkte. TypeWhisper benötigt für Transkription oder Text-to-Speech keinen Admin-API-Key.

Quellen: Cartesia API-Konventionen, Cartesia API-Keys, Cartesia Admin-API-Key-Hinweise

Speech-to-Text

Das Plugin sendet WAV-Audio an Cartesias Batch-Endpunkt /stt mit model=ink-whisper, fordert Wort-Zeitstempel an und fügt das Feld language für die Sprache des Quellaudios hinzu.

Cartesia dokumentiert language als Sprache des Eingabeaudios im ISO-639-1-Format. TypeWhisper normalisiert Profil-, Workflow- und Plugin-Sprachauswahlen auf Cartesias primären Sprachcode, sodass aus de-DE de und aus en-US en wird.

TypeWhisper-Eingabe	Cartesia-Anfrage
Profil- oder Request-Sprache auf Deutsch gesetzt	Sendet `language=de`.
Profil- oder Request-Sprache auf Englisch gesetzt	Sendet `language=en`.
Sprachhinweise vorhanden, aber keine exakte Profilsprache	Nutzt den ersten unterstützten Sprachhinweis.
Keine unterstützte Profil- oder Hinweis-Sprache	Nutzt die Cartesia-Plugin-Einstellung Gesprochene Sprache.
Keine gültige konfigurierte Sprache	Fällt auf Englisch zurück und sendet `language=en`.

Cartesia bewirbt keine TypeWhisper-Übersetzungsfunktion. Wenn lokal noch eine alte Einstellung für englische Übersetzung gespeichert ist, ignoriert das Plugin sie und sendet weiter den aufgelösten Code der gesprochenen Sprache.

Quellen: Cartesia Batch Speech-to-Text, Cartesia Plugin-Quellcode

Unterstützte Erkennungssprachen

Das Plugin zeigt in TypeWhisper Cartesias ink-whisper-Sprachliste an, einschließlich Englisch (en), Deutsch (de), Russisch (ru), Spanisch (es), Französisch (fr), Japanisch (ja), Portugiesisch (pt), Ukrainisch (uk), Chinesisch (zh) und vielen weiteren Sprachen.

Nutze eine explizite gesprochene Sprache, wenn du die Audiosprache kennst. Das vermeidet Provider-Defaults und macht mehrsprachige Profile vorhersehbarer.

Quellen: Cartesia Batch Speech-to-Text

Verhalten bei kurzer und langer Aufnahme

Cartesias Batch-STT-Endpunkt akzeptiert Audiodateien direkt und dokumentiert, dass lange Dateien nicht manuell aufgeteilt werden müssen; der Dienst teilt lange Audiodateien serverseitig auf. Das aktuelle TypeWhisper-Plugin nutzt deshalb dieselbe Batch-REST-Anfrage für kurze und längere Aufnahmen.

Aufnahme	TypeWhisper-Verhalten	Cartesia-Ablauf
Kurze Clips	Sendet eine Multipart-Anfrage an `/stt`.	WAV-Audio, `model=ink-whisper`, ausgewählte `language`, Wort-Zeitstempel.
Längere Clips	Sendet dieselbe Multipart-Anfrage an `/stt`.	Cartesia übernimmt das Chunking serverseitig.

Im Cartesia-Plugin gibt es keinen separaten Async-Upload, kein Task-Polling und keinen Ergebnis-Download.

Quellen: Cartesia Batch Speech-to-Text

Text-to-Speech

Das Plugin nutzt Cartesias Endpunkt /tts/bytes mit sonic-3.5 und fordert rohes pcm_s16le-Audio mit 44,1 kHz für die Wiedergabe an.

Einstellung	Bedeutung
Text-to-Speech Voice	Wählt eine Stimme aus Cartesias Stimmenliste, nachdem das Plugin verfügbare Stimmen aktualisiert hat.
Aktualisieren	Ruft bis zu 100 Cartesia-Stimmen ab, die für dein Konto verfügbar sind, und speichert die geladene Liste lokal.
Eigene Voice-ID	Ermöglicht das manuelle Einfügen einer Voice-ID, falls die Stimme noch nicht in der geladenen Liste steht.
Sprache	TypeWhisper übergibt eine TTS-Sprache, wenn die Anfrage oder die ausgewählte Stimme eine von Cartesia unterstützte Sprache liefert.

Quellen: Cartesia Text-to-Speech Bytes, Cartesia Sonic 3.5

Konfiguration

API-Key - Füge einen Standard-Cartesia-API-Key ein. TypeWhisper validiert ihn gegen Cartesias Stimmen-Endpunkt und speichert ihn über den Plugin-Secret-Speicher.
Entfernen - Löscht den gespeicherten Cartesia-API-Key aus TypeWhisper.
Gesprochene Sprache - Wähle die Quellsprache des Audios für STT.
Text-to-Speech Voice - Wähle eine geladene Cartesia-Stimme oder nutze die eingebaute Standardstimme.
Aktualisieren - Lädt die aktuelle Cartesia-Stimmenliste, die für dein Konto verfügbar ist.
Eigene Voice-ID - Nutzt eine manuell eingefügte Cartesia-Voice-ID für TTS.

Einrichtung

Erstelle ein Cartesia-Konto und generiere einen Standard-API-Key.
Öffne TypeWhisper Einstellungen > Plugins.
Finde Cartesia und klicke auf Konfigurieren.
Füge den API-Key ein und warte auf die Validierung.
Wähle die Gesprochene Sprache, die zur Audioquelle passt.
Klicke auf Aktualisieren, wenn TypeWhisper die für dein Cartesia-Konto verfügbaren Stimmen laden soll.
Wähle eine Text-to-Speech Voice oder füge eine Eigene Voice-ID ein.
Wähle Cartesia als Transkriptions- oder Text-to-Speech-Anbieter in den Einstellungen oder in einem Profil.

Hinweise

Das Plugin ist ausschließlich cloudbasiert und sendet Audio oder Text an Cartesia; nutze eine lokale Engine, wenn Inhalte auf dem Gerät bleiben müssen.
Cartesia-Limits, Abrechnung und verfügbare Stimmen werden durch dein Cartesia-Konto bestimmt.
Die öffentliche 1.0.0-Release benötigt TypeWhisper-Hostversion 1.4.0 oder neuer, SDK-Kompatibilität v1 und macOS 14.0 oder neuer.