Cartesia
Mitgeliefertvon TypeWhisper
Über
Cartesia ergänzt TypeWhisper unter macOS um einen Cloud-Anbieter für Spracherkennung und Text-to-Speech. Das TypeWhisper-Plugin nutzt Cartesias Batch-Speech-to-Text-API mit ink-whisper und die Text-to-Speech-Bytes-API mit sonic-3.5.
TypeWhisper bringt keine gemeinsamen Cartesia-Zugangsdaten mit. Du hinterlegst deinen eigenen Cartesia-API-Key, TypeWhisper speichert ihn über den Plugin-Secret-Speicher, und Audio oder Text wird direkt an Cartesia gesendet, wenn du diesen Anbieter auswählst.
Quellen: Cartesia API-Konventionen, Cartesia Batch Speech-to-Text, Cartesia Text-to-Speech Bytes, Cartesia Plugin-Quellcode, TypeWhisper Plugin-Registry
Funktionen
- Cloud-Spracherkennung mit Cartesia
ink-whisper - Explizite Auswahl der gesprochenen Sprache für das Quellaudio
- Wort-Zeitstempel als TypeWhisper-Transkriptionssegmente
- API-Key-Validierung in den Plugin-Einstellungen
- Sichere API-Key-Speicherung über TypeWhisper Plugin-Secrets
- Text-to-Speech-Wiedergabe mit Cartesia
sonic-3.5 - Cartesia-Stimmenaktualisierung plus Standardstimme und eigene Voice-ID
- Keine TypeWhisper-Übersetzungsunterstützung
Anforderungen & Datenschutz
| Anforderung | Details | Warum das wichtig ist |
|---|---|---|
| Plattform | macOS 14.0 oder neuer. | Die aktuelle TypeWhisper-Integration ist ein macOS-Plugin. |
| TypeWhisper-Host | 1.4.0 oder neuer. | Das ist minHostVersion im Plugin-Manifest. |
| SDK-Kompatibilität | v1. | Die Release wird über den kompatiblen Plugin-Registry-Pfad veröffentlicht. |
| Zugangsdaten | Ein Cartesia-API-Key aus deinem Cartesia-Konto. | Das Plugin sendet ihn als Authorization: Bearer <api_key> bei Cartesia-API-Anfragen. |
| OAuth-Scopes | Keine. | Dieses Plugin nutzt einen nutzerbereitgestellten API-Key, kein Cartesia OAuth. |
| Netzwerkzugriff | Audio wird für STT an api.cartesia.ai hochgeladen; Text wird für TTS an api.cartesia.ai gesendet. | Das ist ein Cloud-Anbieter, keine lokale Transkription oder lokale Sprachsynthese. |
| Eigentum der Zugangsdaten | Ausschließlich nutzerbereitgestellt. | TypeWhisper leitet Anfragen nicht über ein TypeWhisper-eigenes Cartesia-Konto weiter. |
Quellen: Cartesia API-Konventionen, Cartesia API-Keys
Cartesia-API-Key erhalten
- Erstelle ein Cartesia-Konto oder melde dich an.
- Öffne die Cartesia-API-Key-Seite unter
play.cartesia.ai/keys. - Erstelle einen Standard-API-Key für TypeWhisper.
- Kopiere den Key und behandle ihn vertraulich. Rotiere ihn in Cartesia, wenn er verloren geht oder offengelegt wurde.
- Öffne in TypeWhisper Einstellungen > Plugins > Cartesia und füge den API-Key ein.
- Warte, bis das Plugin den Key validiert hat, bevor du Cartesia für Diktat oder Text-to-Speech auswählst.
Cartesia bietet zusätzlich Admin-API-Keys für Verwaltungs-Endpunkte. TypeWhisper benötigt für Transkription oder Text-to-Speech keinen Admin-API-Key.
Quellen: Cartesia API-Konventionen, Cartesia API-Keys, Cartesia Admin-API-Key-Hinweise
Speech-to-Text
Das Plugin sendet WAV-Audio an Cartesias Batch-Endpunkt /stt mit model=ink-whisper, fordert Wort-Zeitstempel an und fügt das Feld language für die Sprache des Quellaudios hinzu.
Cartesia dokumentiert language als Sprache des Eingabeaudios im ISO-639-1-Format. TypeWhisper normalisiert Profil-, Workflow- und Plugin-Sprachauswahlen auf Cartesias primären Sprachcode, sodass aus de-DE de und aus en-US en wird.
| TypeWhisper-Eingabe | Cartesia-Anfrage |
|---|---|
| Profil- oder Request-Sprache auf Deutsch gesetzt | Sendet language=de. |
| Profil- oder Request-Sprache auf Englisch gesetzt | Sendet language=en. |
| Sprachhinweise vorhanden, aber keine exakte Profilsprache | Nutzt den ersten unterstützten Sprachhinweis. |
| Keine unterstützte Profil- oder Hinweis-Sprache | Nutzt die Cartesia-Plugin-Einstellung Gesprochene Sprache. |
| Keine gültige konfigurierte Sprache | Fällt auf Englisch zurück und sendet language=en. |
Cartesia bewirbt keine TypeWhisper-Übersetzungsfunktion. Wenn lokal noch eine alte Einstellung für englische Übersetzung gespeichert ist, ignoriert das Plugin sie und sendet weiter den aufgelösten Code der gesprochenen Sprache.
Quellen: Cartesia Batch Speech-to-Text, Cartesia Plugin-Quellcode
Unterstützte Erkennungssprachen
Das Plugin zeigt in TypeWhisper Cartesias ink-whisper-Sprachliste an, einschließlich Englisch (en), Deutsch (de), Russisch (ru), Spanisch (es), Französisch (fr), Japanisch (ja), Portugiesisch (pt), Ukrainisch (uk), Chinesisch (zh) und vielen weiteren Sprachen.
Nutze eine explizite gesprochene Sprache, wenn du die Audiosprache kennst. Das vermeidet Provider-Defaults und macht mehrsprachige Profile vorhersehbarer.
Quellen: Cartesia Batch Speech-to-Text
Verhalten bei kurzer und langer Aufnahme
Cartesias Batch-STT-Endpunkt akzeptiert Audiodateien direkt und dokumentiert, dass lange Dateien nicht manuell aufgeteilt werden müssen; der Dienst teilt lange Audiodateien serverseitig auf. Das aktuelle TypeWhisper-Plugin nutzt deshalb dieselbe Batch-REST-Anfrage für kurze und längere Aufnahmen.
| Aufnahme | TypeWhisper-Verhalten | Cartesia-Ablauf |
|---|---|---|
| Kurze Clips | Sendet eine Multipart-Anfrage an /stt. | WAV-Audio, model=ink-whisper, ausgewählte language, Wort-Zeitstempel. |
| Längere Clips | Sendet dieselbe Multipart-Anfrage an /stt. | Cartesia übernimmt das Chunking serverseitig. |
Im Cartesia-Plugin gibt es keinen separaten Async-Upload, kein Task-Polling und keinen Ergebnis-Download.
Quellen: Cartesia Batch Speech-to-Text
Text-to-Speech
Das Plugin nutzt Cartesias Endpunkt /tts/bytes mit sonic-3.5 und fordert rohes pcm_s16le-Audio mit 44,1 kHz für die Wiedergabe an.
| Einstellung | Bedeutung |
|---|---|
| Text-to-Speech Voice | Wählt eine Stimme aus Cartesias Stimmenliste, nachdem das Plugin verfügbare Stimmen aktualisiert hat. |
| Aktualisieren | Ruft bis zu 100 Cartesia-Stimmen ab, die für dein Konto verfügbar sind, und speichert die geladene Liste lokal. |
| Eigene Voice-ID | Ermöglicht das manuelle Einfügen einer Voice-ID, falls die Stimme noch nicht in der geladenen Liste steht. |
| Sprache | TypeWhisper übergibt eine TTS-Sprache, wenn die Anfrage oder die ausgewählte Stimme eine von Cartesia unterstützte Sprache liefert. |
Quellen: Cartesia Text-to-Speech Bytes, Cartesia Sonic 3.5
Konfiguration
- API-Key - Füge einen Standard-Cartesia-API-Key ein. TypeWhisper validiert ihn gegen Cartesias Stimmen-Endpunkt und speichert ihn über den Plugin-Secret-Speicher.
- Entfernen - Löscht den gespeicherten Cartesia-API-Key aus TypeWhisper.
- Gesprochene Sprache - Wähle die Quellsprache des Audios für STT.
- Text-to-Speech Voice - Wähle eine geladene Cartesia-Stimme oder nutze die eingebaute Standardstimme.
- Aktualisieren - Lädt die aktuelle Cartesia-Stimmenliste, die für dein Konto verfügbar ist.
- Eigene Voice-ID - Nutzt eine manuell eingefügte Cartesia-Voice-ID für TTS.
Einrichtung
- Erstelle ein Cartesia-Konto und generiere einen Standard-API-Key.
- Öffne TypeWhisper Einstellungen > Plugins.
- Finde Cartesia und klicke auf Konfigurieren.
- Füge den API-Key ein und warte auf die Validierung.
- Wähle die Gesprochene Sprache, die zur Audioquelle passt.
- Klicke auf Aktualisieren, wenn TypeWhisper die für dein Cartesia-Konto verfügbaren Stimmen laden soll.
- Wähle eine Text-to-Speech Voice oder füge eine Eigene Voice-ID ein.
- Wähle Cartesia als Transkriptions- oder Text-to-Speech-Anbieter in den Einstellungen oder in einem Profil.
Hinweise
- Das Plugin ist ausschließlich cloudbasiert und sendet Audio oder Text an Cartesia; nutze eine lokale Engine, wenn Inhalte auf dem Gerät bleiben müssen.
- Cartesia-Limits, Abrechnung und verfügbare Stimmen werden durch dein Cartesia-Konto bestimmt.
- Die öffentliche
1.0.0-Release benötigt TypeWhisper-Hostversion1.4.0oder neuer, SDK-Kompatibilitätv1und macOS14.0oder neuer.