Sber SaluteSpeech - TypeWhisper Add-ons

Über

Sber SaluteSpeech ergänzt TypeWhisper unter macOS um einen Cloud-Transkriptionsanbieter auf Basis der SaluteSpeech REST API von Sber. Er richtet sich an Nutzerinnen und Nutzer, die bereits ein SaluteSpeech-Projekt in Sber Developer Studio haben oder dort eines erstellen können und ihren eigenen SaluteSpeech Authorization Key hinterlegen.

TypeWhisper bringt keine gemeinsame Sber-Zugangsdaten mit. Audio wird zur Erkennung an SaluteSpeech gesendet, und TypeWhisper speichert den Authorization Key über seinen Plugin-Secret-Speicher.

Das erste öffentliche Plugin-Manifest ist 0.1.0, benötigt TypeWhisper-Hostversion 1.4.0 oder neuer und deklariert SDK-Kompatibilität v1. Öffentliche Releases sollten das Tag-Format plugin-sber-salutespeech-v<version> verwenden. Mit dem aktuellen Manifest bedeutet das plugin-sber-salutespeech-v0.1.0. Der Plugin-Release-Workflow ordnet sber-salutespeech SaluteSpeechPlugin zu, baut und signiert das Bundle, veröffentlicht das Release-Asset und schreibt den Eintrag in den Registry-Pfad plugins-v1.json.

Quellen: Sber SaluteSpeech REST API, Sber Access-Token-Dokumentation, macOS Plugin-PR, TypeWhisper Plugin-Registry

Voraussetzungen & Datenschutz

Voraussetzung	Details	Warum es wichtig ist
Plattform	macOS `14.0` oder neuer.	Die erste TypeWhisper-Integration ist ein macOS-Plugin.
TypeWhisper-Host	`1.4.0` oder neuer.	Das ist die `minHostVersion` im Plugin-Manifest.
SDK-Kompatibilität	`v1`.	Der Release-Workflow veröffentlicht kompatible Metadaten in `plugins-v1.json`.
Zugangsdaten	Ein SaluteSpeech Authorization Key aus Sber Developer Studio.	Das Plugin tauscht diesen Schlüssel vor Erkennungsanfragen gegen kurzlebige OAuth-Access-Tokens.
Netzwerkzugriff	Audio wird zu `smartspeech.sber.ru` hochgeladen; OAuth-Tokens werden über Sbers OAuth-Endpunkt angefordert.	Das ist ein Cloud-Anbieter, keine lokale Transkription.
Eigentum der Zugangsdaten	Nur nutzerbereitgestellt.	TypeWhisper leitet keine Anfragen über ein TypeWhisper-eigenes Sber-Konto weiter.

Quellen: Sber Einrichtung für Privatpersonen, Sber Einrichtung für Unternehmen, Sber API-Authentifizierung

SaluteSpeech Authorization Key erhalten

Für ein persönliches Konto:

Registriere dich in Sber Developer Studio oder melde dich mit Sber ID an.
Erstelle unter den Sprachtechnologien ein SaluteSpeech-API-Projekt.
Wähle ein Paket oder nutze die Freemium-Zuteilung, falls sie für dein Konto verfügbar ist.
Öffne das Projekt, gehe zu den API-Einstellungen und generiere den Authorization Key.
Kopiere den Schlüssel sofort. Sber zeigt ihn einmalig an; bei Verlust oder Kompromittierung musst du einen neuen Schlüssel generieren.
Öffne in TypeWhisper Einstellungen > Plugins > Sber SaluteSpeech und füge den Authorization Key ein.

Für ein Unternehmenskonto erstellst oder nutzt du einen Corporate-Studio-Bereich, schließt die von Sber verlangte Vertrags- oder Abrechnungseinrichtung ab und generierst den Authorization Key danach in den Einstellungen des SaluteSpeech-API-Projekts.

Quellen: Sber Einrichtung für Privatpersonen, Sber Einrichtung für Unternehmen, Sber Authorization-Key-Anleitung

OAuth-Scopes

Das Plugin unterstützt die Scopes, die in seinen Einstellungen angeboten werden:

Scope	Einsatzbereich
`SALUTE_SPEECH_PERS`	Persönliche SaluteSpeech-Projekte in einem privaten Studio-Bereich. Das ist die Vorgabe.
`SALUTE_SPEECH_CORP`	Corporate-SaluteSpeech-Projekte auf Postpaid-Unternehmensbasis.

Sber dokumentiert weitere Scope-Werte für andere Kontotypen, darunter Prepaid-Unternehmen und Legacy-Werte. Dieses Plugin bietet aktuell nur die beiden oben genannten Scopes an. Wenn vor der öffentlichen Veröffentlichung Unterstützung für ein neueres SDK, einen weiteren Scope oder ein anderes Kontomodell ergänzt wird, aktualisiere Plugin-Manifest und diese Seite im selben Release.

Quellen: Sber API-Authentifizierung, Sber Scope-Hinweise für Privatpersonen, Sber Scope-Hinweise für Unternehmen

Unterstützte Erkennungssprachen

Das Plugin stellt in TypeWhisper russische und englische Erkennung bereit.

TypeWhisper-Auswahl	Gesendete SaluteSpeech-Sprache
Auto-Erkennung oder keine Sprache	`ru-RU`
`ru`, `ru-RU` oder ein anderes `ru-*`-Locale	`ru-RU`
`en`, `en-US` oder ein anderes `en-*`-Locale	`en-US`

Russisch ist die Vorgabe, weil SaluteSpeech russisch priorisiert ist und weil sich das Plugin vorhersehbar verhalten soll, wenn TypeWhisper keine gesprochene Sprache gesetzt hat. Übersetzung wird nicht unterstützt.

Verhalten bei kurzem und langem Audio

Das Plugin sendet immer 16-kHz-Mono-Audio als PCM_S16LE.

Aufnahme	TypeWhisper-Verhalten	SaluteSpeech-Ablauf
Bis 2 MB PCM-Daten und bis 60 Sekunden	Sendet eine synchrone Erkennungsanfrage.	`POST /rest/v1/speech:recognize` mit `model=general` und der gewählten `language`.
Größer als 2 MB oder länger als 60 Sekunden	Nutzt den asynchronen Ablauf.	Audio hochladen, Erkennungsaufgabe erstellen, Aufgabenstatus abfragen und anschließend die JSON-Ergebnisdatei herunterladen.

Sber dokumentiert synchrone HTTP-Erkennung für kurze Audiodateien mit einem Limit von 2 MB und einer Minute. Der asynchrone HTTP-Ablauf ist für längere aufgezeichnete Audiodateien gedacht und nutzt Upload, Aufgabenerstellung, Statusabfrage und Ergebnisdownload.

Quellen: Sber synchrone Erkennung, Sber asynchroner REST-Ablauf, Sber Audioformate und Limits

Konfiguration

Authorization Key - Füge den SaluteSpeech Authorization Key aus Sber Developer Studio ein. TypeWhisper normalisiert Schlüssel mit oder ohne Basic-Prefix.
Scope - Wähle SALUTE_SPEECH_PERS für persönliche Projekte oder SALUTE_SPEECH_CORP für unterstützte Unternehmensprojekte.
Modell - Das erste Plugin nutzt SaluteSpeech general.
Nutzungsschätzung - Das Plugin zählt erfolgreiche Erkennungsdauer lokal, um sie grob mit deinem SaluteSpeech-Kontingent zu vergleichen. Maßgeblich für Abrechnung und Kontingent bleibt Sber Studio.
Balance correction / Kontostand-Korrektur - Optional kannst du die verbleibenden Erkennungsminuten aus Sber Studio eintragen, damit TypeWhisper die lokal verbleibende Zeit schätzen kann.

Praktische Testhinweise

Validiere den Authorization Key in den Plugin-Einstellungen, bevor du die Engine für produktives Diktat auswählst.
Teste sowohl einen kurzen Clip unter einer Minute als auch einen längeren Clip über einer Minute. Sie nutzen unterschiedliche SaluteSpeech-REST-Pfade.
Teste Russisch und Englisch explizit über ein TypeWhisper-Profil oder einen Workflow. Auto/keine Sprache fällt aktuell auf Russisch zurück.
Das Plugin ist ausschließlich cloudbasiert und sendet Audio an SaluteSpeech; nutze eine lokale Engine, wenn Audio auf dem Gerät bleiben muss.
Zertifikats- oder Trust-Store-Probleme können in manchen Umgebungen dazu führen, dass die Validierung fehlschlägt. Installiere die für deine macOS-Umgebung von Sber verlangten Zertifikate, wenn Sbers Endpunkt nicht als vertrauenswürdig gilt.
Rate-Limits, Paketlimits und parallele Anfragegrenzen werden von Sber gesteuert. Prüfe Nutzung und Abrechnungsstatus in Sber Studio.

Release-Pfad

Das SaluteSpeech-Plugin sollte aus dem macOS-Repository mit dem vorhandenen Plugin-Release-Workflow veröffentlicht werden.

Release-Feld	Aktueller Wert
Plugin-ID	`com.typewhisper.sber-salutespeech`
Release-Slug	`sber-salutespeech`
Principal Class	`SaluteSpeechPlugin`
Tag-Format	`plugin-sber-salutespeech-v<version>`
Aktuelle Manifest-Version	`0.1.0`
Aktuell erwartetes Tag	`plugin-sber-salutespeech-v0.1.0`
Minimale Host-Version	`1.4.0`
SDK-Kompatibilität	`v1`
Registry-Pfad	`plugins-v1.json`

Falls das Plugin vor der Veröffentlichung ein neueres SDK benötigt, aktualisiere sdkCompatibilityVersion, minHostVersion, diese Dokumentationsseite und den Release-Tag-Plan gemeinsam.