Cerebras bietet ultraschnelle LLM-Inferenz mit spezieller Wafer-Scale Engine (WSE) Hardware. Die Plattform erreicht Geschwindigkeiten von rund 3.000 Tokens pro Sekunde für große Modelle wie GPT-OSS 120B und ist damit einer der schnellsten Cloud-Inferenzanbieter. Das Plugin nutzt eine OpenAI-kompatible API und ruft verfügbare Modelle dynamisch ab.
Features
Ultraschnelle Inferenz (~3.000 Tokens/Sek. für GPT-OSS 120B)
Dynamische Modellliste mit Aktualisierung über die Cerebras-API
OpenAI-kompatible API
API-Schlüssel sicher im macOS-Schlüsselbund gespeichert
LLM-Modelle
Modell
ID
Llama 3.1 8B
llama3.1-8b
GPT-OSS 120B
gpt-oss-120b
Qwen 3 235B
qwen-3-235b-a22b-instruct-2507
ZAI GLM 4.7
zai-glm-4.7
Nutze den Aktualisieren-Button, um die neuesten Modelle von der Cerebras-API zu laden.
Konfiguration
API-Schlüssel - Registriere dich auf cloud.cerebras.ai und erstelle einen API-Schlüssel. Dein Schlüssel wird sicher im macOS-Schlüsselbund gespeichert.
Einrichtung
Öffne TypeWhisper Einstellungen > Plugins
Finde das Cerebras-Plugin und klicke auf Konfigurieren
Gib deinen Cerebras API-Schlüssel ein
Wähle ein LLM-Modell und setze Cerebras als LLM-Anbieter