On-Premise-Spracherkennung: DSGVO-konforme Transkription (2026)

On-Premise-Spracherkennung ist Speech-to-Text-Software, die vollständig auf den eigenen Servern eines Unternehmens läuft – nicht in der Cloud des Anbieters. Die Audiodaten verlassen das Haus nie, was volle Datenkontrolle und einen klaren DSGVO-Vorteil bringt. Im Gegenzug tragen Sie Hardware, Wartung und IT-Aufwand selbst. Für hochsensible Daten ist sie deshalb oft die sicherste Wahl.

🔑 Kurzantwort On-Premise = Spracherkennung läuft auf Ihrer eigenen Hardware; Audio und Transkripte bleiben im Haus. Maximale Datenhoheit, aber Sie betreiben die Infrastruktur selbst. Cloud = Audio wird zum Anbieter geschickt und dort verarbeitet. Bequem und skalierbar, aber Sie geben die Daten aus der Hand – bei US-Anbietern inklusive CLOUD-Act-Risiko. On-Device = die Verarbeitung passiert direkt auf dem Endgerät (z. B. einem Rekorder), ohne Server-Setup – die strengste Form der Datensparsamkeit für einzelne Aufnahmen.

Eine Aussage, die die Debatte 2025 zugespitzt hat: Am 18. Juni 2025 räumte der Direktor für Public & Legal Affairs von Microsofts französischer Tochter bei einer Anhörung im französischen Senat unter Eid ein, dass das Unternehmen nicht garantieren kann, dass Daten französischer Bürger nicht ohne Zustimmung an US-Behörden gelangen – selbst für Daten, die in einem Rechenzentrum in Frankreich liegen (französischer Senat, Anhörung 18.06.2025; berichtet u. a. von theregister.com, verifiziert Juni 2026). Genau dieses Risiko adressiert On-Premise.

Was ist On-Premise-Spracherkennung?

On-Premise (oft kurz „On-Prem”) bedeutet, dass die komplette Speech-to-Text-Verarbeitung – vom Erkennungsmodell bis zur Speicherung – innerhalb der eigenen IT-Infrastruktur stattfindet: auf firmeneigenen Servern, im eigenen Rechenzentrum oder in einer privaten Cloud unter eigener Kontrolle. Kein Audiostream geht an einen externen Anbieter.

Der Gegenentwurf ist die SaaS- bzw. Cloud-Spracherkennung: Hier nimmt eine App oder ein Dienst das Audio auf und schickt es zur Transkription an die Server des Anbieters. Bekannte Beispiele sind cloudbasierte Diktierlösungen oder Meeting-Bots, die einem Zoom- oder Teams-Call beitreten.

Typische Einsatzfelder für On-Prem sind Branchen mit besonders sensiblen Inhalten: Gesundheitswesen, Kanzleien und Justiz, Behörden, Finanzdienstleister, Forschung und Industrie mit Geschäftsgeheimnissen.

On-Premise vs. Cloud-Spracherkennung: Wo liegt der Unterschied?

Der Kern ist die Frage: Wer kontrolliert die Daten? Bei On-Prem Sie selbst, bei der Cloud der Anbieter. Daraus leiten sich alle weiteren Unterschiede ab – Datenschutz, Kosten, Aufwand und Skalierbarkeit.

Kriterium	On-Premise (eigener Server)	On-Device (am Endgerät)	Cloud / SaaS
Datenstandort	Eigenes Rechenzentrum	Direkt auf dem Gerät	Server des Anbieters
Datenkontrolle	Voll	Voll	Eingeschränkt
US-CLOUD-Act-Risiko	Keines	Keines	Ja, bei US-Anbietern (auch mit EU-Region)
Einrichtungsaufwand	Hoch (Hardware, Setup)	Gering	Gering
Laufende Kosten	Hardware + Wartung + IT-Personal	Gerätekosten	Lizenz / Abo pro Nutzer
Skalierbarkeit	Begrenzt durch eigene Hardware	Pro Gerät	Sehr flexibel
Ideal für	Viele Nutzer, hochsensible Daten, eigene IT	Einzelne Präsenz-/Außentermine	Schnellen Start, schwankenden Bedarf

Wichtig: Eine „EU-Region” eines US-Hyperscalers löst das Souveränitätsproblem nicht automatisch – dazu mehr im CLOUD-Act-Abschnitt.

Ist On-Premise-Spracherkennung DSGVO-konform?

Grundsätzlich gilt On-Premise als die datenschutzrechtlich sichere Variante, weil personenbezogene Audiodaten das eigene Netz nicht verlassen und vollständig unter eigener Kontrolle stehen – inklusive Zugriffsrechten, Protokollierung und Löschung. Das erleichtert die Erfüllung von DSGVO-Pflichten wie Datensparsamkeit (Art. 5), Löschkonzept (Art. 17) und der Rechenschaftspflicht (Art. 5 Abs. 2).

Aber: On-Premise ist nicht automatisch DSGVO-konform. Die Verantwortung für den Datenschutz liegt dann vollständig bei Ihnen. Sie brauchen weiterhin eine Rechtsgrundlage für die Aufnahme (Art. 6 DSGVO – im Meeting meist die Einwilligung aller Beteiligten), ein Berechtigungskonzept, Verschlüsselung und definierte Löschfristen. On-Prem nimmt Ihnen das Übermittlungsproblem ab, nicht die Sorgfaltspflichten.

Allgemeine Information, keine Rechtsberatung. Bei konkreten Verträgen oder grenzüberschreitenden Sachverhalten sollten Sie Datenschutz- oder anwaltlichen Rat einholen.

Was bedeutet der US CLOUD Act für Cloud-Spracherkennung?

Das ist der oft übersehene Knackpunkt. Der US CLOUD Act (2018) verpflichtet US-Unternehmen, US-Behörden auf Anordnung Zugriff auf Daten zu geben – unabhängig davon, wo die Server stehen. Eine in Frankfurt oder Paris gehostete „EU-Region” eines US-Anbieters fällt damit weiterhin unter US-Zugriff.

Der EU-US Data Privacy Framework (DPF), seit Juli 2023 in Kraft, regelt zwar die Übermittlung an zertifizierte US-Firmen und wurde vom Gericht der EU (EuG) am 3. September 2025 bestätigt (Klage Latombe). Der Abgeordnete Latombe hat dagegen jedoch Ende Oktober 2025 Rechtsmittel beim Europäischen Gerichtshof (EuGH) eingelegt (Rechtssache C-703/25 P); das Verfahren war im Frühjahr 2026 noch anhängig, ein Verhandlungstermin stand nicht fest (verifiziert Juni 2026). Da der EuGH bereits zweimal (Schrems I und II) transatlantische Abkommen gekippt hat, ist die endgültige Rechtssicherheit weiterhin offen. Entscheidend bleibt ohnehin: Der DPF beseitigt das CLOUD-Act-Risiko nicht. Das Europäische Datenschutzkomitee (EDPB) hatte in seinem Review im November 2024 eine erneute Prüfung angemahnt.

Für Spracherkennung heißt das praktisch: Wer hochsensible Gespräche transkribieren lässt und das CLOUD-Act-Risiko ausschließen will, kommt um On-Premise, On-Device oder einen rein in der EU ansässigen Anbieter ohne US-Mutterkonzern kaum herum.

▶ Sensible Gespräche transkribieren, ohne sie in eine US-Cloud zu schicken. Kuno ist ein datenschutzfreundlicher KI-Sprachrekorder Made in Germany, der Präsenz- und Außentermine direkt auf dem Gerät aufzeichnet und transkribiert – EU-gehostet, ohne Training auf Ihren Aufnahmen. Das Audio verlässt den Raum nicht, ganz ohne eigenes Server-Setup. So bekommen Sie die Datenhoheit einer On-Prem-Lösung für genau die Termine, die kein Software-Bot erreicht. Frühzugang sichern →

On-Premise oder On-Device? Der unterschätzte Unterschied

„On-Premise” und „On-Device” werden oft verwechselt, meinen aber zwei Dinge:

On-Premise verarbeitet zentral auf einem eigenen Server. Das lohnt sich, wenn viele Mitarbeitende dieselbe Erkennungs-Engine nutzen (z. B. Klinik-Diktat an vielen Arbeitsplätzen) – setzt aber Serverhardware, GPUs und IT-Betrieb voraus.

On-Device verarbeitet direkt auf dem Endgerät (Smartphone, dediziertem Rekorder, Laptop). Es braucht kein Rechenzentrum, skaliert pro Gerät und ist ideal, wenn einzelne Personen unterwegs Präsenz- oder Außentermine erfassen, die ein Cloud-Meeting-Bot gar nicht betreten kann. Datenschutzrechtlich ist On-Device für die einzelne Aufnahme die strengste Variante: Die Daten entstehen und bleiben am Gerät.

Beide eint der entscheidende Vorteil gegenüber der Cloud: Die Audiodaten verlassen Ihre Kontrolle nicht. Welche Variante passt, hängt vom Szenario ab – nicht „besser oder schlechter”, sondern „zentral viele” vs. „mobil einzeln”.

Welche On-Premise-Lösungen für Spracherkennung gibt es?

Der Markt teilt sich in Open-Source-Modelle, die Sie selbst hosten, und kommerzielle On-Prem-Produkte mit Support und Branchen-Vokabular. Ein Überblick über gängige Optionen:

Lösung	Typ	Betrieb	Stärke / Fokus
OpenAI Whisper	Open Source (MIT)	Eigene Server / GPU	90+ Sprachen, lizenzkostenfrei, sehr flexibel
Vosk	Open Source (Apache 2.0)	Offline, auch leichte Hardware	Schlank, läuft offline auf kleinen Geräten
Linguatec	Kommerziell	On-Premise (Made in Germany)	Diktat & Transkription, deutscher Anbieter
MediaInterface (SpeaKING)	Kommerziell	On-Premise, Klinik	Medizinische Spracherkennung, Fachvokabular
Google Cloud Speech-to-Text On-Prem	Kommerziell	Container im eigenen RZ	Google-Engine bei eigener Datenhaltung
Lingvanex	Kommerziell	On-Premise	Viele Sprachen, Audio- & Videoerkennung

Hinweis: Genauigkeit, Sprachabdeckung und Preis variieren stark je nach Anwendungsfall und ändern sich häufig – prüfen Sie die aktuellen Angaben des jeweiligen Anbieters vor einer Entscheidung.

Kann ich Whisper selbst hosten? Open-Source-Optionen

Ja. OpenAI Whisper steht unter der freien MIT-Lizenz – Sie dürfen es auf eigener Hardware betreiben, ganz ohne Anbieter-Abhängigkeit. Wer einen Whisper-Server im eigenen Netz betreibt, verarbeitet Audio vollständig lokal: unter eigenen Berechtigungen, eigener Protokollierung, physischer Kontrolle. Damit ist Self-Hosting ein gängiger Weg zu DSGVO-konformer Spracherkennung.

Whisper gibt es in mehreren Größen – vom winzigen tiny-Modell bis large-v3. Im September 2024 veröffentlichte OpenAI zusätzlich large-v3-turbo, das Audio rund achtmal schneller verarbeitet als large-v3 (OpenAI, Sept. 2024, verifiziert Juni 2026). Faustregel: Je größer das Modell, desto genauer – und desto mehr GPU-Leistung nötig.

Modell	Ca. VRAM-Bedarf	Relative Geschwindigkeit	Hardware
tiny / base	~1 GB	sehr schnell (~7–10×)	läuft auf CPU / Büro-PC
small	~2 GB	schnell (~4×)	GPU empfohlen
medium	~5 GB	mittel (~2×)	GPU empfohlen
large-v3	~10 GB	Basis (1×)	GPU erforderlich
large-v3-turbo	~6 GB	~8× schneller als large-v3	GPU empfohlen

VRAM- und Geschwindigkeitsangaben gemäß OpenAI-Modellkarte (Richtwerte; reale Werte hängen von Hardware und Audiolänge ab). Für eine bedienbare Oberfläche lassen sich Open-Source-Modelle z. B. über selbst gehostete Interfaces einbinden, die vollständig offline laufen.

Was kostet On-Premise-Spracherkennung – und welche Hardware brauche ich?

Eine pauschale Zahl gibt es nicht; die Kostenstruktur ist aber grundlegend anders als in der Cloud. Statt eines laufenden Abos pro Nutzer zahlen Sie bei On-Prem vor allem einmalige und betriebliche Kosten:

Hardware: ein Server, bei größeren Whisper-Modellen mit GPU. Kleine Modelle laufen auf vorhandener Büro-Hardware.
Software: Open-Source-Modelle (Whisper, Vosk) sind lizenzkostenfrei; kommerzielle On-Prem-Produkte haben Lizenz- und Wartungsgebühren.
Betrieb: Einrichtung, Updates, Monitoring und IT-Personal – der oft unterschätzte Posten.

Cloud-Lösungen verschieben diese Kosten in eine planbare Monatsgebühr und benötigen kaum eigene Hardware – dafür mit den genannten Datenschutz-Kompromissen. On-Device-Geräte liegen dazwischen: Anschaffungskosten pro Gerät, aber kein Server und kein Abo für die Verarbeitung.

Für wen lohnt sich On-Premise-Spracherkennung?

On-Prem rechnet sich, wenn Datenschutz oberste Priorität hat, viele Nutzer dieselbe Engine brauchen und eine IT-Abteilung den Betrieb stemmen kann. Für mobile Einzelnutzung oder schnellen Start ist es überdimensioniert.

Ihr Szenario	Empfehlung
Hochsensible Daten, viele Arbeitsplätze, eigene IT	On-Premise (eigener Server / kommerzielle Lösung)
Datenschutz wichtig, kein IT-Team, technisch versiert	Whisper / Vosk self-hosted
Präsenz- & Außentermine mobil erfassen	On-Device-Rekorder (z. B. Kuno)
Schwankender Bedarf, schneller Start, EU-Anbieter ok	EU-gehostete Cloud (ohne US-Mutter)

✅ Auswahl-Checkliste (vor der Entscheidung durchgehen)

Wo entstehen die sensibelsten Aufnahmen – am Schreibtisch (zentral) oder unterwegs (mobil)?

Wer darf die Daten je sehen? Schließt das US-Behörden aus (CLOUD Act)?

Haben wir Hardware + IT, um einen Server zu betreiben – oder brauchen wir etwas Wartungsfreies?

Welche Sprachen und welches Fachvokabular müssen erkannt werden?

Gibt es einen Auftragsverarbeitungsvertrag, ein Löschkonzept und Verschlüsselung?

Häufige Fehler bei der Auswahl

„EU-Region = souverän” annehmen. Ein US-Anbieter mit Frankfurt-Server unterliegt weiter dem CLOUD Act. Entscheidend ist der Unternehmenssitz, nicht nur der Serverstandort.
DSGVO-Konformität allein dem Tool zuschreiben. Auch On-Prem braucht Einwilligung, Berechtigungs- und Löschkonzept.
Hardware unterschätzen. Große Whisper-Modelle in Echtzeit brauchen eine GPU; auf reiner CPU wird die Transkription langsam.
Den Betriebsaufwand vergessen. On-Prem heißt: Sie patchen, sichern und überwachen selbst.
Genauigkeit aus alten Tests übernehmen. Modelle ändern sich schnell – im eigenen Anwendungsfall testen statt fremde Benchmarks glauben.

Troubleshooting: typische Probleme & Lösungen

Transkription zu langsam: kleineres Modell wählen (small/medium) oder eine GPU ergänzen; large-v3-turbo ist deutlich schneller als large-v3.
Schlechte Erkennung bei Fachbegriffen: kommerzielle Lösung mit Branchen-Vokabular prüfen oder ein Modell mit eigenem Wörterbuch/Custom-Vocabulary einsetzen.
Mehrere Sprecher nicht unterscheidbar: auf Speaker-Diarization achten – nicht jedes Modell kann das von Haus aus.
Mobile Termine werden gar nicht erfasst: ein Server hilft hier nicht – für Präsenz-/Außentermine ist ein On-Device-Rekorder der richtige Weg.

▶ Datenhoheit für genau die Meetings, die kein Bot erreicht. Software-Meeting-Bots kommen nur in Zoom, Teams oder Meet – das Verkaufsgespräch beim Kunden, der Werkstatt-Termin, das Vier-Augen-Gespräch bleiben außen vor. Kuno erfasst diese Präsenztermine on-device, transkribiert lokal und hält die Daten in der EU – Made in Germany, kein Meeting-Bot nötig, kein Training auf Ihren Aufnahmen. Ein sichtbarer Aufnahme-Indikator zeigt allen, wann mitgeschnitten wird. Frühzugang sichern → Kuno für datensouveräne Aufnahmen

FAQ

Ist On-Premise-Spracherkennung DSGVO-konform? Sie ist die datenschutzfreundlichste Architektur, weil Audiodaten das eigene Netz nicht verlassen. DSGVO-konform wird der Einsatz aber erst mit Rechtsgrundlage, Berechtigungs- und Löschkonzept – die Verantwortung liegt bei Ihnen.

Was ist der Unterschied zwischen On-Premise und Cloud-Spracherkennung? Bei On-Premise läuft die Erkennung auf Ihren eigenen Servern, die Daten bleiben im Haus. Bei der Cloud wird das Audio an den Anbieter geschickt. On-Prem bietet mehr Kontrolle, die Cloud mehr Komfort und Skalierbarkeit.

Kann ich Whisper on-premise selbst hosten? Ja. Whisper steht unter MIT-Lizenz und lässt sich auf eigener Hardware betreiben. Kleine Modelle laufen auf einer CPU, größere brauchen eine GPU.

Schützt ein EU-Rechenzentrum vor dem US CLOUD Act? Nicht zwingend. Gehört der Anbieter zu einem US-Konzern, kann er auch bei EU-Servern zur Datenherausgabe verpflichtet werden. Sicherheit bieten On-Premise, On-Device oder ein EU-Anbieter ohne US-Mutter.

Was ist der Unterschied zwischen On-Premise und On-Device? On-Premise verarbeitet zentral auf einem eigenen Server (gut für viele Nutzer). On-Device verarbeitet direkt auf dem Endgerät (gut für mobile Einzelaufnahmen, kein Server nötig).

Welche On-Premise-Lösung ist die beste? Das hängt vom Anwendungsfall ab: Whisper/Vosk für selbst gehostete Flexibilität, kommerzielle Produkte (z. B. Linguatec, MediaInterface) für Support und Fachvokabular, On-Device-Rekorder für mobile Präsenztermine.