Spracherkennung mit KI

Spracheingabe an PC & Handy: So geht's

Spracherkennungen funktionieren dank künstlicher Intelligenz ohne Training und können sogar Konferenzen folgen. Sie laufen auf Ihrem PC, im Browser oder auf dem Smartphone. Nutzen Sie die kleinen digitalen Helfer, und schreiben Sie Ihre Texte (fast) ganz ohne Hände.

Autor: Jan Kaden • 7.10.2022 • ca. 5:45 Min

Inhalt

Spracheingabe an PC & Handy: So geht's
Spracheingabe an PC & Handy: Tipps zum Diktieren - Smartphone & Profis

Schreiben per Spracheingabe, auch Spracherkennung oder Speech-to-Text genannt, ist nicht nur etwas für Menschen mit Tippallergie. Auch bei schnellen Tippern fließen die Gedanken manchmal besser, wenn sie sich nicht mit zehn Fingern und der Tastatur quälen müssen. Ein weiterer Vorteil: Wer Texte ...

Ein weiterer Vorteil: Wer Texte diktiert, kann auch dann arbeiten, wenn er gerade keinen PC oder Laptop vor sich hat. Zeichnen Sie Ihre Gedanken mit dem Smartphone oder Audiorecorder auf. Wenn Sie später wieder vor dem Computer sitzen, lassen Sie die Audioaufzeichnung in Text umsetzen, im Fachjargon: transkribieren.

Attraktiv ist auch die Protokollierung von Meetings per Spracherkennung. Manche Programme sind so ausgereift, dass sie unabhängig vom Sprecher funktionieren. Sie können also ein Meeting aufzeichnen und anschließend von einer Spracherkennung transkribieren lassen. Dabei wird nicht nur das gesprochene Wort erkannt, die Software kann sogar die Sprecher auseinanderhalten.

Sie geben lediglich an, welche Stimme zu welchem Teilnehmer gehört und erhalten mit überschaubarem Arbeitsaufwand ein Wort-für-Wort-Protokoll Ihres Meetings. Neugierig geworden? In diesem Beitrag stellen wir die Tools für produktives Arbeiten mit Spracheingabe vor.

Gibt es Spracherkennungen für einen Dialekt?

„Können Spracherkennungen meinen Dialekt verstehen“, lautet eine häufig gestellte Frage. Technisch gesehen unterscheiden manche Spracherkennungen zwischen bundesdeutschen, österreichischen und schweizerischen Varianten des Deutschen. Es gibt also keine Spracherkennungen für beispielsweise friesische oder bayerische Sprecher.

Zum Glück gibt es von den meisten Spracherkennungen Demoversionen, oder der Hersteller räumt Ihnen eine Rückgabefrist ein, damit Sie das Produkt ohne Risiko testen können. Probieren Sie als Dialektsprecher einfach vor einem Kauf oder Abonnement aus, ob die Software Sie gut genug versteht.

Wie geht Spracherkennung am PC?

Wenn Sie am PC diktieren wollen, müssen Sie kein Geld ausgeben. Windows 10 und 11 haben eine Spracherkennung an Bord.

Klicken Sie die Start-Schaltfläche rechts an, und wählen Sie unter Windows 10 das Menü Einstellungen/Zeit und Sprache/Spracherkennung aus.
Klicken Sie hier unter der Rubrik Mikrofon auf die Schaltfläche Los geht‘s.

Wenn die Spracherkennung eingerichtet ist, erscheint auf Ihrem Bildschirm ein Widget, mit dem sich die Erkennung ein- und ausschalten lässt. Nun können Sie in alle Textfelder diktieren und zum Beispiel einen Text in WordPad schreiben.

Microsoft 365 bietet seinen Abonnenten ebenfalls eine integrierte Spracherkennung. Melden Sie sich auf einem Rechner mit Mikrofon bei Microsoft 365 an, und wechseln Sie zu Start/Diktieren. Dann sollte die Diktieren-Schaltfläche erscheinen, und Sie können sofort mit dem Diktieren beginnen.

Spracherkennung Windows Screenshot — Über dieses Menü in Windows 10 machen Sie die integrierte Spracherkennung einsatzbereit.

Wo gibt es online eine kostenlose Spracherkennung?

Eine weitere kostenlose Spracherkennung ist in Google Docs integriert. Leider funktioniert die Google-Spracherkennung ausschließlich im Chrome-Browser.

Loggen Sie sich also mit diesem Browser in Ihr Google-Konto ein, und wählen Sie Docs.
Klicken Sie auf den Menüpunkt Tools/Spracheingabe, und geben Sie danach gegebenenfalls den Zugriff des Browsers auf das Mikrofon frei. Nun können Sie in Google Docs diktieren.

GoogleDocs Spracherkennung Screenshot — Google Docs hat eine integrierte Spracherkennung, die jedoch nur in Chrome funktioniert.

Bei den Online-Diktierdiensten sind Sie nicht auf Google Docs festgelegt. Es gibt Gratisangebote wie Dictation (dictation.io/speech), Speechnotes (speechnotes.co/de), SpeechTexter (speechtexter.com) oder auch Textfromtospeech (textfromtospeech.com/de/voice-to-text/).

Dictanote (dictanote.co) ist ein Dienst für Notizen, die man auch per Spracheingabe erfassen kann. Smodin (smodin.io/de) bietet diverse Textdienste für Studenten an, unter anderem eine Spracherkennung. Alle diese Dienste funktionieren mit dem Chrome-Browser.

Spracherkennung nach Maß

Die vorgestellten Sprachdienste basieren alle auf Standardmodellen für die Spracherkennung, die nicht an einzelne Personen angepasst sind. Brauchen Sie ein System, dass sich auf Ihre Stimme und Ihr Vokabular einstellt, greifen Sie zu einer Spracherkennung, die Sie lokal auf Ihrem PC installieren.

Philips bietet hierfür die 50 Euro teure VoiceTracer-Software beziehungsweise Dragon Naturally Speaking Recorder Edition an. Laut Hersteller erlernt das Programm beim Diktieren und Korrigieren des erfassten Texts häufige Formulierungen und Sprachmuster des Anwenders. VoiceTracer ist nicht zum direkten Diktieren gemacht, sondern nur zum Transkribieren von Audioaufzeichnungen.

Mit Dragon Home (200 Euro) bekommen Sie eine Spracherkennung, der Sie direkt einen Text diktieren können. Das funktioniert ausschließlich mit dem integrierten Dragon- Editor oder Microsoft Word.

Dragon Home kann keine Audioaufzeichnungen transkribieren. Diese Funktion hat Dragon Professional Individual (700 Euro) zusätzlich zur Spracherkennung. Außerdem bietet die Software mehr Möglichkeit zur Automation täglicher Arbeitsabläufe und zur Anpassung an Ihre Sprach- und Schreibgewohnheiten. Diese Dragon-Produkte enthalten eine Jahreslizenz für die mobile Spracherkennung Dragon Anywhere für iOS und Android. Mehr dazu später.

VoiceTracer und die Dragon-Produkte sind auf einzelne Sprecher spezialisiert. Das verheißt eine höhere Erkennungsrate, andererseits lassen sich dadurch keine Unterhaltungen zwischen mehreren Sprechern in Text umsetzen. Denn die Spracherkennung braucht für jeden Sprecher ein eigenes Sprachprofil, kann aber jeweils nur ein einziges Profil für die Erkennung von Audiodateien benutzen. Für Gespräche zwischen mehreren Sprechern benötigen Sie einen Transkriptionsdienst.

Welche Transkriptionsdienste gibt es?

Um eine Aufnahme mit mehreren oder auch nur einem einzigen Sprecher in Text zu übertragen, laden Sie die betreffende Audiodatei einfach in einem Browser zu einem – kostenpflichtigen – Transkriptionsdienst hoch. Beispiele sind:

Amberscript (amberscript.com/de), Descript (descript.com), GoSpeech (gospeech.com), Maestra (maestrasuite.com), Sonix.ai (sonix.ai/de) und Trint (trint.com). Hier finden Sie ein breites Spektrum von Dienstleistungen.

Die Transkribierung kann automatisch per Software oder durch einen Menschen stattfinden, was sich natürlich im Preis niederschlägt. Einige dieser Dienste bieten auch die Erstellung von Untertiteln für Videos an.

Sonix.ai hat neben der Transkribierung auch Übersetzungen im Angebot. Die Preise liegen bei allen Anbietern bei etwa zehn Euro pro Stunde transkribiertes Material. Descript bietet einen kostenlosen Dienst an, in dem bereits drei Stunden Transkription enthalten sind.

Mit einem Abonnement, das meist um die 20 Euro pro Benutzer kostet, sinkt der Stundenpreis. Allerdings sind die Angebote schlecht über den Preis zu vergleichen. Das liegt zum einen an den erwähnten Zusatzdiensten, zum anderen an den unterschiedlichen Maßnahmen zum Schutz der Privatsphäre.

Auf Datenschutz achten

Schutz der Privatsphäre und Sicherheit sind wichtige Kriterien, wenn private oder Firmendaten in den Textenenthalten sind, die Sie transkribieren lassen. Die Überlegung gilt natürlich für alle in diesem Artikel erwähnten Onlinedienste:

Bevor Sie sich über ein kostenloses Angebot freuen, sollten Sie sich fragen, ob Sie diesem Anbieter tatsächlich die Inhalte Ihrer Texte anvertrauen wollen. Denken Sie im Businessbereich auch an Ihre Verpflichtung gegenüber Ihrem Arbeitergeber und an die Einhaltung der Datenschutzgrundverordnung (DSGVO).

Spracherkennung unter Android

Auf Android-Telefonen ist eine Spracherkennung bereits integriert, falls Sie die kostenlose GBoard-Tastatur von Google installiert haben.

Starten Sie die Texteingabe, sodass die Tastatur angezeigt wird. Nun tippen Sie einfach rechts oben auf das Mikrofon-Symbol.
Sehen Sie die Meldung Jetzt sprechen, können Sie mit dem Diktieren beginnen.

Eigene Spracherkennungs-Apps wie Dragon Anywhere – 150 Euro im Jahr oder 15 Euro pro Monat – gibt es natürlich auch. Diese Software bietet neben Cloud-Speicher auch die Möglichkeit, einen eigenen Wortschatz anzulegen. Darüber hinaus passt sich die App mit der Zeit an die Spracheigenheiten des Benutzers an.

Was ist die aktuelle Windows-10-Version?

Versionsgeschichte und -vergleich Windows 10: Aktuelle Version und Updates in der Übersicht

Kostengünstiger sind Apps wie Speechnotes – werbefrei für 10 Euro oder 1,59 Euro im Monat –, das praktische Makrotasten für Textbausteine mitbringt, oder Schreibe mit stimme – werbefrei für 3,69 Euro. Ihnen fehlen allerdings Funktionen wie das Anlegen eines eigenen Wortschatzes.

Alle diese Apps benötigen wie auch GBoard eine Internetverbindung, damit die Erkennung funktioniert. Android-Telefone eignen sich auch als Audiorecorder, mit dem Sie Texte zur späteren Transkribierung aufnehmen können. Ist keine Aufnahme-App installiert, geben Sie Diktiergerät oder Audiorecorder in der Suche des Google PlayStore ein; dort finden Sie eine Fülle von kostenlosen und kostenpflichtigen Angeboten.

Beispiele sind die kostenlose Open-Source-App Audio Recorder, Diktiergerät – in der Pro-Version für 8,49 Euro pro Jahr –, Smart Recorder – werbefrei für 1,59 Euro –, SnipBack für 2,99 Euro oder der kostenlose Voice Recorder Pro.

Die für Gehörlose gedachte kostenlose Android-App Automatische Transkription verwandelt gesprochene Sprache in Text, der bis zu drei Tage lang gespeichert wird. Man kann die App mit dieser Funktion auch als Spracherkennung für kurze Texte benutzen. Daneben belauscht sie die Umwelt und signalisiert Meldungen über wichtige Geräusche wie Klopfen oder Telefonklingeln optisch.

Nächste Seite

1 2