KI verstehen und clever nutzen

Beitrag von **Robbie Sandberg Site Admin** » 21.03.2026, 18:31

Dieser Thread Dient zum Austausch während unserer Seminarreihe "KI verstehen und clever nutzen" und darüber hinaus. Hier könnt ihr eure Erfahrungen und Fragen teilen.

Detaillierte Übersicht der Seminarinhalte:
Modul 1: Was ist KI? – Grundlagen & Überblick
Inhalte
• Was ist KI? Kurze Geschichte, Begriffe sortieren (ML, Deep Learning, LLM, etc.)
• Wie lernt eine KI? Datensätze, Training, Modelle – anschaulich erklärt
• Klassische Anwendungsfälle: Object Detection (“Was sieht die Kamera?”), Spracherkennung, Übersetzung
• Sprachmodelle (LLMs): Wie funktionieren ChatGPT & Co.? Was passiert, wenn ich etwas eintippe?
• Erste Schritte Prompting: Was ist ein Prompt? Warum ist die Formulierung wichtig? – Klarheit, Ziel, was soll die KI für mich tun?
• Chancen und Risiken der KI: Effizienz, Produktivität vs. Halluzinationen, Probleme
Praxis
• Gemeinsam einen Chatbot ausprobieren (ChatGPT, Gemini)
• Vergleich: gleiche Frage, verschiedene Formulierungen → unterschiedliche Ergebnisse
Takeaway
Grundverständnis: Was KI kann, was sie nicht kann, wie man mit ihr redet, wo Chancen und Risiken liegen.
Modul 2: KI-Tools für blinde und sehbehinderte Menschen
Inhalte
• Be My Eyes / Be My AI: Bildbeschreibung per KI – wie gut ist das wirklich? Wo liegen die großen Chancen für Blinde und was kann schiefgehen?
• Seeing AI / Envision / Google Lookout Vergleich der Apps; welche KI-Funktionen bieten sie? Unterschied zu Be My AI
• KI in Screenreadern: NVDA + Add-ons, JAWS, VoiceOver-Integration, TalkBack-Bildbeschreibung: kurze Einführung, Erfahrungen
• Dokumentenerkennung: klassische OCR vs. KI (z.B. handschriftliche Notizen, Briefe, Verpackungen)
• Mainstream KI-Tools als Hilfsmittel: Live-Erkennung in ChatGPT, Gemini oder Copilot
Praxis
• Vergleich: Foto mit 3 verschiedenen Apps beschreiben lassen
• Use-Case-Runde: Teilnehmende teilen ihre Erfahrungen & Lieblingstools
• Gemeinsam neue Szenarien durchsprechen
• Teilnehmende testen bis zum folgenden Termin und tauschen sich im offSight-Forum aus
Takeaway
Persönliche Tool-Empfehlung: Was passt zu meinem Alltag? Verständnis, was die Tools können und was nicht + wie sie arbeiten. Verständnis, wie man diese Tools mit KI-Wissen effektiver einsetzen kann.
Modul 3: KI-Chatbots bedienen + Datenschutz & Offline-KI
Inhalte
Chatbots blind bedienen - ChatGPT, Gemini, Copilot: Bedienbarkeit mit Screenreader (Web & App) - Welcher Chatbot funktioniert für wen am besten? Ehrlicher Vergleich. - Tastaturnavigation, APIs, alternative Interfaces wie BasiliskLLM - Tipps: Custom Instructions, Systemanweisungen, Memory, Voice Mode * Europäische Alternativenmit mehr Datenschutz: z. B. Mistral Le Chat
Datenschutz & Offline-KI - Was passiert mit meinen Daten? Cloud vs. lokal, Trainings-Opt-out - Offline-KI auf dem eigenen Rechner: Ja, das geht – auch ohne Programmierkenntnisse! - Ollama als Tool kurz vorgestellt: Hier können Technikbegeisterte ohne Programmierkenntnisse experimentieren - Demo: Lokales Modell installieren und nutzen (Schritt für Schritt) - Vor-/Nachteile: Geschwindigkeit, Qualität, Privatsphäre
Praxis
• Gemeinsam ein lokales Modell starten (wer mag)
• Chatbot-Vergleich: gleiche Aufgabe in ChatGPT, Mistral Le Chat, Gemini → Ergebnis vergleichen
Takeaway
Wissen, welcher Chatbot für einen funktioniert – und wie man KI auch offline nutzen kann. Wissen, wie die ChatBots Datenschutz handhaben (Opt-in, Opt.out) und was es mit Modelltraining auf sich hat. Grob wissen, was Custom Instructions und Memory sind.
Modul 4: Eigenen Chatbot bauen + Prompting-Meisterklasse
Inhalte
Prompting für Fortgeschrittene - Prompting-Techniken: Klarheit, Rollen, Kontext, Few-Shot, Chain-of-Thought - System-Prompts: Wie man einer KI eine Persönlichkeit gibt - Prompt-Bibliotheken: Vorlagen für wiederkehrende Aufgaben - Typische Fehler und wie man sie vermeidet – KI-Agenten und der Unterschied zu Chatbots
Eigenen Chatbot bauen - Custom GPTs (OpenAI) oder Gemini Gems: Schritt-für-Schritt-Anleitung - Praxisbeispiel 1: Alternativtext-Generator – Bilder beschreiben nach WCAG-Standards - Praxisbeispiel 2: Alltagstricks-Berater – ein Bot, der sich mit Blindenalltagstipps auskennt - Wissensdatenbank einbinden (Dateien hochladen, die der Bot kennen soll) - Testen, iterieren, verbessern
Praxis
• Wir bauen einen eigenen Mini-Chatbot (mit Anleitung)
• Jeder baut einen eigenen Mini-Chatbot (unterschiedliche Anwendungsfälle) im Nachgang; Austausch in der folgenden Session oder im offSight Forum
Takeaway
Ein eigener, funktionierender Chatbot – und das Know-how, weitere zu bauen.
Modul 5: Kreativ mit KI – Musik, Stimmen, Audio & Bilder
Inhalte
Musikgenerierung - Tools: Suno, Gemini - Musik aus Text erzeugen - Demo: Song erstellen mit eigenem Text (DBSV, Jugendclub, KI-Seminar o. anderes Thema) - Bedienbarkeit & Qualität
KI-Stimmen & Stimmklonen - Text-to-Speech: ElevenLabs, OpenAI TTS, Google Gemini TTS - Eigene Stimme klonen – und in anderen Sprachen sprechen lassen - Wichtiger Kontext: Ethik: Deepfakes, Consent, Kennzeichnung - Demo: Stimmklon live erstellen * Demo bei Interesse: Live-Simultanübersetzung im Google Meet ausprobieren
Audioschnitt & Nachbearbeitung - Auphonic: Automatisches Mastering für Podcasts & Aufnahmen - Bedienbarkeit mit Screenreader - Workflow: Aufnehmen → Auphonic → fertig
Bildgenerierung - Wie funktioniert Bilderstellung? - Klassischere KI-Tools: DALL-E, Midjourney, Stable Diffusion – Überblick - Sinnvolle Anwendungsfälle für blinde Menschen (z.B. Social Media) - Alt-Text für KI-generierte Bilder
Praxis
• Song erzeugen (Suno)
• Stimme klonen (ElevenLabs – wer mag)
• Audio nachbearbeiten (Auphonic)
Takeaway
Kreative KI-Tools kennen und einsetzen können. Spaß gehabt.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 08.04.2026, 17:40

Willkommen zum Workshop "KI verstehen und clever nutzen"
Ich bin Ben und werde den Workshop leiten.
Heute, am 08.04.2026, starten wir mit dem Workshop.
Wie in Robbie's Beitrag beschrieben, besteht der Workshop aus fünf Modulen.
Da sehr viele Teilnehmer angemeldet sind, wird der Austausch hauptsächlich im Forum bzw. im Chat in der Zoom-Konferenz stattfinden.

Für alle Teilnehmenden und alle, die sonst noch mitlesen: Der Thread hier im Forum wird eine Sammlung aller Handouts inkl. Diskussion unf Fragen sein.
Er dient also als zentrale Anlaufstelle für alle Infos, Fragen und Kommentare.
Ich werde zu jedem der Module einen ausführlichen Post veröffentlichen.
Die Posts erkennt ihr an der Überschrift "Modul 1, Modul 2", etc.

Eine Bitte: Nutzt am besten den Chat in der Zoom-Konferenz (während des Workshops) und das Forum nachher für Fragen. Wir werden aufgrund der hohen Teilnehmerzahl währnd der Konferenz vielleicht nicht auf alle Fragen eingehen können.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 08.04.2026, 17:54

Modul 1 – Was ist KI? Grundlagen & Überblick

Willkommen zum ersten Modul unseres KI-Workshops! Bevor wir in den nächsten Wochen richtig einsteigen, klären wir erstmal die Basics: Was ist KI eigentlich, wie funktioniert sie?
Was kann sie wirklich? Und was nicht?

Was ist Künstliche Intelligenz?

Künstliche Intelligenz (KI) ist ein Überbegriff für Software, die Aufgaben erledigt, für die man normalerweise menschliches Denken braucht: Sprache verstehen, Bilder erkennen, Texte schreiben, Entscheidungen treffen.

Wichtig: KI "denkt" nicht wie wir. Sie erkennt Muster in riesigen Datenmengen und wendet diese Muster an.

Das Ganze passiert oft anhand von Wahrscheinlichkeiten bzw. Vorhersagen.

Damit das funktioniert, braucht man zwei Dinge: große Mengen an Daten und leistungsstarke Rechner, auf denen die KI trainiert wird. Diesen Vorgang nennt man Training: Die KI bekommt Beispiele gezeigt und lernt daraus selbstständig Muster zu erkennen.

Ein anschauliches Beispiel: Man zeigt der KI tausende Bilder von Hunden – aus verschiedenen Blickwinkeln, bei unterschiedlichem Licht, mit Schatten. Irgendwann erkennt sie auf jedem neuen Bild zuverlässig, ob ein Hund zu sehen ist. Dabei ist die Qualität der Daten entscheidend: Wenn man der KI nie Bilder von anderen Vierbeinern wie Katzen zeigt, hält sie am Ende womöglich auch eine Katze für einen Hund.

Ein paar Begriffe, die man einordnen sollte:

Machine Learning (ML): Die KI lernt selbst aus Daten, statt fest programmiert zu werden.
Deep Learning: Eine spezielle Form von ML mit vielen Schichten – sogenannten neuronalen Netzen. Die sind vom menschlichen Gehirn inspiriert: Viele kleine Einheiten (Neuronen) sind miteinander verbunden und verarbeiten Informationen in mehreren Schichten. Je mehr Schichten, desto komplexere Zusammenhänge kann das Netz lernen. Deep Learning ist besonders stark bei Bildern und Sprache.
Large Language Models (LLMs): Sprachmodelle wie ChatGPT oder Gemini. Sie wurden mit gigantischen Textmengen trainiert und können Texte verstehen und erzeugen.

Wie lernt eine KI?

Stark vereinfacht:

Man füttert die KI mit riesigen Datenmengen (Texte, Bilder, Audiodaten).
Die KI erkennt darin Muster und Zusammenhänge.
Nach dem Training kann sie dieses Wissen auf neue Eingaben anwenden.

Beispiel: Ein Sprachmodell hat Milliarden von Sätzen gelesen. Wenn du ihm eine Frage stellst, sagt es das wahrscheinlichste nächste Wort voraus. Das passiert immer und immer wieder. So entstehen ganze Antworten.

Klassische Anwendungsfälle

KI begegnet uns überall, auch wenn wir es nicht immer merken:

Bilderkennung: "Was sieht die Kamera?" – Objekte, Personen, Szenen erkennen. Genau das machen auch Apps wie Be My Eyes oder Seeing AI.
Spracherkennung: Sprache in Text umwandeln – z. B. Siri, Google Assistant oder jede andere Diktierfunktion.
Übersetzung: DeepL, Google Translate – alles KI-basiert.
Textgenerierung: ChatGPT, Gemini, Claude, Copilot – Chatbots, die auf Fragen antworten, Texte schreiben, zusammenfassen, übersetzen.

Übrigens: Viele KI-Anwendungen nutzen wir schon seit Jahren, ohne groß darüber nachzudenken:

Empfehlungssysteme: Wenn Amazon dir Produkte vorschlägt oder Netflix Serien empfiehlt – dahinter steckt KI, die dein Verhalten analysiert und vorhersagt, was dich interessieren könnte.
Textvervollständigung: Wenn dein Handy beim Tippen das nächste Wort vorschlägt, ist das ein kleines Sprachmodell, das Wahrscheinlichkeiten berechnet.
Wettervorhersagen: Auch hier kommt zunehmend KI zum Einsatz, um aus riesigen Datenmengen bessere Vorhersagen zu berechnen.

Der KI-Hype: Wie kam es zu Sprachmodellen?

KI-Forschung gibt es seit den 1950er-Jahren, aber lange war sie eher ein Nischenthema. Der große Durchbruch für die breite Öffentlichkeit kam Ende November 2022, als OpenAI ChatGPT veröffentlichte. Plötzlich konnte jeder mit einer KI chatten, die erstaunlich flüssig und hilfreich antwortete – und das kostenlos im Browser.

Innerhalb weniger Tage nutzten Millionen Menschen ChatGPT. Google zog mit Bard nach, das später dann zu Gemini nach, Anthropic brachte Claude heraus, und Meta veröffentlichte offene Modelle und die Meta AI, die wir auch auf den Ray-Ban Meta haben.
Seitdem entwickelt sich das Feld rasant weiter: Die Modelle werden besser, schneller und vielseitiger.
Wir sehen Live-Interaktion mit KI, KI-Agenten, die ganze Aufgaben ausführen etc. - alles basierend auf den Large Language Models.

Sprachmodelle: Wie funktioniert ChatGPT & Co.?

Wenn du ChatGPT etwas schreibst, passiert Folgendes:

Dein Text (der "Prompt") wird in Zahlen umgewandelt, die das Modell verarbeiten kann.
Das Modell berechnet, welche Antwort am wahrscheinlichsten passt.
Es gibt die Antwort Stück für Stück aus.

Kleiner aber wichtiger Hinweis: Das Modell arbeitet intern nicht mit ganzen Wörtern, sondern mit sogenannten Tokens. Ein Token kann ein Wort sein, aber auch nur ein Wortteil oder ein Satzzeichen. Das Wort "Barrierefreiheit" besteht z. B. aus mehreren Tokens. Deshalb ist "Token" nicht dasselbe wie "Wort" – ein Unterschied, der bei Preisen und Limits von KI-Diensten relevant wird.

KI und Kontext
Das Modell hat kein echtes Wissen und nativ keinen Internetzugang. Es arbeitet mit dem, was es im Training gelernt hat. Solche Modelle haben quasi das ganze Internet gelesen und sind auf einem bestimmten Stand eingefroren.
Beispiel: Die Frage "Wer ist der deutsche Bundeskanzler?" beantwortet ein reines Modell falsch, wenn es nicht aktuell ist, wenn also seine Trainingsdaten seit 2023 nicht mehr aktualisiert wurden.
2023 war Olaf Scholz Bundeskanzler, was damals im Internet (News-Artikel, offizielle Infos der Regierung, Blogs, Zeitungen) auftauchte. Das ist, was das Modell weiß.

Das gilt auch für Fragen nach dem aktuellen Datum, der Zeit oder dem Wetter.

Die Chatbots, die wir nutzen (ChatGPT, Gemini) haben daher die Internetsuche und andere Tools schon integriert: Sie wissen, wenn sie ein Tool nutzen müssen, suchen also z. B. im Internet, wenn du nach dem Wetter fragst.
Das nennt sich dann Kontext. Und es macht KI erst richtig nützlich.
Kontext kann übrigens auch eine Datei sein, wie ein PDF, PowerPoint, etc. das du im ChatGPT-Interface hochlädst oder irgendwie anders der KI zur Verfügung stellst.

Das ganze geht auch noch weiter: ChatGPT hat z. B. eine Kooperation mit Komoot, Gemini sucht automatisch bei Google Maps usw.

Erste Schritte: Was ist ein Prompt?

Ein Prompt ist einfach das, was du der KI schreibst oder sagst. Die Qualität deiner Eingabe bestimmt die Qualität der Antwort. Ein paar Grundregeln:

Sei klar: Was genau soll die KI tun? Was willst du erreichen?
Gib Kontext: Wofür brauchst du das Ergebnis?
Definiere das Ziel: Soll die Antwort kurz, ausführlich, in Stichpunkten, in Gedichtform sein? In welchem Stil?

Beispiel: Statt "Erkläre KI" besser: "Erkläre mir in 5 einfachen Sätzen, was Künstliche Intelligenz ist. Ich habe keine technischen Vorkenntnisse."

Wo sind die Grenzen?

Sprachmodelle wissen nur das, was in ihren Trainingsdaten steckt – und das Training hat irgendwann einen Stichtag. Danach passierte Dinge kennen sie nicht. Deshalb sind Fragen nach dem aktuellen Wetter, der Uhrzeit, dem heutigen Datum oder aktuellen Nachrichten für ein reines Sprachmodell eine echte Herausforderung bis unmöglich.

Genau deshalb können moderne KI-Assistenten wie ChatGPT oder Gemini inzwischen Tools nutzen: Sie erkennen, dass sie für bestimmte Aufgaben Hilfe brauchen, und greifen dann z. B. auf eine Suchmaschine, einen Taschenrechner oder eine Wetter-API zu. Die KI weiß also: "Das kann ich nicht allein – ich brauche ein Werkzeug dafür."

Dieses Prinzip macht auch Dienste wie Perplexity so beliebt: Perplexity kombiniert ein Sprachmodell mit einer Live-Internetsuche und gibt Antworten mit Quellenangaben. So bekommt man aktuelle Informationen, ohne selbst verschiedene Websites durchforsten zu müssen.

Chancen und Risiken

Chancen:

Mehr Effizienz und Produktivität im Alltag
Neue Möglichkeiten der Barrierefreiheit (Bildbeschreibung, Sprachsteuerung, Live-Erkennung, Umwandlung von Texten in leichte Sprache, Videobeschreibung, automatische Untertitelung für Gehörlose)
Zugang zu Informationen, die vorher schwer erreichbar waren
KI hilft Menschen, ihre Ideen umzusetzen: Ob Musik generieren, Texte schreiben oder mit KI Software entwickeln – der Mensch gibt die Idee möglichst präzise vor, die KI ist gut darin, sie wirklich umzusetzen. Das spart oft so viel Zeit, dass Projekte überhaupt erst möglich werden.

Risiken:

Halluzinationen: KI erfindet manchmal Dinge, die sich plausibel anhören, aber falsch sind. Immer kritisch prüfen!
Voreingenommenheit (Bias): KI spiegelt die Daten wider, mit denen sie trainiert wurde – inklusive Fehlern und Vorurteilen. Das können Vorurteile sein, die sowieso in der Gesellschaft existieren, aber auch solche, die aus dem politischen System stammen, in dem das Modell entstanden ist. Ein Beispiel: Das chinesische Sprachmodell DeepSeek weicht bei politisch sensiblen Themen wie Taiwan oder dem Tiananmen-Platz erkennbar aus oder gibt die offizielle Linie der chinesischen Regierung wieder.
Datenschutz: Was du in einen Chatbot eingibst, kann gespeichert und verarbeitet werden. Dazu mehr in Modul 3.
Umwelt: Das Training und der Betrieb von KI-Modellen verbrauchen enorme Mengen an Energie und Wasser. KI ist aktuell nicht ressourcenschonend.
Soziale Folgen: Mit KI lassen sich sogenannte Deepfakes erzeugen – täuschend echte, aber gefälschte Bilder, Videos oder Audiodateien von realen Personen. Darauf kommen wir später noch genauer zu sprechen. Außerdem besteht die Gefahr, dass Menschen eine emotionale Bindung zu KI-Chatbots aufbauen und sie als "Freund" oder Vertrauensperson sehen – obwohl hinter den Antworten kein echtes Verständnis oder Mitgefühl steckt.

Zum Ausprobieren bis nächste Woche

Für Anfänger

Öffne ChatGPT (https://chat.openai.com) oder Google Gemini (https://gemini.google.com) und stelle eine Frage.
Probiere verschiedene Formulierungen für die gleiche Frage aus. Merkst du Unterschiede in den Antworten?
Bring die KI dazu, dir die Antwort in verschiedenen Stilen auszugeben: Als Fließtext, in Stichpunkten, in einfacher Sprache.
Lass dir etwas erklären, das du schon gut kennst – und prüfe, ob die KI Fehler macht.

Für Fortgeschrittene / Profis:

Probiere verschiedene Chatbots aus: ChatGPT, Gemini, Claude, Mistral und schau, welcher sich für dich am besten bedienen lässt.
Probiere Tools wie Internetsuche aus.
Probiere spezielle KI-Suchmaschinen aus: Perplexity oder Google KI-Suche
Alternativtexte generieren:
- Ich habe in ChatGPT einen Alternativtext Generator gebaut: https://t1p.de/alttext
- Lade ein Bild hoch und sende es ohne weitere Eingabe an ChatGPT.
- Du erhältst eine lange und eine kurze Beschreibung.
- Jetzt öffne ein neues Fenster in ChatGPT: https://chatgpt.com
- Lade exakt dasselbe Bild hoch.
- Jetzt bring ChatGPT durch deine Eingabe (Prompting) dazu, dass sich die Beschreibung des Bildes mit der aus dem Alternativtext Generator möglichst ähnlich ist: Aufbau, Stil, Ausführlichkeit der Beschreibung.

Das sind nur Vorschläge. Und natürlich nutzt keiner alle diese Tools. Wir haben alle unsere Favoriten, die wir immer wieder nutzen. Nehmt euch einfach ein paar der Punkte heraus und testet.

Austausch gerne hier im Thread – was hat euch überrascht, was hat gut funktioniert, was nicht?

Hawkeye · Beitrag von **Hawkeye** » 11.04.2026, 15:49

Hallo Zusammen,

vielen Dank Benjamin für deinen super Vortrag.

Ich möchte ein paar Dinge ergänzen, damit die Diskussion im Forum hoffentlich bald Fahrt aufnimmt.

Zunächst zum Thema, was KI eigentlich ist:

Es gibt unterschiedliche Definitionen und die Bundesregierung vertritt in Ihrer „KI Strategie“ folgende Position. Dort heißt es:

[…]Sehr abstrakt ordnen sich KI-Forscher zwei Richtungen zu: der „schwachen“ und der „starken“ KI. Die „starke“ KI formuliert, dass KI-Systeme die gleichen intellektuellen Fertigkeiten wie der Mensch haben oder ihn darin sogar übertreffen können. Die „schwache“ KI ist fokussiert auf die Lösung konkreter Anwendungsprobleme auf Basis der Methoden aus der Mathematik und Informatik, wobei die entwickelten Systeme zur Selbstoptimierung fähig sind. Dazu werden auch Aspekte menschlicher Intelligenz nachgebildet und formal beschrieben bzw. Systeme zur Simulation und Unterstützung menschlichen Denkens konstruiert.

Die Bundesregierung orientiert sich bei ihrer Strategie an der Nutzung der KI für die Lösung von Anwendungsproblemen und damit an den Positionen der „schwachen“ KI“.

]

Mit „Aspekte menschlicher Intelligenz nachgebildet“ sind u.a. Neuronale Netze gemeint, die Benjamin angesprochen hat. Die Unterscheidung in „schwache KI“ und „starke KI“ macht noch einmal den Unterschied im Denken deutlich. Aktuell haben wir es mit „schwacher KI“ zu tun.

Ferner möchte ich mich zum Thema Risiken von KI äußern. Was mir fehlt unter der Aufzählung der Risiken ist die Auswirkung von KI auf die Arbeitswelt. Wenn die KI zukünftig Jobs übernimmt, die bislang von Menschen übernommen wurden, dann hat das auch soziale Folgen. Telefonisten, Call Center Agents, Jobs, die in der Vergangenheit oft von Blinden und Sehbehinderten Menschen ausgeübt wurden, stehen zur Disposition. Vor kurzen hat Matt Shumer, ein amerikanischer Unternehmer eine Kontroverse ausgelöst. (vgl : https://www.tagesschau.de/wirtschaft/te ... t-100.html).

Die Zeit wird zeigen, ob Matt Shumer mit seiner düsteren Prognose recht hat oder nicht.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 12.04.2026, 21:48

Super Ergänzungen zu dem, was ich gesagt habe!

Man könnte es auch so formulieren: Bei den besten, aktuellen KI-Systemen handelt es sich um "sehr starke, schwache KI". Was ich damit meine: Mathematisch gesehen sind wir hier immer noch bei schwacher KI. Starke KI existiert bis dato nicht.
Sie denkt nicht wie wir. Das menschliche Denken wird maximal nachgebildet, z. B. mit neuronalen Netzen.
Sehr stark ist sie deshalb, weil diese KI schon jetzt ein mächtiges Werkzeug ist.
Wir können damit viele Probleme lösen bzw. sie kann uns beid er Lösung dieser Probleme massiv unterstützen.
Deshalb auch die Gefahr der Übernahme von Jobs: Danke für die Ergänzung auch dazu.

Hawkeye · Beitrag von **Hawkeye** » 12.04.2026, 23:07

Hallo Benjamin,

vielen Dank für deine Antwort.

vielleicht noch eine kleine historische Ergänzung:

Vor 30 Jahren kam es zu einen Denkwürdigen Schachduell zwischen Garri Kasparov, dem damaligen Schachweltmeister und dem Computer Deep Blue. Der eine oder andere wird sich noch daran erinnern. Hier ein „Kalenderblatt zum legendären Duell- Mensch gegen Maschine.

Das Duell Mensch gegen Maschine hat seit jeher fasziniert und wurde in zahlreichen Science-Fiction Romanen und Filmen thematisiert. Das Roboter die Weltherrschaft an sich reißen, davon sind wir noch ein Stück entfernt. Trotzdem , wie das Beispiel Schach zeigt, kann die KI dem Menschen überlegen sein. Damals im Jahr 1996 war die KI noch nicht so ausgetüftelt wie heute. Der Computer arbeitete nicht mit neuronalen Netzen. Das kam im Schach mit Alpha Zero. Möglicherweise muss die KI nicht „stark“ werden. Eventuell reicht schon eine schwache KI damit wir uns als Menschheit selbst ausrotten.

Der Streit zwischen dem Pentagon und der Firma Anthropic(https://www.tagesschau.de/wirtschaft/di ... t-100.html) wirft jedenfalls ethische Fragen auf und kann einen schon Angst machen.

Divertimento · Beitrag von **Divertimento** » 13.04.2026, 17:10

Bin neu hier und schreibe sicher an falscher Stelle. Leider finde ich aber bis jetzt nirgends ein Stichwort "Neuer Beitrag" Meine Frage: Wenn ich chat gpt eine Frage stellen soll, wird mir nirgends ein Eingabefeld angezeigt, wo ich meien Frage reinschreiben kann - nur Diktierfunktion, die ich nicht nutzen will. Arbeite unter Windows 11 und Jaws am PC.

Beitrag von **Robbie Sandberg Site Admin** » 14.04.2026, 09:08

Hier könnt ihr den Vortrag des ersten Teils unserer Seminarreihe im offSight Podcast hören.
Podcast-Episode KI verstehen und clever nutzen: Wie funktioniert KI, wie prompte ich richtig, Wo hilft KI im Alltag

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 14.04.2026, 21:48

Hallo Divertimento,
du schreibst hier zu 100% richtig. Es gibt keine n Link "neuer Beitrag". Es handelt sich hier einfach um einen Diskussionsfaden, der fortgesetzt wird.

Zu deiner Frage bzgl. ChatGPT:
Wenn du im Browser (Chrome, Firefox, Edge) die Seite www.chatgpt.com aufrust, und dort auch die Diktierfunktion siehst, sollte es auch ein Eingabefeld geben.
Probier mit JAWS folgendes:
- Navigiere an den Anfang der Seite (STRG+Seitenanfang)
- Drücke ein E für "Eingabefeld"
- Der Cursor sollte nun im Eingabefeld sein. Der Text "Mit ChatGPT chatten - Stelle irgendeine Frage" sollte von JAWS angesagt werden.
- Tipp: Mit STRG+Eingabe kannst du den eingegebenen Text direkt abschicken.

Divertimento hat geschrieben: ↑
13.04.2026, 17:10
Bin neu hier und schreibe sicher an falscher Stelle. Leider finde ich aber bis jetzt nirgends ein Stichwort "Neuer Beitrag" Meine Frage: Wenn ich chat gpt eine Frage stellen soll, wird mir nirgends ein Eingabefeld angezeigt, wo ich meien Frage reinschreiben kann - nur Diktierfunktion, die ich nicht nutzen will. Arbeite unter Windows 11 und Jaws am PC.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 15.04.2026, 17:41

Modul 2 – KI barrierefrei: Anwendungen für blinde und sehbehinderte Menschen

Willkommen zu Modul 2.
In diesem Modul schauen wir uns konkrete KI-Werkzeuge an, die uns im Alltag helfen. Von Bildbeschreibung über Dokumentenerkennung bis hin zu Brillen, die die Umgebung in Echtzeit beschreiben. Was gibt es, was taugt und was passt zu wem?

KI hilft bei der Barrierefreiheit

KI hilft nicht nur uns als Blinde oder Sehbehinderte.
Wir schauen uns kurz an, wo sie ganz allgemein zum Einsatz kommt, um die Zugänglichkeit zu verbessern:

Leichte bzw. einfache Sprache: KI-Anwendungen wie ChatGPT können Texte umwandeln.
Transkription: hilfreich für alle, besonders hilfreich für Menschen mit Hörbehinderung.
Objekterkennung: hilfreich für uns. Wir hatten das Beispiel im letzten Modul.
Sprachausgaben: die allermeisten Stimmen heute sind per KI erzeugt.
Gebärdensprache: Googles Signgemma (eher eine Nische und nur amerikanische Gebärdensprache, aber im Kommen).
und viele mehr.

Sprachausgaben

Ein schönes Beispiel, wie KI trainiert wird und zum Einsatz kommt, sind Sprachausgaben.
Um eine Stimme zu trainieren, werden Daten gesammelt: Ein Sprecher spricht hunderte, besser tausende Sätze ein. Die Sätze werden einzeln als Audiodatei (WAV) gespeichert. Eine Textdatei gibt an, welche Datei welchen Satz enthält:

"audio1 | Heute ist Mittwoch;
audio2 | Wie funktioniert KI?"

Die Audio-Dateien und die Textdatei übergeben wir an ein System, das daraus ein KI-Modell trainiert. Die nötige Rechenleistung "leihen" wir uns von Computern im Internet. Fertig ist unsere Stimme.

KI-Anwendungen für unseren Alltag

Be My Eyes / Be My AI

Be My Eyes kennen viele als App, über die man freiwillige Helfer per Videoanruf erreicht. Seit 2023 gibt es dazu Be My AI: eine KI-Bildbeschreibung, die Fotos detailliert und oft erstaunlich gut beschreibt.

Foto machen, KI beschreibt das Bild in natürlicher Sprache.
Funktioniert ohne menschlichen Helfer, rund um die Uhr.
Besonders gut bei: Szenen beschreiben, Produkte erkennen, beschreiben was um einen herum passiert.
Grenzen: Manchmal zu ausführlich, manchmal interpretiert die KI etwas falsch, manchmal wird Text "halluziniert". Kritisch bleiben.
Folge-Fragen stellen: Es gibt einen Schalter "Weitere Fragen", nachdem man ein Foto mit Be My Eyes gemacht hat. Hier kann man eine Frage stellen oder eine Anweisung für die KI eintippen oder per Siri diktieren.

Seeing AI, Envision & Google Lookout

Es gibt mehrere Apps, die KI für verschiedene Aufgaben nutzen:

Seeing AI (Microsoft): Kostenfrei, viele Funktionen (Texterkennung, Szenen, Personen, Farben, Licht). Auf iOS und Android verfügbar.
Envision: Umfangreich, kann Texte, Szenen und Dokumente erkennen. Gibt es als App und als smarte Brille (Envision Glasses). iOS und Android.
Google Lookout: Android-basiert. Texterkennung, Objekterkennung, Szenen. Starke Objekterkennung, fast in Echtzeit.

Alle diese Apps nutzen KI. Der Unterschied liegt in der Bedienbarkeit, den Funktionen und der Qualität der Beschreibungen. Tipp: Einfach das gleiche Foto mit verschiedenen Apps beschreiben lassen und vergleichen.

KI in Screenreadern

KI kommt inzwischen auch direkt in Screenreader:

NVDA: NVDA ist ein großartiger Screenreader. Über Add-ons wie "AI Content Describer" oder "Vision Assistant Pro" können Bildbeschreibungen und mehr direkt per Tastendruck ausgelöst werden – mitten in der normalen Arbeit am PC. Es ist meist ein API-Schlüssel zur Nutzung der KI nötig. Die Einrichtung ist daher etwas komplizierter, jedoch auch für alle Nutzer machbar. Eine ausführliche Beschreibung und Podcast zu einer dieser Erweiterungen findet man im Beitrag "NVDA nachhaltig" im offSight-Forum.
JAWS: Hat inzwischen eine eingebaute KI-Bildbeschreibung (Sprechendes Bild), eine Positionserkennung des Gesichts in der Videokamera, einen KI-Grafikbezeichner und man kann per KI Seiten zusammenfassen lassen (Schneller Überblick). Tastenkürzel: JAWS+G, JAWS+Leertaste, P und dann eine jeweilige Taste (Hilfe mit H).
VoiceOver (Apple): KI wird hier für viele Funktionen genutzt (Bilder beschreiben, Lupe, Objekterkennung, Texterkennung), Grafikbezeichner, Texte in unzugänglichen Apps lesen, Bildschirmerkennung.
TalkBack (Android): Google hat eine Bildbeschreibungsfunktion für das aktuelle Element und den gesamten Bildschirm integriert, man kann auch Fragen stellen.
SuperNova (Windows): Auch hier wird KI zur Beschreibung und für kontextbezogene Hilfe genutzt.

Das Spannende: Man muss die App nicht mehr extra öffnen – die KI ist dort, wo man gerade arbeitet.

Nahe Zukunft: KI, die mit der Maus klickt
Besonders gut für unbedienbare Apps und Webseiten

Wie wir wissen, kann KI Bilder analysieren.
Das klappt besonders gut mit Screenshots.
Ein Schritt weiter: KI bekommt eine Aufgabe, analysiert Screenshots, klickt mit der Maus oder bedient die Tastatur.
Beispiel: "Wähle die Option aus, klicke auf Weiter und beschreib mir den nächsten Bildschirm".
Die Windows-App "Guide" setzt das schon um.
Claude Desktop kommt bzw. ist auf dem Mac schon verfügbar.

Dokumentenerkennung: OCR vs. KI

Klassische OCR (Optical Character Recognition) erkennt gedruckten Text zeilenweise. Das funktioniert bei sauberen Dokumenten gut, scheitert aber oft bei:

Handschrift
Schlechter Bildqualität
Komplexen Layouts (Tabellen, Formulare)
Hochglanzpapier wie Flyern
Mehrspaltigem Text (Zeitschriften, Zeitungen)

KI-basierte Erkennung geht weiter: Sie versteht den Kontext, kann Handschrift entziffern, Beschriftungen auf Verpackungen lesen und den Inhalt zusammenfassen. Apps wie Be My AI oder Envision nutzen genau das.

Die Gefahr sind Halluzinationen. Während klassische OCR einfach Fehler gemacht hat (Buchstabensalat), neigt KI dazu, Fehlendes zu ergänzen. Wir erinnern uns: KI gibt die wahrscheinlichste Antwort.
Das lässt sich reduzieren: Wir weisen die KI an, Unlesbares zu überspringen oder einen Hinweis zu geben. Und wir mischen klassische OCR-Erkennung mit KI.

KI in Spezialhilfsmitteln für Blinde

Es gibt viele Hilfsmittel, die KI nutzen:

Stellar Trek von HumanWare: Erkennung von Türen, Ampeln, Überwegen, Text.
Vorlesesysteme: Bildbeschreibung, Antworten auf Fragen zum gescannten Text.
Brillen für Sehbehinderte (BIEL Glasses): nutzen spezielle KI-Modelle, die das Bild an die jeweilige Sehschwäche anpassen.
OrCam MyEye: Kleine Brillenkamera. Erkennt Texte, Farben, Geldscheine, Gesichter und enthält in der aktuellsten Version eine KI-Beschreibung (online).
Envision Glasses: Basiert auf der Google Glass. Erkennt Texte, Farben, Szenen, Geldscheine und Objekte. Hinweis: Das Produkt läuft aus, da Google Glass 2 nicht mehr produziert wird.

Mainstream-KI als Hilfsmittel

Die großen Chatbots (ChatGPT, Gemini, Copilot) haben inzwischen Live-Erkennung:

Handy-Kamera öffnen, Chatbot schauen lassen, Fragen stellen.
ChatGPT und Gemini haben einen Voice Mode: Man kann direkt sprechen und die KI beschreibt, was die Kamera sieht.
Vorteil: Echtzeit-Bildbeschreibung im Gespräch.
Nachteil: Keine richtige, proaktive Live-Interaktion. Sie antworten nur auf konkrete Fragen.
Was (noch) nicht geht: "Sag mir Bescheid, wenn du eine Bank siehst".

Die Ray-Ban Meta Brille

Meta hat eine smarte Brille in Kooperation mit Ray-Ban veröffentlicht.
Wir nutzen sie für die Umgebung: "Hey Meta, lies das Schild" - "Hey Meta, beschreib mir den Kalender an der Wand".
Achtung: Auf Datenschutz achten, besonders bei sensibler Post!

Echte Live-Erkennung - oOrion, ScribeMe

Es gibt Apps, die eine reaktive Beschreibung simulieren:

oOrion: "Sag mir, wenn du den Eingang zum Laden siehst". Man gibt eine Aufgabe und die KI "sucht" danach.
ScribeMe: KI beschreibt allgemein, was sie sieht, und man kann sie im Dialog steuern. Ermöglicht auch (fast) Live-Audiodeskription für Videos durch Bildschirmfreigabe.

Zum Ausprobieren bis nächste Woche

Mach ein Foto und beschreibe es mit mindestens 2 verschiedenen Apps.
Übe die Kameraposition: Wie hältst du eine Dose am besten? Frage die KI (Gemini Live/ScribeMe) nach Feedback zur Bildqualität.
Vergleiche ChatGPT/Gemini Live mit Be My AI oder Lookout.
Probiere oOrion oder ScribeMe im Live-Modus.
Teile hier im Thread: Welches Tool hat dich am meisten überzeugt? Welches hat versagt?

Was sind eure Lieblingstools? Habt ihr Erfahrungen, die ihr teilen wollt? Rein damit in den Thread!

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 16.04.2026, 21:32

Hier findet ihr alle Apps, Dienste, Screenreader-Erweiterungen und weiterführenden Links aus Modul 2.

KI-Apps zur Bildbeschreibung und Szenenerkennung

Be My Eyes / Be My AI – Bildbeschreibung per KI, rund um die Uhr, ohne menschlichen Helfer. Auch mit freiwilligen Helfern per Videoanruf. iOS und Android, kostenlos.
iOS: https://apps.apple.com/app/be-my-eyes/id905177575
Android: https://play.google.com/store/apps/deta ... s.bemyeyes
Seeing AI (Microsoft) – Texterkennung, Szenen, Personen, Farben, Licht. iOS und Android, kostenlos.
iOS: https://apps.apple.com/app/seeing-ai/id999062298
Android: https://play.google.com/store/apps/deta ... t.seeingai
Envision – Texte, Szenen, Dokumente erkennen. Als App und als smarte Brille. iOS und Android.
https://www.letsenvision.com/
Google Lookout – Texterkennung, Objekterkennung, Szenen in Echtzeit. Nur Android.
https://play.google.com/store/apps/deta ... ity.reveal

Live-Erkennung und Echtzeit-Beschreibung

oOrion – Stell eine Frage und lass sie dir kontinuierlich beantworten. Objekte finden, Texte lesen, Umgebung beschreiben. Auch auf der Ray-Ban Meta Brille (Testphase). iOS.
https://www.oorion.fr/
ScribeMe – Live-Erkennung, Dokumentenerkennung, Bildschirm teilen für (fast) Live-Audiodeskription. iOS und Android.
iOS: https://apps.apple.com/us/app/scribeme/id6739640292
Android: https://play.google.com/store/apps/deta ... y.subcribe

KI in Screenreadern

NVDA – Kostenloser Open-Source-Screenreader für Windows. Über Add-ons erweiterbar.
https://www.nvaccess.org/download
AI Content Describer (NVDA-Add-on) – KI-Bildbeschreibung per Tastendruck direkt im Screenreader.
https://addonstore.nvaccess.org/
Vision Assistant Pro (NVDA-Add-on) – KI-Assistent für NVDA mit Bildbeschreibung, Übersetzung, Diktat und Dokumentenanalyse. Kostenlos, benötigt eigenen API-Schlüssel.
https://github.com/mahmoodhozhabri/VisionAssistantPro
JAWS (Freedom Scientific) – eingebaute KI-Bildbeschreibung mit der Funktion "sprechendes Bild KI" (JAWS+Leertaste,. P, Enter), Grafikbezeichner und Seitenzusammenfassung. https://fscompanion.ai - hier ist es möglich, Fragen zu Tastenkürzeln, Funktionen etc. zu stellen

Chatbots mit Kamera und Live-Erkennung

ChatGPT (OpenAI) – Chatbot mit Kamera-Funktion und Voice Mode für Live-Beschreibung.
https://chatgpt.com/
Google Gemini – Chatbot mit Kamera und Gemini Live für Gespräche über das, was die Kamera sieht.
https://gemini.google.com/
Microsoft Copilot – KI-Assistent mit Kamera-Funktion.
https://copilot.microsoft.com/

KI-Brillen und Spezialhilfsmittel

Ray-Ban Meta Brille – Smarte Brille von Meta. Umgebung beschreiben, Texte lesen, Fragen stellen per Sprachbefehl.
https://www.meta.com/smart-glasses/
Envision Glasses – Brille auf Basis der Google Glass. Texte, Farben, Szenen, Geldscheine, KI-Sprachassistent. (Produkt läuft aus.)
https://www.letsenvision.com/glasses
OrCam MyEye – Kleine Brillenkamera. Erkennt Texte, Farben, Geldscheine, Produkte, Gesichter. Neüste Version mit KI-Beschreibung.
https://www.orcam.de/
BIEL Glasses – Brille für Sehbehinderte mit KI-Modellen, die das Bild an die jeweilige Sehschwäche anpassen.
https://bielglasses.com/
Stellar Trek (HumanWare) – KI-gestütztes GPS- und Vorlesegerät. Erkennung von Türen, Ampeln, überwegen, Text.
https://deutscherhilfsmittelvertrieb.de ... tellartrek
BlindShell Classic 3 – Barrierefreies Tastenhandy mit KI-Assistentin Luna und Bildbeschreibung (Observo).
https://www.blindshell.de/eshop/blindshell-classic-3

Computersteürung durch KI

Guide – Windows-App: KI analysiert Screenshots und klickt mit der Maus. Macht unbedienbare Apps zugänglich. Achtung: nur englischsprachig und kostenpflichtig!
https://www.guideinteraction.com/

Podcasts und Artikel zum Vertiefen

NVDA nachhaltig – Podcast zu NVDA-Erweiterungen und KI-Bildbeschreibung (deutsch)
Beitrag und Podcast-Folgen im offSight-Forum:
viewtopic.php?f=13&p=555
Ausführliche Podcast-Folge zum Thema NVDA und KI-Add-ons "Vision Assistant Pro":
https://nvda-hawaii.podigee.io/1-ki-assistent-pro
SightViews – BlindShell Classic 3: Wie viel Smartphone steckt im Tastenhandy? (deutsch)
https://www.sightviews.de/321-blindshelltest
SightViews – Stellar Trek von HumanWare (deutsch)
https://www.sightviews.de/239-neü-episode
Double Tap – Oorion: Locate Things More Easily (englisch – Hinweis: englischsprachiger Podcast)
https://doubletaponair.com/oorion-locat ... re-easily/
Double Tap – oOrion und ScribeMe: Praxiserfahrungen mit Smart Glasses (englisch – Hinweis: englischsprachiger Podcast)
https://doubletaponair.com/oorion-and-s ... d-users-2/
Artikel: TTS mit eigener Stimme – Piper-Stimme trainieren (deutsch)
Ausführliche Anleitung, wie man mit dem Open-Source-System Piper eine eigene KI-Stimme trainiert: Sätze einsprechen, Audiodateien und Textdatei vorbereiten, Modell trainieren.
https://blog.meister-security.de/tts-mi ... er-stimme/

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 17.04.2026, 08:15

Am Mittwoch hat jemand im Chat nach Tastenkürzel für die JAWS KI gefragt. Während Robbie schon recherchiert hat, wie man die Gesichtspositionierung für Video-Meetings aufruft, reiche ich hier nochmal einige interessante Kürzel nach.
Wie schon erwähnt: Ihr könnt mit dem FSCompanion chatten und ihm einfach Fragen nach Tastenkürzel und der Funktionsweise von JAWS stellen: https://fscompanion.ai

Tastenkürzel:
Gesicht im Blick (für Video-Meetings):

JAWS+Leertaste, F, O: Schaltet Gesicht im Blick ein und aus. Muss vor dem Meeting passieren, da die Funktion die Kamera benötigt.
JAWS+Leertaste, F, D: Gibt eine detailierte Beschreibung.
JAWS+Leertaste, F, L: Helligkeitsstufe abfragen.
JAWS+Leertaste, F, P: Hintergrund beschreiben lassen.

Sprechendes Bild KI (picturesmart) - Beschreibungen abrufen:

JAWS+G: Grafikbezeichner. Beschriftet die aktuelle Grafik im Internet, wenn sie nicht beschriftet ist.
JAWS+Leertaste, P, EINGABE: Beschreibt das aktuelle Element im Kontext, z. B. in Powerpoint die aktuelle Folie, im Explorer die aktuelle Datei, im Internet das aktuell ausgewählte Element usw.
JAWS+Leertaste, P, F: Beschreibt die aktuell im Windows Explorer gewählte Bilddatei.
JAWS+Leertaste, P, C: Beschreibt das aktuell ausgewählte Steuerelement (z. B. ein Bild in Word oder auf einer Webseite).
JAWS+Leertaste, P, S: Beschreibt den gesamten Bildschirm.
JAWS+Leertaste, P, W: Beschreibt das aktuelle Anwendungsfenster, das gerade geöffnet ist.
JAWS+Leertaste, P, A: Öffnet das Dialogfenster, um ein Bild von Scanner oder Kamera aufzunehmen und zu beschreiben.

carina · Beitrag von **carina** » 17.04.2026, 18:27

Hallo zusammen,

danke Ben für die ausführlichen Infos, die du hier für uns zusammenstellst.
Ich möchte noch ergänzen, dass es Be My Eyes auch für Windows gibt. Hier könnt ihr euch euren Bildschirm oder Dokumente beschreiben lassen. Das ist zum Beispiel hilfreich für gescannte PDFs oder nicht barrierefreie Inhalte auf Webseiten. Ihr könnt auch ein Foto mit eurer Webcam machen und es beschreiben lassen, um zum Beispiel herauszufinden, was andere bei einem Videocall von euch und eurer Umgebung sehen. Mehr Infos und den Download der App findet ihr auf dieser Seite (leider auf Englisch):
https://www.bemyeyes.com/be-my-eyes-for ... zcwNDM2Nzg.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 21.04.2026, 08:18

Danke an Carina für den Hinweis auf Be My Eyes für Windows. Das ist eine großartige Alternative zu den genannten NVDA Add-ons und der eingebauten KI von JAWS unter Windows.

Aus der Praxis:
Eine Beschreibung eines geteilten Bildschirms in einem Video-Meeting sah bei mir zum Beispiel konkret wie unten zitiert aus. Genutzt habe ich das NVDA Add-on "AI content Describer" mit einer von mir selbst definierten Anweisung/Prompt. Ähnliche Ergebnissse sind mit JAWS KI und/oder Be My Eyesfür Windows denkbar, wobei man bei Beiden leider den Prompt nicht anpassen kann.

Hier nun das Praxisbeispiel aus meinem Arbeitsalltag (Namen von Personen und Details geändert):

Auf einem geteilten Bildschirm ist eine blaue Folie mit dem [Unternehmenslogo] und dem Text „Join at slido.com #2639 680“ zu sehen. Zusätzlich sind ein QR-Code und der Passcode „jtwikf“ eingeblendet. In vier kleinen Videofenstern der Teilnehmer sind Benjamin Hofer, [Person A(Name richtig)], [Person B(Name richtig)] sowie eine weitere Person zu erkennen.

Worum ging es?
Es handelte sich um ein Quiz zum gemeinsamen Durchspielen nach einer Einarbeitung in ein neues Produkt. Die Kollegen haben hier, wie aus der Beschreibung hervorgeht, Slido genutzt. Slido ist eine Platform, die für uns gut bedienbar ist, Fragen werden automatisch für alle eingeblendet und man kann per Formular antworten. Um dem Quiz beizutreten, nutzt man entweder einen QR Coe oder Zugangsdaten. Beides war auf dem geteilten Bildschirm sichtbar. Ein tastendruck genügte, um mir die Daten zu holen - sowohl der Zahlen-PIN als auch das Passwort waren 100% richtig. Das ging sogar schneller und einfacher, als jemanden zu bitten, das ganze in den Chat zu stellen oder mir per Privatnachricht zu senden.
Verblüffend ist für mich immer wieder, wie schnell die KI besser wird. Fehler bei Passwörtern oder Codes können passieren und waren vor einigen Monaten / Jahren auch echt nicht selten. Mittlerweile shabe ich schon mehrere Male die Erfahrung gemacht, dass es funktioniert - keine Garantier natürlich.
Und ganz, ganz wichtig: Bitte niemals persönliche Passwörter oder Zugangsdaten mit der KI teilen!!!

Hawkeye · Beitrag von **Hawkeye** » 25.04.2026, 14:21

Hallo Ben,

mich interessieren deine Erfahrungen mit „Scribe Me“ . Soweit ich weiß, ist diese App – im Gegensatz zu vielen anderen – kostenpflichtig. Daher bin ich neugierig wie du (und andere User auch) das Kosten/Nutzen Verhältnis bewerten. Einen kleinen „Testbericht“ gibt es auf der Seite der „Apfelschule“.

https://apfelschule.ch/tipps-und-tricks ... stuetzung/

Über mehr Testberichte würde ich mich sehr freuen!

Viele Grüße

Hawkeye

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 28.04.2026, 21:41

Hallo Hawkeye,
danke für die Frage und den Linka uf den Bericht von "Apfelschule".
Scribe Me ist eine innovative App, die allerdings noch ihre Fehler hat. Aktuell gibt es ein Abo-Modell und gleichzeitig kann die App auch bis zu einem gewissen Limit frei genutzt werden.
Der Erfahrungsbericht, den du verlinkst, deckt sich überwiegend mit meinen Erfahrungen.
Die Live-Erkennung ist verzögert. Das trifft allerdings auf jede aktuelle KI zu. Eine Live-KI ohne Verzögerung gibt es nicht. Ich habe den persönlichen Eindruck, dass die Verzögerung bei oOrion etwas weniger ist, sie ist allerdings auch hier deutlich spürbar.
Der Grund: Die KI verarbeitet immer noch eine Abfolge an Bildern, nicht ein Live-Video. Außerdem ist es abhängig von deiner jeweiligen Verbindung an deinem jeweiligen Ort, wie schnell diese Bilder gesendet werden und natürlich von dem dahinterliegenden KI-System. Beides ist maßgeblich.
oOrion macht auf mich persönlich den flüssigeren Eindruck und hat auch objektiv betrachtet aktuell weniger Fehler.
Scribe Me verfolgt einen etwas anderen Ansatz und hat Potenzial.
Scribe Me kann außer der Live-Erkennung auch noch Dokumente in barrierefreie Form umwandeln (PDF, PowerPoint). Hier macht es einen sehr ordentlichen Job wie ich finde. Bildbeschreibungen (also die Beschreibung der Grafiken innerhalb des Dokuments) sind allerdings meist auf Englisch.
Ein Abo ist hier aktuell, vor allem zu dem Preis, für die meisten nicht wirklich empfehlenswert.
Die App ist ja auch im kostenlosen Umfang nutzbar.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 29.04.2026, 17:41

Willkommen zu Modul 3!
Heute wird es praktisch und gleichzeitig wichtig: Wie bediene ich die großen Chatbots mit Screenreader? Und was passiert eigentlich mit meinen Daten?

Teil 1: Chatbots blind bedienen

Wir erinnern uns: Ein Chatbot ist die Anwendung im Internet, also vereinfacht gesagt die Webseite, auf der wir mit der KI reden.

Nicht jeder Chatbot ist gleich gut mit Screenreader bedienbar. Wir gehen die wichtigsten der Reihe nach durch und sehen, welcher wofür gut ist, wo die Daten landen, und wie sich die Oberfläche per Tastatur bedienen lässt.

Ein Hinweis vorweg: Die Smartphone-Apps der großen Anbieter sind alle mittel bis gut bedienbar – mit etwas Einschränkungen, vor allem für unerfahrene Nutzer. Für die tägliche schnelle Frage zwischendurch reichen sie meist gut aus. Sollte eine der Apps nicht gut gehen, greifen wir auch hier auf die Web-Oberfläche zurück.
Wichtiger Hinweis: Die Internetseiten und auch Apps der jeweiligen KI-Chatbots verändern sich stark. Was heute gilt, muss also in einigen Wochen oder Monaten nicht mehr richtig sein.

Im Folgenden beziehen sich die Bedien-Tipps auf die Web-Oberflächen.

ChatGPT (OpenAI)

ChatGPT von OpenAI ist der Alltags-Chatbot für Viele. Er ist stark personalisierbar, die Nutzerbasis ist sehr groß. Die Daten liegen in den USA. Empfehlung: Schaltet das Training mit euren Daten in den Einstellungen ab (als "Opt-out" bezeichnet). Ihr erreicht die Einstellung mit der Tastatur über STRG+Umschalt+I und dann im Reiter "Datenkontrollen".

Bedienbarkeit: gut.

Jede Nachricht im Chat ist eine Überschrift Ebene 4. Mit JAWS/NVDA kannst du also mit der Taste 4 durch das Gespräch springen.
STRG+Eingabe sendet den Chat – direkt aus dem Eingabefeld, ohne dass du zum Senden-Button navigieren musst.
Vor dem Senden mit Tab / Shift+Tab erreichbar: Dateien hochladen, Modell auswählen, Modus auswählen (z. B. Recherche, Bilder).

Gemini (Google)

Gemini ist der Alltags-Chatbot von Google und eng an das Google-Ökosystem angebunden. Gemini sucht also auch in Google Maps oder, wenn du es einrichtest, im Gmail (E-Mails von Google) und auch Dokumenten im Google-Ökosystem. Auch der Kalender lässt sich über Gemini steuern.

Bedienbarkeit: gut.

Jede Nachricht in der Konversation ist eine Überschrift Ebene 2. Mit 2 durch das Gespräch springen.
Eingabe sendet die Nachricht. Shift+Eingabe macht eine neue Zeile.

Claude (Anthropic)

Claude von Anthropic ist längst kein Geheimtipp mehr, sondern ein wirklich starker allgemeiner Chatbot. Er ist besonders beliebt bei Programmierern, Designern und Textern und auch allgemein super nutzbar. Er recherchiert gut, wenn man ihn dazu anweist, und inkludiert seine Quellen direkt im Text. Claude ist weniger "gesprächig" (weniger Blabla) als ChatGPT, mehr auf Effizienz ausgerichtet.

Bedienbarkeit: Die Weboberfläche ist gut bedienbar und klar strukturiert. Das gilt auch für die Smartphone-Apps. Der Sprachmodus (wo man live mit der KI sprechen kann) ist hier deutlich weniger ausgereift wie bei Gemini und ChatGPT und aktuell auch nur auf Englisch verfügbar.

Microsoft Copilot

Copilot ist von Microsoft und gut in Windows und Edge integriert. Die Bedienung variiert je nachdem, wo man Copilot nutzt (Browser, Windows-Taskleiste, Office-Apps).

Wichtige Tastenkürzel:

Windows-Taste + C öffnet die Copilot-App unter Windows. Auf neueren Tastaturen gibt es zusätzlich eine eigene Copilot-Taste rechts neben Alt Gr.
Alt + I öffnet Copilot in den Office-Apps (Word, Excel, PowerPoint, Outlook). Dasselbe Kürzel funktioniert überall.

Hinweis: Alle diese Chatbots sind kostenlos. Und alle haben eine kostenpflichtige Stufe an Bord, die mehr bietet: Bessere Modelle, mehr und ausführlichere Recherchen, längere Kontextfenster (das, was sich der Chatbot auf einmal merkt), mehr Dateien hochladen etc.

Teil 2: Datenschutz – wo gehen meine Daten hin?

Wenn du etwas in ChatGPT, Gemini, Claude oder Copilot eingibst, werden deine Eingaben auf Computern des Anbieters verarbeitet. Die Server sind meist in den USA. Das hat drei Konsequenzen:

Training: Eingaben werden bei den US-Anbietern oft zum Training der Modelle verwendet (lässt sich abschalten – Opt-out in den Einstellungen).
Behördenzugriff: US-Gesetze (Cloud Act, FISA) erlauben es der US-Regierung, jederzeit auf Daten von US-Unternehmen zuzugreifen, auch wenn die Server in Europa stehen.
Was sollte ich nicht eingeben? Niemals Passwörter, keine Gesundheitsdaten, keine vertraulichen Dokumente. Gib nichts Persönliches ein, ohne nachzudenken. Faustregel: Wenn es eine Katastrophe wäre, dass deine Eingabe öffentlich im Internet steht, gib sie nicht ein.

Es gibt zwei Lösungen: europäische Chatbots oder Offline-KI.

Europäische Alternative: Mistral Le Chat

Mistral ist ein französischer Chatbot, komplett europäisch, mit starken Modellen. Recherchiert auch im Web.

Bedienbarkeit: nicht so gut wie bei ChatGPT oder Gemini. Die Oberfläche hat keine sauberen Überschriftenstrukturen.

Tipp: Wenn keine Überschriften in der Antwort sind, weise den Bot einfach selbst dazu an:

"Starte ab jetzt jede Antwort mit der Überschrift Ebene 2 ‚Antwort‘ (also ## Antwort)."

Dann kannst du auch hier per Schnellnavigation durch die Antworten springen. Funktioniert dauerhaft in der Konversation.

Weitere Alternativen (USA als auch Europa)

Perplexity (USA) (https://perplexity.ai) – mehr eine KI-Suchmaschine als ein Chatbot. Zugriff auf verschiedene Modelle/Anbieter möglich. Bedienbarkeit gut, auch mit Überschriften, aber man muss mit Screenreader teilweise viel überspringen, um zur eigentlichen Antwort zu kommen. Könnte ein Manko für unerfahrene Nutzer sein.
Google KI-Suche – die KI-Antworten oben in der Google-Suche. Sehr gut und ohne Einschränkungen bedienbar.
Proton Lumo (https://lumo.proton.me) – Proton ist der Schweizer Anbieter, bekannt für starke Verschlüsselung. Europäische Alternative mit Fokus auf Datenschutz.
X.AI Grok – der Chatbot von Elon Musks Firma X.AI.
Meta AI – der Assistent in WhatsApp, Instagram und Facebook.
Ecosia KI-Suche (https://www.ecosia.org/ai-search) – deutsche Suchmaschine mit Fokus auf Umweltschutz und Datenschutz. KI-Suche schwächer als Google.

Beispiel-Aufgabe: alle Chatbots gegeneinander testen

Um Bedienbarkeit und Antwortstil der verschiedenen KI-Chatbots zu testen, probier einen Prompt deiner Wahl mit unterschiedlichen Chatbots aus. Am besten eignet sich für den Anfang ein Thema, mit dem du dich auskennst.
Hier ein Beispiel von mir:

"Gib mir für die Betriebssysteme Windows, Mac, Linux, iOS und Android alle gängigen Screenreader und gehe auf Verfügbarkeit, Preis, Stärken/Schwächen und Braille-Bedienung ein."

Du wirst schnell merken: Die einen antworten kurz und tabellarisch, die anderen weitschweifig, manche recherchieren live im Netz, andere antworten aus dem Gedächtnis. Und das können wir steuern. Wir steuern mit der Eingabe den Stil, ob die Antwort kurz und knapp, ausführlich, tabellarisch oder im Fließtext ist. Wir steuern, ob der Chatbot länger nachdenken, auf jeden Fall im Internet recherchieren soll. Wir können angeben, ob der Stil formell oder informell sein soll, ob wir eine kurze Übersicht oder ausführliche Erklärung aller Punkte haben wollen.

Teil 3: Offline-KI – die Daten bleiben zu Hause

Die zweite Lösung gegen das Datenschutzproblem: KI-Modelle komplett lokal auf dem eigenen Rechner laufen lassen. Kein Internet nötig, keine Daten verlassen das Gerät.

Ollama

Ollama (https://ollama.com/download) ist das Standard-Werkzeug dafür. Es ist eine kostenlose Anwendung für Windows, Mac und Linux. Damit lädst du dir Open-Source-Sprachmodelle direkt auf deinen Rechner und chattest dann mit ihnen. Kein Programmieren nötig, keine Konfiguration, keine zusätzliche Software.

Seit 2025 gibt es Ollama als richtige Desktop-App mit Chat-Oberfläche. Frühere Versionen waren reine Kommandozeilen-Tools. Heute reicht ein Klick auf das Modell in der App und schon kann man tippen.

Lokal oder Cloud? Beides möglich

Wichtig zu verstehen: In der Ollama-App gibt es zwei Arten von Modellen.

Lokale Modelle: Sie laufen direkt auf deinem Rechner. Du lädst sie einmal herunter (typisch zwischen 5 und 30 GB pro Modell) und kannst sie danach komplett ohne Internet nutzen.
Cloud-Modelle: Sie tragen den Zusatz -cloud im Namen (zum Beispiel gpt-oss:120b-cloud) und laufen auf den Servern von Ollama. Dafür musst du dich vorher mit einem Ollama-Konto anmelden. Ohne Anmeldung sind die Cloud-Modelle nicht verfügbar.

Wenn du die App ohne Anmeldung benutzt, läuft also alles lokal. Sobald du ein heruntergeladenes Modell aus der Liste auswählst, bist du offline-fähig. Internet kannst du danach abschalten und es funktioniert weiter.

Kleiner Hinweis am Rande: Wer ein lokales Modell fragt, was es selbst gerade tut, bekommt manchmal kreative Antworten. Lokale Modelle halluzinieren öfter als die großen Cloud-Chatbots, vor allem bei Fragen zu sich selbst oder zur Technik im Hintergrund. Was du wirklich brauchst, steht in der Ollama-Dokumentation, nicht in der Antwort des Modells.

Aktuelle Modelle (Stand 2026)

Zwei Modelle sind aktuell besonders interessant:

Gemma 4 (Google), Variante gemma4:26b: der starke Allrounder. Versteht Text und Bilder, antwortet sehr gut auf Deutsch. Größe rund 17 GB.
GPT-OSS (OpenAI), Variante gpt-oss:20b: OpenAI hat dieses Modell offen veröffentlicht. Es ist auf logisches Denken und Aufgaben mit mehreren Schritten ausgelegt. Größe rund 13 GB.

Was bedeuten 20B und 26B?

Das B steht für „Billion", englisch für Milliarde. Ein Modell mit 20B hat also 20 Milliarden Parameter. Parameter sind die Stellschrauben, an denen das Modell beim Training „gedreht" hat, um Sprache zu verstehen. Faustregel: mehr Parameter bedeutet mehr Wissen und bessere Antworten, aber auch mehr Speicher und mehr Rechenzeit. Zum Vergleich: ChatGPT in der Cloud arbeitet mit deutlich größeren Modellen, die niemand zu Hause laufen lassen könnte.

Bedienbarkeit mit Screenreader

Ollama lässt sich auf zwei Wegen nutzen:

Kommandozeile (Terminal): Komplett textbasiert, deshalb mit dem Screenreader sehr gut zu bedienen. Setzt aber Erfahrung mit der Kommandozeile voraus. Zumindest sollte man ganz einfache Texteingaben verstehen.
Ollama-App: Generell bedienbar, aber mit Einschränkungen. Manche Schalter sind nicht beschriftet, einige Bedienelemente verlangen etwas Anpassung. Für den Einstieg trotzdem die einfachste Variante.

Wir schauen uns im Workshop hauptsächlich die App an.

Ein Hinweis zum „Denkprozess"

Moderne Modelle wie GPT-OSS zeigen während der Antwort, besonders bei Ollama, oft ihren internen Gedankengang an. Das nennt sich Reasoning oder Thinking. Dabei kann es passieren, dass dein deutscher Prompt im Hintergrund ins Englische übersetzt wird oder das Modell von dir in der dritten Person spricht („the user wants…"). Das ist kein Fehler, sondern liegt daran, dass die Trainingsdaten überwiegend englisch sind und die Modelle intern auf Englisch besser „denken" als auf Deutsch. Die finale Antwort kommt natürlich wieder auf Deutsch heraus. Wer den Denkprozess störend findet, kann ihn in den Modelleinstellungen oder im Chat selbst meist abschalten. Der Denkprozess dient allerdings dazu, dass sich das Modell intern "hinterfragt" und so zu deutlich besseren Ergebnissen kommt.

Schritt für Schritt: Ollama ausprobieren

Ollama von ollama.com herunterladen und installieren.
App öffnen. Ein Konto ist nicht nötig, solange du lokale Modelle nutzt.
Ein Modell auswählen, zum Beispiel gemma4:4b oder gpt-oss:20b. Beim ersten Mal lädt die App das Modell herunter. ACHTUNG: Hier ist etwas Rechenleistung und Speicherplatz nötig. Das ist nichts für ältere Rechner.
Loslegen. Du chattest jetzt lokal mit einer KI.

Offline-KI ist nicht nur Chatbot

Offline-KI ist auch unabhängig von Chatbots schon lange beliebt. Klassisches Beispiel: Whisper von OpenAI zur Audiotranskription. Whisper ist Open Source, läuft lokal, braucht erstaunlich wenig Ressourcen und ist seit Jahren das Werkzeug der Wahl, wenn man Sprachaufnahmen, Interviews oder Vorträge in Text umwandeln will, ohne dass irgendetwas in die Cloud geht.

Zum Ausprobieren bis nächste Woche

Schaue in die Einstellungen deines Chatbots: Ist das Training mit deinen Daten aktiviert? Schalte es ab.
Probiere einen eigenen Beispiel-Prompt oder den oben (Screenreader-Vergleich) in mindestens zwei verschiedenen Chatbots aus und vergleiche.
Probiere Mistral Le Chat aus, komplett europäisch, kein Datenabfluss in die USA.
Wenn du Lust hast: Installiere Ollama und chatte lokal, zum Beispiel mit gemma4:26b (Bilderkennung) oder gpt-oss:20b (logisches Denken).

Wie sind eure Erfahrungen mit Datenschutz und den verschiedenen Chatbots? Teilt eure Tipps hier im Thread!

Linkliste

ChatGPT: https://chatgpt.com
Google Gemini: https://gemini.google.com
Claude: https://claude.ai
Microsoft Copilot: https://copilot.microsoft.com
Mistral Le Chat: https://chat.mistral.ai
Perplexity: https://perplexity.ai
Proton Lumo: https://lumo.proton.me
Grok (X.AI): https://grok.com
Meta AI: https://www.meta.ai
Ecosia KI-Suche: https://www.ecosia.org/ai-search
Ollama herunterladen: https://ollama.com/download

Hawkeye · Beitrag von **Hawkeye** » 04.05.2026, 19:18

Hallo Ben,

herzlichen Dank für dein feedback zu „Scribe me“ und deinen sehr gelungenen Vortrag im Rahmen von Modul 3.

Ich habe noch Fragen zum dritten Modul:

In Modul 2 hast du das NVDA Add on „Vision Assistant Pro„ erwähnt. Soweit ich das verstanden habe, nutzt dieses Add on die großen Chatbots wie ChatGPT
oder Google Gemini. Gibt es auch ein NVDA add on, dass man z.B. zur Bedienung von Ollama, oder Whisper AI, bzw. Lumo etc. nutzen kann? Ich erinnere mich dunkel, dass du erwähnt hast, so ein Add On programmiert zu haben. Könntest du das Add on bitte zur Verfügung stellen? Dann wäre man nicht so stark vom Wohlwollen der Programmierer und ihrer GUI abhängig.

Viele Grüße

Hawkeye

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 05.05.2026, 15:24

Hallo Hawkeye,
danke dir für dein positives Feedback!
Zum "Vision Assistant Pro": Der Vision Assistant Pro ist ein Add-On, das aktuell nur auf Gemini zugreift. Du brauchst dafür einen API-Schlüssel von Gemini.
Es gibt ein Add-on "AI content describer", das allerdings nicht mehr wirklich weiterentwickelt wird. Du müsstest testen, ob es bei der von dir genutzten NVDA-Version noch klappt.
Ich selbst arbeite aktuell an einem sehr unabhängigen Add-on. Das stimmt. Wenn es stabil und funktional genug zum Veröffentlichen ist, werde ich es veröffentlichen. Die Entwicklung ist aufwändig. Geschätzt wird das in den nächsten 4-6 Wochen sein für eine erste Version.

Beitrag von **Robbie Sandberg Site Admin** » 06.05.2026, 12:52

Der Mitschnitt vom 29.04. ist jetzt im offSight-Podcast verfügbar.
Ben Hofer vergleicht die Screen-Reader-Bedienbarkeit der gängigen Chatbots, die Reaktionen, Stärken und Schwechen verschiedener Sprachmodelle, bespricht Datenschutzoptionen und die Einrichtung einer Offline-KI.
Hier könnt ihr die Episode direkt abspielen
Wenn ihr Kapitelmarken nutzen wollt, geht zur Episode auf der Podcast-Website und klickt dort auf den Button.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 06.05.2026, 18:01

Willkommen zum Modul 4!

Worum geht's heute?

Letzte Woche hat Robbie ein schönes Beispiel gezeigt: Protokolle mit KI erstellen. Die KI bekommt seine rohen Notizen und liefert ein fertiges Protokoll in genau der Struktur, die er braucht. Das ist eine Aufgabe, die immer wiederkehrt. Und das Protokoll soll jedes Mal nach derselben Vorlage aussehen.

Das könnte man der KI in jedem Chat aufs Neue erklären, mit Rolle, Format, Tonalität, Beispiel. Es macht keinen Spaß und Sinn, jedes Mal denselben Block einzufügen. Außerdem haben wir viel davon, wenn die KI möglichst viel Kontext bekommt, in diesem Fall ein Beispiel-Protokoll.
Genau hier kommen eigene Chatbots, Projekte oder KI-Agenten ins Spiel. Eigene Chatbots erlauben drei Dinge: Anweisungen wiederverwenden, Wissen dauerhaft hinterlegen und Aufgaben immer auf dieselbe Art erledigen.

Ein zweites Beispiel aus meinem Alltag: Alternativtexte. Ich lade ein Bild hoch, der selbst erstellte Chatbot schreibt mir den Alt-Text genau so, wie ich ihn brauche. Kurz, sachlich, nach WCAG - oder eben, wie ich es brauche. Ohne dass ich es jedes Mal sagen muss.

Heute geht es deshalb um zwei Themen, die direkt zusammenhängen:

Prompting: Wie schreibe ich die Anweisung, damit die KI wirklich das tut, was ich will?
Wiederverwenden: Welche Werkzeuge gibt es, um diese Anweisung dauerhaft zu speichern, und wie baue ich mir damit meinen eigenen Chatbot?

Am Ende werfen wir noch einen kurzen Blick auf KI-Agenten. Das ist die nächste Stufe.

Teil 1: Prompting für Fortgeschrittene

In Modul 1 haben wir die Basics gelernt. Jetzt gehen wir tiefer.

Techniken, die den Unterschied machen

Rollen vergeben: „Du bist ein erfahrener Ernährungsberater. Erstelle mir einen Wochenplan." Die KI antwortet besser, wenn sie weiß, wer sie sein soll.
Kontext mitgeben: Je mehr relevante Info du lieferst, desto besser die Antwort. Liefere nicht alles auf einmal, aber das Wichtigste.
Few-Shot Prompting: Du gibst der KI ein oder zwei Beispiele, wie die Antwort aussehen soll. Die KI erkennt das Muster und folgt ihm.
Chain-of-Thought: „Denke Schritt für Schritt." Das zwingt die KI, ihre Antwort in Zwischenschritten aufzubauen, statt vorschnell zu antworten. Es liefert oft bessere Ergebnisse. 2026 ist das zwar nicht mehr so relevant wie früher, aber es ist immer noch eine bekannte Prompting-Technilk.

System-Prompts: Der KI eine Persönlichkeit geben

Ein System-Prompt ist eine Anweisung, die vor jedem Gespräch gilt. Beispiel:

„Du bist ein hilfreicher Assistent, der blinden Menschen hilft, Technik zu verstehen. Antworte immer klar, präzise, in einfacher Sprache und ohne Fachjargon. Wenn du dir unsicher bist, sage das ehrlich. Erfinde nichts. Vermeide Floskeln, verschachtelte sätze und Call to Action-Fragen."

Genau so ein System-Prompt steckt im Kern jedes eigenen Chatbots. Wer ihn gut formuliert, hat schon einen großen Teil der Arbeit erledigt.

Personalisierung: Wer bin ich, und wie soll der Bot antworten?

Bevor wir eigene Chatbots bauen, gibt es eine Vorstufe, die jeder direkt nutzen kann. Alle drei großen Chatbots haben eine Funktion, mit der du dauerhaft hinterlegen kannst, wer du bist und wie der Bot dir antworten soll. Das spart dir, in jedem neuen Chat aufs Neue zu erklären, dass du blind bist und visuelle Inhalte beschrieben haben möchtest.

Wichtig: Die Personalisierung gilt für alle Chats. Sie ist also für allgemeine Vorlieben gut. Für eine bestimmte Aufgabe (zum Beispiel Protokolle schreiben) ist ein eigener Chatbot der richtige Weg.

Sinnvolle Inhalte für die Personalisierung:

Wer bin ich? Beruf, Interessen, Vorkenntnisse, dass du blind oder sehbehindert bist.
Wie soll der Bot antworten? Sprache (einfach oder fachlich), Länge (kurz und direkt oder ausführlich), Format (mit Überschriften, mit Aufzählungen, in Fließtext), Tonalität (sachlich, locker, freundlich).

So richtest du das in den drei großen Anwendungen ein:

ChatGPT: Tastenkürzel STRG+Shift+I öffnet direkt den Personalisierungs-Dialog („Custom Instructions"). Alternativ über das Profilmenü → Einstellungen → Personalisierung. Dort gibt es zwei Felder: „Was sollte ChatGPT über dich wissen?" und „Wie soll ChatGPT antworten?".
Gemini: Auf gemini.google.com → in der Seitenleiste auf „Saved Info" oder „Gespeicherte Informationen" → unter „Your instructions for Gemini" auf „Hinzufügen" / „Add +" → Anweisung eintragen → Submit. Auf dem Smartphone: Menü → Einstellungen → Personal Intelligence → Instructions for Gemini. Achtung: Diese Funktion gibt es nur mit privatem Google-Konto, nicht mit Schul- oder Firmenkonto.
Claude: Einstellungen → „Profil" / „Profile". Dort kannst du deinen Namen, deinen Beruf und einen Freitext zur „Persönlichen Vorliebe" hinterlegen („Personal Preferences"). Empfehlung: 300 bis 500 Wörter, und ruhig auch sagen, was Claude nicht tun soll. Das ist oft wirkungsvoller als Anweisungen, was es tun soll.

Typische Fehler

Zu vage: „Schreib mir was über KI". Lieber: „Schreib eine Zusammenfassung in 5 Sätzen über KI-Bilderkennung für blinde Menschen."
Zu viel auf einmal: Lieber mehrere kleine Prompts als einen riesigen.
Ergebnis nicht prüfen: KI kann halluzinieren. Wir müssen immer gegenlesen, vor allem bei wichtigen Informationen, die nicht falsch sein dürfen. Auch wenn die KI Quellen nennt, müssen wir sie prüfen. Die KI ist ein Werkzeug. Die Inhalte, die ich mit ihr erstelle, habe ich erstellt.

Teil 2: Eigene Chatbots bauen

Jetzt zum eigentlichen Kern. Eigene Chatbots sind keine Programmierung. Du beschreibst in Worten, was der Bot tun soll, hinterlegst optional ein paar Dateien als Wissensbasis, und der Bot ist fertig. In jedem Chat mit ihm gilt deine Anweisung dann automatisch.

Praktisch jeder große Anbieter hat eine eigene Variante davon. Die Namen sind unterschiedlich, das Prinzip ist überall ähnlich: ein Name, eine Anweisung, optional Wissen. Hier der Stand Mai 2026 für die wichtigsten Anbieter.

ChatGPT: Custom GPTs

Bei OpenAI heißen eigene Chatbots GPTs (oder „Custom GPTs"). Sie sind seit Ende 2023 verfügbar und der Quasi-Standard.

Voraussetzung: ChatGPT-Plus-Abo oder höher. In der kostenlosen Version kann man fremde GPTs nutzen, aber keine eigenen bauen.
So geht's: Linke Seitenleiste → „GPTs entdecken" → Schalter „Erstellen" / „Create".
Zwei Wege: Entweder im Chat-Dialog beschreiben, was der Bot können soll (der Builder fragt einen aus). Oder direkt im Konfigurations-Tab Felder ausfüllen: Name, Beschreibung, Anweisungen, Konversations-Starter.
Wissensbasis: Bis zu 20 Dateien hochladen (PDF, DOCX, TXT, ...). Der Bot zieht Inhalte daraus, wenn sie zur Frage passen.
Teilen: Der fertige GPT kann geteilt oder privat gehalten werden.

Gemini: Gems

Googles Variante heißt Gems. Die Funktion ist inzwischen auch in der kostenlosen Variante verfügbar, im Funktionsumfang aber kleiner als bei ChatGPT.

So geht's: Auf gemini.google.com → Seitenleiste „Gems entdecken" / → „Neues Gem".
Name, Anweisung und optional Beispiel-Aufgaben eintragen. Knopf „Gemini benutzen, um Anweisungen neu zu schreiben" oder "Prompt optimieren" hilft, einen knappen Prompt zu einem ausführlicheren auszubauen.
Wissensbasis: Dateien hochladen, mit Google AI Pro bis zu 10 Dateien pro Gem.
Super Gems: Seit Dezember 2025. Erweiterte Gems mit Buttons, Formularen und Eingabemasken, gebaut über Googles No-Code-Werkzeug Opal. Eher etwas für Fortgeschrittene. Hier kannst du wirklich eigene Apps bauen.

Claude: Projekte

Bei Anthropic heißt die Funktion Projekte („Projects"). Sie unterscheidet sich konzeptionell etwas von GPTs und Gems: Ein Projekt ist mehr ein „Arbeitsplatz" mit gemeinsamem Kontext, weniger ein einzelner geteilter Bot.

Voraussetzung: Claude Pro oder Team.
So geht's: claude.ai → Menüpunkt „Projekte" → „+ Neues Projekt". Name vergeben, dann zwei Bereiche pflegen.
Custom Instructions: Ein fester Prompt, der vor jeder Konversation im Projekt mitläuft. Empfehlung: 200 bis 500 Wörter. Auch sagen, was Claude nicht tun soll.
Knowledge / Wissensbasis: Bis zu 100 MB Dokumente (PDF, DOCX, TXT, CSV, JSON). Maximal 10 MB pro Datei. Claude nutzt diese in jeder Unterhaltung im Projekt.
Konversationen: Innerhalb eines Projekts hat man beliebig viele Chats, also Gespräche. Alle bekommen die Anweisungen und das Wissen automatisch mit.

Praxis-Tipp: Für den Protokoll-Bot lege ich ein Projekt „Protokolle" an, schreibe meine Format-Vorgaben in die Anweisungen, lege ein altes Beispiel-Protokoll als Wissens-Datei rein. Jede neue Sitzung wird dann ein neuer Chat in diesem Projekt. Ich brauche dann nur noch einen Chat in diesem Projekt starten und meine Notizen reinkopieren. Der Bot, also das Projekt weiß, was zu tun ist.

Microsoft Copilot: zwei Welten

Bei Microsoft hängt es davon ab, ob privat oder beruflich.

Privat (Microsoft 365 Personal, Family, Premium): Copilot Notebooks. Eine Art Arbeits-Mappe, in die du Dateien, Notizen, Links und Chats steckst. Copilot zieht aus diesen Quellen seine Antworten, fasst sie zusammen, erstellt Quizzes, Audio-Übersichten und Karteikarten daraus. Seit 2026 lassen sich auch eigene Agents direkt auf einem Notebook gründen.
Beruflich (Microsoft 365 Copilot mit Business-Lizenz): Copilot Studio. Vollwertiger Agent-Builder mit Anbindung an über 1400 Systeme über das sog. Model-Context-Protokoll. Mehr Funktionen, aber komplexer und nichts für mal eben zwischendurch.

Für den Workshop interessant ist eher Copilot Notebooks. Copilot Studio ist klar Richtung Firmen-Einsatz gedacht.

Mistral Le Chat: Agents

Auch Mistral (der französische Anbieter aus Modul 3) hat eine eigene Bauweise: Agents. Funktioniert seit 2025 und hat 2026 ordentlich nachgelegt.

So geht's: In Le Chat (chat.mistral.ai) im Menü „Agenten" / „Agents" → „Neuer Agent". Name, Beschreibung, Anweisung. Werkzeuge (Web-Suche, Code-Interpreter) dazuschalten.
Wissensbasis: Dateien hochladen oder externe Quellen anbinden. In Le Chat Enterprise auch SharePoint, Google Drive, Gmail.
Geschwindigkeit: Mistral wirbt damit, dass die Agents spürbar schneller antworten als die Konkurrenten. In der Praxis stimmt das oft.
Datenschutz: Server in Europa, EU-konform. Für sensible Daten die beste Wahl unter den Großen.

Ollama: lokal mit Modelfile

Ollama haben wir in Modul 3 schon kennengelernt. Auch hier kann man eigene Bots bauen, allerdings textbasiert über eine kleine Datei.

So geht's: Eine Textdatei namens „Modelfile" anlegen. Inhalt:

Code: Alles auswählen

FROM gemma4:26b
SYSTEM "Du bist ein Assistent, der mir Bildbeschreibungen nach WCAG erstellt. Halte dich kurz, sachlich und beschreibe den Zweck des Bildes."

Und hier muss man jetzt mit der Kommandozeile arbeiten: Mit ollama create alttext-bot -f Modelfile einen eigenen Bot mit dem Namen „alttext-bot" erzeugen.
Anschließend ollama run alttext-bot und es geht los.
Vorteil: Komplett offline, keine Daten verlassen den Rechner.
Nachteil: Zur Zeit keine grafische Oberfläche zum Anlegen. Geht nur über die Kommandozeile. Mit Screenreader aber gut machbar, weil rein textbasiert.

Welcher Anbieter für was?

ChatGPT GPT: Reichste Funktionen, größte Auswahl an fertigen GPTs, aber kostenpflichtig.
Gemini Gem: Sehr gut, wenn man im Google-Ökosystem unterwegs ist (Drive, Mail, Kalender). In der Gratis-Variante schon brauchbar.
Claude Projekt: Mein persönlicher Favorit für Aufgaben mit viel Text und festem Format. Wissensbasis ist großzügig, Anweisungen werden sauber befolgt.
Copilot Notebook: Wenn du sowieso Microsoft 365 hast und Office-Dokumente einbeziehen willst, ist das die Wahl. Es erfordert meines wissen s nach etwas mehr Einarbeitung.
Mistral Agent: Wenn Datenschutz wichtig ist und alles in Europa bleiben soll. Es ist etwas weniger screenreader-kompatibel.
Ollama Modelfile: Wenn alles lokal bleiben muss oder du gerne tüftelst.

Tipps zum Bauen, egal mit welchem Werkzeug

Klein anfangen: Ein klares Ziel pro Bot. Lieber drei spezialisierte Bots als einer, der alles können soll.
System-Prompt ist alles: Hier investiert man die meiste Zeit. Sage konkret, was rauskommen soll, in welcher Form, in welchem Ton. Gerne mit Beispiel.
Was nicht tun? Schreib auch rein, was der Bot vermeiden soll. Floskeln, Disclaimer, „als KI kann ich nicht...". Das hilft oft mehr als Anweisungen, was er tun soll.
Testen: Funktioniert der Bot wie gewünscht? Was passiert bei unerwarteten Fragen?
Iterieren: Prompt anpassen, nochmal testen, besser machen. Erste Version ist nie die letzte.

Drei Praxisbeispiele zum Loslegen

Protokoll-Bot: Du gibst Notizen rein, der Bot liefert das Protokoll im Format deiner Organisation. Wissensbasis: zwei oder drei alte Protokolle als Vorlage.
Alternativtext-Generator: Du lädst ein Bild hoch, der Bot schreibt den Alt-Text nach WCAG. System-Prompt: „Du schreibst Alternativtexte für Bilder auf Websites. Halte dich an die WCAG-Richtlinien: kurz, sachlich, Zweck des Bildes beschreiben. Keine Floskeln wie ‚Auf dem Bild ist zu sehen'."
Lern-Buddy: Ein Bot, der dir ein bestimmtes Thema erklärt und dann selbst Verständnisfragen dazu stellt.

Teil 3: Ausblick — KI-Agenten

2026 hört man überall von Agentic AI. Was steckt dahinter?

Ein klassischer Chatbot antwortet auf eine Frage und wartet dann auf die nächste. Ein KI-Agent geht weiter:

Er kann mehrere Schritte hintereinander ausführen, um ein Ziel zu erreichen.
Er kann Werkzeuge verwenden: im Internet suchen, Dateien lesen, Code ausführen, E-Mails verschicken.
Er kann selbst entscheiden, welchen nächsten Schritt er macht.

Beispiel: Du sagst „Suche mir die drei günstigsten Hotels in Berlin für nächstes Wochenende und fasse die Bewertungen zusammen." Ein Agent sucht selbst, vergleicht und liefert dir das Ergebnis. Er gibt also nicht nur eine Antwort, sondern handelt aktiv.

Das ist noch nicht perfekt und braucht Kontrolle. Aber die Richtung ist klar: KI wird vom Antwortgeber zum Assistenten, der Aufgaben erledigt.

Auch für Barrierefreiheit ist das relevant. In Modul 2 haben wir über "Guide" gesprochen, eine Windows-App, die meinen Computer steuern kann und der ich z. B. sagen kann "Klicke in dieser Anwendung ins Menü, wähle XY aus und fülle die Formularfelder aus". Das hilft beim Bedienen unzugänglicer Anwendungen und ist aktuell im Ankommen.

Zum Ausprobieren bis nächste Woche

Pflege deine Personalisierung. Hinterlege in deinem Hauptbot, wer du bist und wie er dir antworten soll. Mindestens: blind oder sehbehindert, bevorzugte Antwortlänge, Format.
Bau dir deinen ersten eigenen Bot. Egal ob als Custom GPT, Gemini Gem, Claude Projekt oder Mistral Agent. Thema frei wählbar, gerne der Protokoll-Bot, der Alt-Text-Generator oder etwas ganz Eigenes.
Probiere mindestens eine der Prompting-Techniken (Rolle, Few-Shot, Chain-of-Thought) gezielt aus.
Teile hier im Thread, was du gebaut hast. Oder wo du nicht weiterkommst.

Wir freuen uns auf eure Kreationen!

Linkliste

ChatGPT GPTs erstellen: https://chatgpt.com/gpts
Gemini Gems erstellen: https://gemini.google.com/gems/create
Claude Projekte: https://claude.ai/projects
Mistral Le Chat Agents: https://chat.mistral.ai
Ollama Modelfile-Doku: https://docs.ollama.com/modelfile

carina · Beitrag von **carina** » 08.05.2026, 19:01

Hallo Ben,

jetzt wollte ich das mit einem Gem in Gemini direkt mal ausprobieren und zwar für die SightCity. Als "Wissen" wollte ich den Messekompass (habe es mit .docx und .txt versucht) sowie die Hallenpläne hochladen. Da stand dann immer "Datei konnte nicht verarbeitet werden". Hast du eine Idee, woran das liegen kann? Ich bin auch bei Google angemeldet.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 12.05.2026, 09:06

Hallo Carina,
ich hab' gerade den Gem erstellt. Mit dem Messekompass als PDF hat es bei mir gut geklappt. Ich habe auch kein Gemini Pro Abo. Leider kann ich dein Problem daher nicht nachvollziehen. Magst du es nochmal probieren?
Eigentlich sollte es egal sein, ob du das Text oder PDF (oder Docx) nimmst.

carina hat geschrieben: ↑
08.05.2026, 19:01
Hallo Ben,

jetzt wollte ich das mit einem Gem in Gemini direkt mal ausprobieren und zwar für die SightCity. Als "Wissen" wollte ich den Messekompass (habe es mit .docx und .txt versucht) sowie die Hallenpläne hochladen. Da stand dann immer "Datei konnte nicht verarbeitet werden". Hast du eine Idee, woran das liegen kann? Ich bin auch bei Google angemeldet.

carina · Beitrag von **carina** » 12.05.2026, 14:37

Hallo Ben,

ja, jetzt hat es bei mir auch geklappt, keine Ahnung, wo beim letzten Mal das Problem war. :-)
Gerne teile ich meinen SightCity-Gem mit euch, der so gepromptet wurde, dass sich insbesondere junge blinde Menschen angesprochen fühlen sollten. Ich wünsche euch viel Spaß beim Ausprobieren und bin gespannt auf euer Feedback: https://gemini.google.com/gem/1SDIliuU4 ... sp=sharing

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 12.05.2026, 17:27

Willkommen zu Modul 5!

Worum geht's heute?

Letzte Woche haben wir uns eigene Chatbots gebaut, also der KI Aufgaben beigebracht, die immer wiederkehren. Heute drehen wir den Spieß um. Statt Aufgaben zu erledigen, lassen wir die KI etwas erschaffen: Musik, Stimmen, Bilder, ganze Videos. Das Spannende dabei: Vieles davon ist auch für uns als blinde oder sehbehinderte Nutzer gut bedienbar. Und einige Anwendungen sind richtig nützlich, nicht nur Spielerei.

Wir gehen die Bereiche der Reihe nach durch und schauen jeweils auf drei Dinge: Was geht? Wie ist die Bedienbarkeit? Und wofür brauche ich das eigentlich?

Wie funktioniert das eigentlich? Aus Rauschen wird Bild und Musik

Eine kurze Erklärung vorab, weil sie immer wieder Aha-Momente liefert. Die KI startet bei der Bilderzeugung mit einem komplett verrauschten Bild, also reinem Bildrauschen wie ein altes Fernsehbild ohne Empfang. Schritt für Schritt entfernt sie das Rauschen, geleitet durch deinen Prompt. Nach vielen kleinen Durchgängen ist aus dem Rauschen ein klares Bild geworden. Dasselbe Prinzip steckt hinter der Musikgenerierung: Aus akustischem Rauschen wird Stück für Stück ein Song. Fachbegriff: Diffusionsmodell.

Musik generieren

Ja, KI kann Songs machen. Und zwar richtig gute. Zwei Werkzeuge möchte ich vorstellen.

Suno

Suno (suno.ai) ist aktuell das beeindruckendste Tool für KI-Musik.

Du gibst einen Text ein oder lässt Suno einen schreiben, wählst einen Stil und bekommst innerhalb von Sekunden einen fertigen Song.
Text und Stil sind dabei Eingabefelder und erwarten einen Prompt (also eine Anweisung) wie du das von den letzten Modulen kennst. Hier können sich Musik-Profis austoben!
Bei Genres sind keine Grenzen gesetzt: Pop, Rock, Jazz, Klassik, Hip-Hop, Schlager und vieles mehr.
Generier einen Text, in dem du nur vage vorgibst, worum es gehen soll. Oder schreib ihn Vers für Vers.
Die Ergebnisse sind oft erstaunlich gut. Gesang, Instrumente, Arrangement sind alle generiert.
Bedienbarkeit: Mit Screenreader recht gut. Eingabefeld und Schalter sind weitgehend beschriftet, du kommst per Tab durch die Oberfläche.

Gemini

Auch Google Gemini kann inzwischen Musik erzeugen. Das ganze geht direkt im Chat. Du beschreibst, was du willst, und Gemini liefert dir einen Audio-Schnipsel oder ein längeres Stück.

Vorteil: Du brauchst kein extra Konto, keine extra App. Die Bedienoberfläche ist die normale Gemini-Webseite, die du aus Modul 3 und Modul 4 kennst und die mit Screenreader sehr gut funktioniert.
Anwendungsfall: Wenn du nur mal eben etwas ausprobieren willst, ohne dich bei einem neuen Dienst anzumelden. Für tiefere Musik-Produktion ist Suno stärker. Auch gemini generiert aber hochwertige Musik und auch hier kannst du die Anweisung so ausführlich gestalten wie du magst.

Achtung: Oft ist die Musikgenerierung begrenzt. Ladest du ein von Gemini generiertes Musikstück herunter, bekommst du nur die ersten 30 Sekunden. Auch bei Suno kannst du die vollen Songs und den vollen Funktionsumfang meist nur mit der Pro-Version nutzen.

Wofür braucht man das?

Auf den ersten Blick wirkt KI-Musik wie Spielerei. Drei Anwendungen, die wirklich nützlich sind:

Jingles: Eigene kurze Erkennungsmelodien für Podcasts, YouTube-Videos oder einen Forum-Beitrag. Früher musstest du dafür einen Komponisten bezahlen oder dich durch Stockmusik kämpfen.
Geburtstags- oder Anlass-Songs: Personalisierte Lieder zum Verschenken. Das funktioniert verblüffend gut, vor allem dann, wenn man selbst etwas kreativ ist.
Kreative Erkundung: „Wie würde mein Lieblingstext im Reggae-Stil klingen?" Das ist Spaß, aber auch Lerneffekt für gutes Prompting.

Ein Praxis-Tipp zum Prompting: Je präziser dein Stil, desto besser das Ergebnis. „Akustischer Folk mit weiblicher Stimme, ruhig, nachdenklich, Gitarre und sanftes Klavier" liefert mehr als „mach mir einen schönen Song mit Gitarre und Klavier".

Stimmen, Vorlesen und Voice Cloning

Die Zeiten roboterhafter Computerstimmen sind vorbei. Aktuelle KI-Stimmen klingen natürlich, ausdrucksstark und sind oft kaum von echten Sprechern zu unterscheiden.

ElevenLabs

ElevenLabs ist der Marktführer bei KI-Stimmen.

Es gibt viele vorgefertigte Stimmen in vielen Sprachen. Sie klingen sehr natürlich.
Du kannst eigene Texte vorlesen lassen, die Audio-Datei herunterladen und überall einsetzen.
Bedienbarkeit: Hier müssen wir ehrlich sein. Der etwas fortgeschrittenere Editor von ElevenLabs hakt mit NVDA. Auswahlfelder sind oft nicht sauber bedienbar, manche Schalter nicht beschriftet. Für einfache Vorlese-Aufgaben (Text rein, Stimme wählen, abspielen) reicht es, für tiefere Bearbeitung wird es mühsam. Apple-Nutzer mit VoiceOver berichten teils von besseren Erfahrungen.

Eigene Stimme klonen

Das geht wirklich: Du sprichst ein paar Minuten Audiomaterial ein, und die KI kann danach in deiner Stimme sprechen, auch in Sprachen, die du selbst gar nicht beherrschst.

Praktischer Anwendungsfall: Du nimmst einen Vortrag in deiner Muttersprache auf, lässt ihn in Englisch oder Spanisch synthetisieren und teilst ihn mit einem internationalen Publikum. Die Stimme bleibt deine.

Voice Dubbing: Videos in andere Sprachen

Eine Sonderfunktion, die ElevenLabs gut beherrscht: Voice Dubbing. Du gibst ein Video oder eine Audiodatei rein, ElevenLabs trennt Sprecher von Hintergrundgeräuschen, übersetzt das Gesagte in eine andere Sprache und legt es mit der Originalstimme drüber. Mehr als 30 Sprachen werden inzwischen unterstützt.

Für uns ist interessant: Das funktioniert in beide Richtungen. Du kannst englischsprachige YouTube-Tutorials auf Deutsch synchronisieren lassen, oder eigene Inhalte international zugänglich machen. Lippensync ist nicht perfekt, aber bei Erklär-Videos oder Vorträgen reicht es allemal.

Whisper für Transkription

Aus Modul 3 kennst du Whisper schon: Das Open-Source-Modell von OpenAI für Audio-Transkription. Es passt thematisch auch hierher und sei darum erwähnt. Audio kommt rein, Text kommt raus. Komplett offline möglich, sehr genau, viele Sprachen. Wenn du regelmäßig Aufnahmen verschriftlichen willst (Interviews, Vorträge, eigene Sprachnotizen), ist Whisper das Werkzeug der Wahl. Datenschutzfreundlich und kostenlos.

NotebookLM: Recherche, die zum Podcast wird

NotebookLM (notebooklm.google.com) ist ein Werkzeug von Google, das in dieser Workshop-Reihe noch keine Rolle gespielt hat, hier aber wunderbar passt. Es kombiniert drei Dinge, die für uns alle nützlich sind.

Eigene Wissensbasis: Du lädst Dokumente hoch (PDFs, Webseiten, Notizen, eigene Texte). NotebookLM liest sie und antwortet ausschließlich auf Basis dieser Quellen. Das macht Halluzinationen viel unwahrscheinlicher.
Recherche und Fragen: Du stellst Fragen zu deinen Quellen, bekommst Antworten mit direkten Verweisen auf die jeweilige Stelle im Dokument.
Audio Overview: Auf Knopfdruck generiert NotebookLM einen Podcast aus deinen Quellen. Zwei KI-Stimmen unterhalten sich locker und fundiert über deine Inhalte. Das klingt erstaunlich natürlich. Inzwischen geht das in über 80 Sprachen, Deutsch klingt sehr ordentlich.
Video Overview: Seit März 2026 gibt es zusätzlich einen Video-Modus. Eine Art animierte Folien-Präsentation mit gesprochenem Off-Kommentar, generiert von Gemini 3 und Veo 3.
Interaktiver Modus: Während der Audio-Podcast läuft, kannst du in der Pro-Version dazwischengrätschen („mehr Details bitte") und die KI antwortet kontextbezogen, bevor sie weitermacht.
Andere, interaktive Lernformen: NotebookLM generiert dir auch ein Quiz, Karteikarten, eine Q&A und vieles mehr.

Bedienbarkeit: Sehr gut. Wie alle Google-Tools ist NotebookLM solide mit Screenreader nutzbar. Web-Oberfläche ist klar strukturiert.

Use Cases für uns:

Längere Texte oder PDFs „anhören" statt durchlesen. Der generierte Podcast ist oft eingängiger als die Originalquelle.
Komplexe Themen aufarbeiten: Mehrere Quellen rein, einen Überblicks-Podcast generieren.
Lernen für Prüfungen: Skript hochladen, sich den Stoff im Dialog erklären lassen.

NotebookLM ist einer meiner persönlicher Favoriten unter den Werkzeugen. Es kombiniert echten Nutzen mit guter Bedienbarkeit.

Bilder generieren

KI-Modelle wie DALL-E, Imagen oder Nano Banana erzeugen Bilder aus Textbeschreibungen. Du beschreibst, was du sehen willst, die KI generiert es.

DALL-E (OpenAI): Direkt in ChatGPT integriert. „Erstelle ein Bild von einer Katze, die auf einem Surfbrett steht", und es entsteht.
Imagen (Google): Direkt in Gemini eingebaut.
Nano Banana (Google): Spezialwerkzeug für sehr schnelle, kleine Bilder. Inzwischen ebenfalls in Gemini verfügbar.
Midjourney: Lange Zeit Spitze bei der Bildqualität, läuft hauptsächlich über Discord. Bedienbarkeit für Screenreader-Nutzer eher mühsam.

Ist das für uns relevant?

Auf den ersten Blick vielleicht nicht. Auf den zweiten schon:

Social Media: Beiträge mit eigenen Bildern, ohne auf Stockfotos zurückzufallen.
Präsentationen und Folien: Eigene Illustrationen für Vorträge.
Kreative Projekte: Buchcover, Logos, Visitenkarten, Designs.
Ideen visualisieren: Du beschreibst eine Wohnzimmer-Idee, die KI macht ein Bild, das du dir wiederum von der KI beschreiben lassen kannst. Brücke zwischen Idee und Umsetzung.

Wichtig: Für KI-generierte Bilder solltest du immer einen Alt-Text schreiben oder schreiben lassen. Das ist gute Praxis und hilft anderen blinden Nutzern. Praktisch geht das so: Bild generiert, dann denselben Chatbot bitten: „Schreib mir einen kurzen Alt-Text für dieses Bild."

Video: Avatare, Voiceover und mehr

Hier passiert 2026 die rasanteste Entwicklung. Ein paar Werkzeuge, die hervorstechen.

HeyGen: dein KI-Avatar

HeyGen (heygen.com) macht etwas Verblüffendes: Aus 15 Sekunden Video von dir erstellt es einen digitalen Zwilling. Der Avatar spricht dann jeden Text in deiner Stimme, mit deinem Gesichtsausdruck, deiner Gestik.

Du gibst einen Text ein, HeyGen produziert ein Video, in dem dein Avatar genau diesen Text spricht. Über 170 Sprachen werden unterstützt.
Stimme, Mimik und Gestik werden mitgelernt. Das Ergebnis sieht nicht aus wie eine Animation, sondern wie ein echter Videoclip.
Use Case: Erklärvideos in mehreren Sprachen, ohne dass du sie alle selbst aufnehmen musst. Schulungsvideos. Begrüßungs-Videos für eine Webseite.

Ethisch ist das ziemlich heikel, technisch faszinierend. Wir kommen gleich noch mal drauf zurück.

TwelveLabs: Videos verstehen

TwelveLabs (twelvelabs.io) geht den umgekehrten Weg. Statt Videos zu erzeugen, versteht es bestehende. Du kannst per natürlicher Sprache in Stunden von Videomaterial suchen („Finde die Stelle, wo der Sprecher die Folie 5 zeigt"). Es gibt zusätzlich „Rodeo", eine App-Schicht, die auch Videobearbeitung erlaubt.

Für blinde Nutzer perspektivisch interessant: Eine KI, die Videos für uns durchsucht, beschreibt und zusammenfasst. Aktuell noch eher ein Werkzeug für Profis und Entwickler, aber die Richtung stimmt.

Gemini und ChatGPT können auch Videos generieren

Auch hier gilt: Die klassischen Chatbots holen schnell auf. Gemini kann inzwischen kurze Videoclips generieren (per Veo-Modell), ChatGPT plant ähnliches. Für einfache Animationen oder kurze Szenen reicht das oft schon.

Use Case: Voiceover für deine Videos

Ein konkretes Workflow-Beispiel, das viele Bausteine kombiniert:

Skript schreiben in einem Chatbot deiner Wahl.
Stimme aufnehmen oder synthetisieren (ElevenLabs, eigene Stimme).
Video produzieren (HeyGen mit Avatar, oder klassische Bildschirmaufnahme).
Übersetzen und dubben (ElevenLabs Voice Dubbing).
Optional: Mit Auphonic noch nachmastern.

Das alles ohne Studio, ohne Kameramann, ohne Tonstudio. Was vor zwei Jahren ein Profi-Setup gebraucht hätte, geht heute in verblüffender Qualität am Schreibtisch.

Audioschnitt und Nachbearbeitung

Auphonic

Auphonic (auphonic.com) ist ein Dienst für automatisches Audio-Mastering.

Audio hochladen, Auphonic optimiert Lautstärke, entfernt Rauschen, gleicht Pegel an.
Perfekt für Podcasts, Interviews, Aufnahmen.
Bedienbarkeit: Mit Screenreader gut bedienbar. Klare Web-Oberfläche.
Workflow: Aufnehmen, bei Auphonic hochladen, fertiges Audio herunterladen.

Für alle, die regelmäßig Audio aufnehmen, spart Auphonic enorm viel Zeit.

Descript

Auch mit Descript können wir Audios bearbeiten. Es geht sogar noch einen Schritt weiter: Descript transkribiert das Gesprochene, lässt uns den Text bearbeiten und bearbeitet anhand dessen das Audio. Wir können sozusagen durch reines Bearbeiten des Texts schneiden.

Rechtliches: Wem gehören die generierten Werke?

Bevor du etwas Generiertes veröffentlichst oder verkaufst, ist ein Blick in die AGB des Tools Pflicht. Die Regeln unterscheiden sich stark zwischen Anbietern und Tarifen.

Zwei Beispiele zum Vergleich (Stand Mai 2026):

Suno: In der Gratis-Variante gehören die Songs Suno selbst. Du darfst sie privat nutzen, aber nicht kommerziell. Erst das Pro- oder Premier-Abo gibt dir die kommerziellen Rechte, und das gilt nur für Songs, die im Abo-Zeitraum entstanden sind. Wer also einen Suno-Song verkaufen oder auf Spotify stellen will, muss zum Zeitpunkt der Generierung bezahlt haben.
NotebookLM: Google beansprucht keinen Besitz an deinen generierten Inhalten, also Podcasts, Zusammenfassungen, Videos. Für die hochgeladenen Quellen bist du aber selbst verantwortlich. Lade also keine fremden urheberrechtlich geschützten PDFs hoch, an denen du keine Rechte hast.

Dazu kommt eine Ebene drüber, unabhängig vom Tool: In den USA ist rein KI-generiertes Material nicht urheberrechtlich geschützt, weil das Urheberrecht einen menschlichen Schöpfer voraussetzt. In Deutschland ist die Lage ähnlich. Sobald du das Werk substanziell bearbeitest oder in einen größeren eigenen Kontext einbettest, ist der menschliche Anteil aber geschützt.

Faustregel: Vor jedem kommerziellen Einsatz die AGB des Tools prüfen. Bei den meisten gilt grob: Gratis-Variante ist privat ok, kommerziell heikel. Bezahl-Variante meist ok, aber Detail-Bedingungen lesen.

Ethik: Deepfakes und Verantwortung

Stimmen klonen, Avatare erzeugen, Videos generieren ist faszinierend, aber gefährlich, wenn man es nicht ernst nimmt.

Niemandes Stimme oder Bild ohne Einverständnis klonen. Wenn du jemandem die Stimme oder das Gesicht digital nachbaust, brauchst du dessen Einwilligung. Alle Tools und das Gesetz verlangen das ausdrücklich!
KI-generierte Inhalte kennzeichnen. In Beschreibungen, Untertiteln oder Begleittexten klar machen: Das hier ist KI-generiert. Der EU AI Act schreibt das ab 2026 sogar vor.
Deepfakes erkennen lernen. Gefälschte Stimmen und Videos sind ein reales Problem, vor allem bei politischen Manipulationen oder Enkeltrick-Anrufen mit geklonter Stimme. Sei kritisch bei dem, was du hörst und siehst, gerade wenn es emotional aufgeladen ist.

Allgemein zur Geschwindigkeit der Entwicklung

Die Plattformen in diesem Modul entwickeln sich schneller als alle anderen, die wir bisher gesehen haben. Was heute noch ein eigenständiger Spezialdienst ist (Suno für Musik, ElevenLabs für Stimmen, HeyGen für Avatare), kann in einem halben Jahr direkt in Gemini oder ChatGPT eingebaut sein. Wir sehen das jetzt schon: Musik in Gemini, Bildgenerierung in ChatGPT, Video-Ansätze in beiden.

Mein Tipp: Bleib bei den großen Chatbots als Hauptwerkzeug, und greife zu den Spezial-Tools, wenn du das Maximum aus einer Disziplin holen willst.

Zum Ausprobieren

Suno-Song: Erstelle einen Song in Suno oder Gemini. Thema frei wählbar, gerne eine Hymne für den DBSV-Jugendclub oder unseren KI-Workshop.
NotebookLM-Podcast: Lade ein PDF hoch (z. B. eines unserer Modul-Dokumente) und generiere dazu einen Audio-Podcast. Hör ihn dir an.
Stimme klonen: Wenn du magst und einen Account hast, klone deine eigene Stimme bei ElevenLabs. Lass damit einen Text vorlesen.
Bild und Alt-Text: Erstelle ein Bild mit DALL-E in ChatGPT oder mit Imagen in Gemini. Lass dir anschließend vom selben Chatbot einen Alt-Text dazu schreiben.

Teile deine Ergebnisse hier im Thread. Songs, Audiobeispiele, Bilder, alles willkommen, solange du es teilen magst.

Abschluss des Workshops

Das war unser KI-Workshop. In fünf Modulen haben wir gelernt:

Was KI ist und wie sie funktioniert.
Welche Tools uns im Alltag helfen.
Wie wir Chatbots bedienen und unsere Daten schützen.
Wie wir eigene Chatbots bauen und KI-Agenten verstehen.
Was KI kreativ alles kann.

Das Wichtigste: KI entwickelt sich rasant weiter. Bleib neugierig, probier aus, tausch dich aus. Genau dafür gibt es diesen Thread und das offSight-Forum.

Danke fürs Mitmachen!

Linkliste

Suno: https://suno.com
Gemini: https://gemini.google.com
ElevenLabs: https://elevenlabs.io
ElevenLabs Voice Dubbing: https://elevenlabs.io/dubbing-studio
NotebookLM: https://notebooklm.google.com
HeyGen: https://heygen.com
TwelveLabs: https://twelvelabs.io
DALL-E (in ChatGPT): https://chatgpt.com
Auphonic: https://auphonic.com
Whisper: https://github.com/openai/whisper

offSight

KI verstehen und clever nutzen

KI verstehen und clever nutzen

Housekeeping und ein paar Infos vorab

Modul 1 - Was ist KI? Definition, erste Schritte

Ergänzungen zu Modul 1

Re: Ergänzungen zu Modul 1

Re: Ergänzungen zu Modul 1

Frage zur Eingabe bei ChatGPT

Modul 1 zum Nachhören

Re: Frage zur Eingabe bei ChatGPT

Modul 2: KI- barrierefrei - Anwendungen für Blinde und Sehbehinderte

Modul 2 - Linkliste: alles auf einen Blick

Praxis: Die wichtigsten Tastenkürzel für KI-Funktionen von JAWS (Sprechendes Bild KI)

Ergänzung: Be My Eyes für den PC

Praxis: Wie hat mir KI geholfen? Teilnahme an einem Quiz leicht gemacht

Re: KI verstehen und clever nutzen - Ergänzungen zu Modul 2 - Erfahrungen mit Scribe Me

Feedback zu Scribe Me -

Modul 3 - KI-Chatbots blind bedienen, Datenschutz, KI offline nutzen

Re: KI verstehen und clever nutzen - Fragen zu Modul 3

Re: KI verstehen und clever nutzen - Antworten zu Hawkeye's Fragen auf Modul 3

Modul 3 zum Nachhören

Modul 4 - Eigenen KI-Agenten erstellen ohne Programmieren

Gem in Gemini bauen - Dateien hochladen

Re: Gem in Gemini bauen - Dateien hochladen

Mein SightCity-Gem

Modul 5 – Kreativ mit KI: Musik, Stimmen, Audio, Bilder und Video