KI verstehen und clever nutzen

Beitrag von **Robbie Sandberg Site Admin** » 21.03.2026, 18:31

Dieser Thread Dient zum Austausch während unserer Seminarreihe "KI verstehen und clever nutzen" und darüber hinaus. Hier könnt ihr eure Erfahrungen und Fragen teilen.

Detaillierte Übersicht der Seminarinhalte:
Modul 1: Was ist KI? – Grundlagen & Überblick
Inhalte
• Was ist KI? Kurze Geschichte, Begriffe sortieren (ML, Deep Learning, LLM, etc.)
• Wie lernt eine KI? Datensätze, Training, Modelle – anschaulich erklärt
• Klassische Anwendungsfälle: Object Detection (“Was sieht die Kamera?”), Spracherkennung, Übersetzung
• Sprachmodelle (LLMs): Wie funktionieren ChatGPT & Co.? Was passiert, wenn ich etwas eintippe?
• Erste Schritte Prompting: Was ist ein Prompt? Warum ist die Formulierung wichtig? – Klarheit, Ziel, was soll die KI für mich tun?
• Chancen und Risiken der KI: Effizienz, Produktivität vs. Halluzinationen, Probleme
Praxis
• Gemeinsam einen Chatbot ausprobieren (ChatGPT, Gemini)
• Vergleich: gleiche Frage, verschiedene Formulierungen → unterschiedliche Ergebnisse
Takeaway
Grundverständnis: Was KI kann, was sie nicht kann, wie man mit ihr redet, wo Chancen und Risiken liegen.
Modul 2: KI-Tools für blinde und sehbehinderte Menschen
Inhalte
• Be My Eyes / Be My AI: Bildbeschreibung per KI – wie gut ist das wirklich? Wo liegen die großen Chancen für Blinde und was kann schiefgehen?
• Seeing AI / Envision / Google Lookout Vergleich der Apps; welche KI-Funktionen bieten sie? Unterschied zu Be My AI
• KI in Screenreadern: NVDA + Add-ons, JAWS, VoiceOver-Integration, TalkBack-Bildbeschreibung: kurze Einführung, Erfahrungen
• Dokumentenerkennung: klassische OCR vs. KI (z.B. handschriftliche Notizen, Briefe, Verpackungen)
• Mainstream KI-Tools als Hilfsmittel: Live-Erkennung in ChatGPT, Gemini oder Copilot
Praxis
• Vergleich: Foto mit 3 verschiedenen Apps beschreiben lassen
• Use-Case-Runde: Teilnehmende teilen ihre Erfahrungen & Lieblingstools
• Gemeinsam neue Szenarien durchsprechen
• Teilnehmende testen bis zum folgenden Termin und tauschen sich im offSight-Forum aus
Takeaway
Persönliche Tool-Empfehlung: Was passt zu meinem Alltag? Verständnis, was die Tools können und was nicht + wie sie arbeiten. Verständnis, wie man diese Tools mit KI-Wissen effektiver einsetzen kann.
Modul 3: KI-Chatbots bedienen + Datenschutz & Offline-KI
Inhalte
Chatbots blind bedienen - ChatGPT, Gemini, Copilot: Bedienbarkeit mit Screenreader (Web & App) - Welcher Chatbot funktioniert für wen am besten? Ehrlicher Vergleich. - Tastaturnavigation, APIs, alternative Interfaces wie BasiliskLLM - Tipps: Custom Instructions, Systemanweisungen, Memory, Voice Mode * Europäische Alternativenmit mehr Datenschutz: z. B. Mistral Le Chat
Datenschutz & Offline-KI - Was passiert mit meinen Daten? Cloud vs. lokal, Trainings-Opt-out - Offline-KI auf dem eigenen Rechner: Ja, das geht – auch ohne Programmierkenntnisse! - Ollama als Tool kurz vorgestellt: Hier können Technikbegeisterte ohne Programmierkenntnisse experimentieren - Demo: Lokales Modell installieren und nutzen (Schritt für Schritt) - Vor-/Nachteile: Geschwindigkeit, Qualität, Privatsphäre
Praxis
• Gemeinsam ein lokales Modell starten (wer mag)
• Chatbot-Vergleich: gleiche Aufgabe in ChatGPT, Mistral Le Chat, Gemini → Ergebnis vergleichen
Takeaway
Wissen, welcher Chatbot für einen funktioniert – und wie man KI auch offline nutzen kann. Wissen, wie die ChatBots Datenschutz handhaben (Opt-in, Opt.out) und was es mit Modelltraining auf sich hat. Grob wissen, was Custom Instructions und Memory sind.
Modul 4: Eigenen Chatbot bauen + Prompting-Meisterklasse
Inhalte
Prompting für Fortgeschrittene - Prompting-Techniken: Klarheit, Rollen, Kontext, Few-Shot, Chain-of-Thought - System-Prompts: Wie man einer KI eine Persönlichkeit gibt - Prompt-Bibliotheken: Vorlagen für wiederkehrende Aufgaben - Typische Fehler und wie man sie vermeidet – KI-Agenten und der Unterschied zu Chatbots
Eigenen Chatbot bauen - Custom GPTs (OpenAI) oder Gemini Gems: Schritt-für-Schritt-Anleitung - Praxisbeispiel 1: Alternativtext-Generator – Bilder beschreiben nach WCAG-Standards - Praxisbeispiel 2: Alltagstricks-Berater – ein Bot, der sich mit Blindenalltagstipps auskennt - Wissensdatenbank einbinden (Dateien hochladen, die der Bot kennen soll) - Testen, iterieren, verbessern
Praxis
• Wir bauen einen eigenen Mini-Chatbot (mit Anleitung)
• Jeder baut einen eigenen Mini-Chatbot (unterschiedliche Anwendungsfälle) im Nachgang; Austausch in der folgenden Session oder im offSight Forum
Takeaway
Ein eigener, funktionierender Chatbot – und das Know-how, weitere zu bauen.
Modul 5: Kreativ mit KI – Musik, Stimmen, Audio & Bilder
Inhalte
Musikgenerierung - Tools: Suno, Gemini - Musik aus Text erzeugen - Demo: Song erstellen mit eigenem Text (DBSV, Jugendclub, KI-Seminar o. anderes Thema) - Bedienbarkeit & Qualität
KI-Stimmen & Stimmklonen - Text-to-Speech: ElevenLabs, OpenAI TTS, Google Gemini TTS - Eigene Stimme klonen – und in anderen Sprachen sprechen lassen - Wichtiger Kontext: Ethik: Deepfakes, Consent, Kennzeichnung - Demo: Stimmklon live erstellen * Demo bei Interesse: Live-Simultanübersetzung im Google Meet ausprobieren
Audioschnitt & Nachbearbeitung - Auphonic: Automatisches Mastering für Podcasts & Aufnahmen - Bedienbarkeit mit Screenreader - Workflow: Aufnehmen → Auphonic → fertig
Bildgenerierung - Wie funktioniert Bilderstellung? - Klassischere KI-Tools: DALL-E, Midjourney, Stable Diffusion – Überblick - Sinnvolle Anwendungsfälle für blinde Menschen (z.B. Social Media) - Alt-Text für KI-generierte Bilder
Praxis
• Song erzeugen (Suno)
• Stimme klonen (ElevenLabs – wer mag)
• Audio nachbearbeiten (Auphonic)
Takeaway
Kreative KI-Tools kennen und einsetzen können. Spaß gehabt.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 08.04.2026, 17:40

Willkommen zum Workshop "KI verstehen und clever nutzen"
Ich bin Ben und werde den Workshop leiten.
Heute, am 08.04.2026, starten wir mit dem Workshop.
Wie in Robbie's Beitrag beschrieben, besteht der Workshop aus fünf Modulen.
Da sehr viele Teilnehmer angemeldet sind, wird der Austausch hauptsächlich im Forum bzw. im Chat in der Zoom-Konferenz stattfinden.

Für alle Teilnehmenden und alle, die sonst noch mitlesen: Der Thread hier im Forum wird eine Sammlung aller Handouts inkl. Diskussion unf Fragen sein.
Er dient also als zentrale Anlaufstelle für alle Infos, Fragen und Kommentare.
Ich werde zu jedem der Module einen ausführlichen Post veröffentlichen.
Die Posts erkennt ihr an der Überschrift "Modul 1, Modul 2", etc.

Eine Bitte: Nutzt am besten den Chat in der Zoom-Konferenz (während des Workshops) und das Forum nachher für Fragen. Wir werden aufgrund der hohen Teilnehmerzahl währnd der Konferenz vielleicht nicht auf alle Fragen eingehen können.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 08.04.2026, 17:54

Modul 1 – Was ist KI? Grundlagen & Überblick

Willkommen zum ersten Modul unseres KI-Workshops! Bevor wir in den nächsten Wochen richtig einsteigen, klären wir erstmal die Basics: Was ist KI eigentlich, wie funktioniert sie?
Was kann sie wirklich? Und was nicht?

Was ist Künstliche Intelligenz?

Künstliche Intelligenz (KI) ist ein Überbegriff für Software, die Aufgaben erledigt, für die man normalerweise menschliches Denken braucht: Sprache verstehen, Bilder erkennen, Texte schreiben, Entscheidungen treffen.

Wichtig: KI "denkt" nicht wie wir. Sie erkennt Muster in riesigen Datenmengen und wendet diese Muster an.

Das Ganze passiert oft anhand von Wahrscheinlichkeiten bzw. Vorhersagen.

Damit das funktioniert, braucht man zwei Dinge: große Mengen an Daten und leistungsstarke Rechner, auf denen die KI trainiert wird. Diesen Vorgang nennt man Training: Die KI bekommt Beispiele gezeigt und lernt daraus selbstständig Muster zu erkennen.

Ein anschauliches Beispiel: Man zeigt der KI tausende Bilder von Hunden – aus verschiedenen Blickwinkeln, bei unterschiedlichem Licht, mit Schatten. Irgendwann erkennt sie auf jedem neuen Bild zuverlässig, ob ein Hund zu sehen ist. Dabei ist die Qualität der Daten entscheidend: Wenn man der KI nie Bilder von anderen Vierbeinern wie Katzen zeigt, hält sie am Ende womöglich auch eine Katze für einen Hund.

Ein paar Begriffe, die man einordnen sollte:

Machine Learning (ML): Die KI lernt selbst aus Daten, statt fest programmiert zu werden.
Deep Learning: Eine spezielle Form von ML mit vielen Schichten – sogenannten neuronalen Netzen. Die sind vom menschlichen Gehirn inspiriert: Viele kleine Einheiten (Neuronen) sind miteinander verbunden und verarbeiten Informationen in mehreren Schichten. Je mehr Schichten, desto komplexere Zusammenhänge kann das Netz lernen. Deep Learning ist besonders stark bei Bildern und Sprache.
Large Language Models (LLMs): Sprachmodelle wie ChatGPT oder Gemini. Sie wurden mit gigantischen Textmengen trainiert und können Texte verstehen und erzeugen.

Wie lernt eine KI?

Stark vereinfacht:

Man füttert die KI mit riesigen Datenmengen (Texte, Bilder, Audiodaten).
Die KI erkennt darin Muster und Zusammenhänge.
Nach dem Training kann sie dieses Wissen auf neue Eingaben anwenden.

Beispiel: Ein Sprachmodell hat Milliarden von Sätzen gelesen. Wenn du ihm eine Frage stellst, sagt es das wahrscheinlichste nächste Wort voraus. Das passiert immer und immer wieder. So entstehen ganze Antworten.

Klassische Anwendungsfälle

KI begegnet uns überall, auch wenn wir es nicht immer merken:

Bilderkennung: "Was sieht die Kamera?" – Objekte, Personen, Szenen erkennen. Genau das machen auch Apps wie Be My Eyes oder Seeing AI.
Spracherkennung: Sprache in Text umwandeln – z. B. Siri, Google Assistant oder jede andere Diktierfunktion.
Übersetzung: DeepL, Google Translate – alles KI-basiert.
Textgenerierung: ChatGPT, Gemini, Claude, Copilot – Chatbots, die auf Fragen antworten, Texte schreiben, zusammenfassen, übersetzen.

Übrigens: Viele KI-Anwendungen nutzen wir schon seit Jahren, ohne groß darüber nachzudenken:

Empfehlungssysteme: Wenn Amazon dir Produkte vorschlägt oder Netflix Serien empfiehlt – dahinter steckt KI, die dein Verhalten analysiert und vorhersagt, was dich interessieren könnte.
Textvervollständigung: Wenn dein Handy beim Tippen das nächste Wort vorschlägt, ist das ein kleines Sprachmodell, das Wahrscheinlichkeiten berechnet.
Wettervorhersagen: Auch hier kommt zunehmend KI zum Einsatz, um aus riesigen Datenmengen bessere Vorhersagen zu berechnen.

Der KI-Hype: Wie kam es zu Sprachmodellen?

KI-Forschung gibt es seit den 1950er-Jahren, aber lange war sie eher ein Nischenthema. Der große Durchbruch für die breite Öffentlichkeit kam Ende November 2022, als OpenAI ChatGPT veröffentlichte. Plötzlich konnte jeder mit einer KI chatten, die erstaunlich flüssig und hilfreich antwortete – und das kostenlos im Browser.

Innerhalb weniger Tage nutzten Millionen Menschen ChatGPT. Google zog mit Bard nach, das später dann zu Gemini nach, Anthropic brachte Claude heraus, und Meta veröffentlichte offene Modelle und die Meta AI, die wir auch auf den Ray-Ban Meta haben.
Seitdem entwickelt sich das Feld rasant weiter: Die Modelle werden besser, schneller und vielseitiger.
Wir sehen Live-Interaktion mit KI, KI-Agenten, die ganze Aufgaben ausführen etc. - alles basierend auf den Large Language Models.

Sprachmodelle: Wie funktioniert ChatGPT & Co.?

Wenn du ChatGPT etwas schreibst, passiert Folgendes:

Dein Text (der "Prompt") wird in Zahlen umgewandelt, die das Modell verarbeiten kann.
Das Modell berechnet, welche Antwort am wahrscheinlichsten passt.
Es gibt die Antwort Stück für Stück aus.

Kleiner aber wichtiger Hinweis: Das Modell arbeitet intern nicht mit ganzen Wörtern, sondern mit sogenannten Tokens. Ein Token kann ein Wort sein, aber auch nur ein Wortteil oder ein Satzzeichen. Das Wort "Barrierefreiheit" besteht z. B. aus mehreren Tokens. Deshalb ist "Token" nicht dasselbe wie "Wort" – ein Unterschied, der bei Preisen und Limits von KI-Diensten relevant wird.

KI und Kontext
Das Modell hat kein echtes Wissen und nativ keinen Internetzugang. Es arbeitet mit dem, was es im Training gelernt hat. Solche Modelle haben quasi das ganze Internet gelesen und sind auf einem bestimmten Stand eingefroren.
Beispiel: Die Frage "Wer ist der deutsche Bundeskanzler?" beantwortet ein reines Modell falsch, wenn es nicht aktuell ist, wenn also seine Trainingsdaten seit 2023 nicht mehr aktualisiert wurden.
2023 war Olaf Scholz Bundeskanzler, was damals im Internet (News-Artikel, offizielle Infos der Regierung, Blogs, Zeitungen) auftauchte. Das ist, was das Modell weiß.

Das gilt auch für Fragen nach dem aktuellen Datum, der Zeit oder dem Wetter.

Die Chatbots, die wir nutzen (ChatGPT, Gemini) haben daher die Internetsuche und andere Tools schon integriert: Sie wissen, wenn sie ein Tool nutzen müssen, suchen also z. B. im Internet, wenn du nach dem Wetter fragst.
Das nennt sich dann Kontext. Und es macht KI erst richtig nützlich.
Kontext kann übrigens auch eine Datei sein, wie ein PDF, PowerPoint, etc. das du im ChatGPT-Interface hochlädst oder irgendwie anders der KI zur Verfügung stellst.

Das ganze geht auch noch weiter: ChatGPT hat z. B. eine Kooperation mit Komoot, Gemini sucht automatisch bei Google Maps usw.

Erste Schritte: Was ist ein Prompt?

Ein Prompt ist einfach das, was du der KI schreibst oder sagst. Die Qualität deiner Eingabe bestimmt die Qualität der Antwort. Ein paar Grundregeln:

Sei klar: Was genau soll die KI tun? Was willst du erreichen?
Gib Kontext: Wofür brauchst du das Ergebnis?
Definiere das Ziel: Soll die Antwort kurz, ausführlich, in Stichpunkten, in Gedichtform sein? In welchem Stil?

Beispiel: Statt "Erkläre KI" besser: "Erkläre mir in 5 einfachen Sätzen, was Künstliche Intelligenz ist. Ich habe keine technischen Vorkenntnisse."

Wo sind die Grenzen?

Sprachmodelle wissen nur das, was in ihren Trainingsdaten steckt – und das Training hat irgendwann einen Stichtag. Danach passierte Dinge kennen sie nicht. Deshalb sind Fragen nach dem aktuellen Wetter, der Uhrzeit, dem heutigen Datum oder aktuellen Nachrichten für ein reines Sprachmodell eine echte Herausforderung bis unmöglich.

Genau deshalb können moderne KI-Assistenten wie ChatGPT oder Gemini inzwischen Tools nutzen: Sie erkennen, dass sie für bestimmte Aufgaben Hilfe brauchen, und greifen dann z. B. auf eine Suchmaschine, einen Taschenrechner oder eine Wetter-API zu. Die KI weiß also: "Das kann ich nicht allein – ich brauche ein Werkzeug dafür."

Dieses Prinzip macht auch Dienste wie Perplexity so beliebt: Perplexity kombiniert ein Sprachmodell mit einer Live-Internetsuche und gibt Antworten mit Quellenangaben. So bekommt man aktuelle Informationen, ohne selbst verschiedene Websites durchforsten zu müssen.

Chancen und Risiken

Chancen:

Mehr Effizienz und Produktivität im Alltag
Neue Möglichkeiten der Barrierefreiheit (Bildbeschreibung, Sprachsteuerung, Live-Erkennung, Umwandlung von Texten in leichte Sprache, Videobeschreibung, automatische Untertitelung für Gehörlose)
Zugang zu Informationen, die vorher schwer erreichbar waren
KI hilft Menschen, ihre Ideen umzusetzen: Ob Musik generieren, Texte schreiben oder mit KI Software entwickeln – der Mensch gibt die Idee möglichst präzise vor, die KI ist gut darin, sie wirklich umzusetzen. Das spart oft so viel Zeit, dass Projekte überhaupt erst möglich werden.

Risiken:

Halluzinationen: KI erfindet manchmal Dinge, die sich plausibel anhören, aber falsch sind. Immer kritisch prüfen!
Voreingenommenheit (Bias): KI spiegelt die Daten wider, mit denen sie trainiert wurde – inklusive Fehlern und Vorurteilen. Das können Vorurteile sein, die sowieso in der Gesellschaft existieren, aber auch solche, die aus dem politischen System stammen, in dem das Modell entstanden ist. Ein Beispiel: Das chinesische Sprachmodell DeepSeek weicht bei politisch sensiblen Themen wie Taiwan oder dem Tiananmen-Platz erkennbar aus oder gibt die offizielle Linie der chinesischen Regierung wieder.
Datenschutz: Was du in einen Chatbot eingibst, kann gespeichert und verarbeitet werden. Dazu mehr in Modul 3.
Umwelt: Das Training und der Betrieb von KI-Modellen verbrauchen enorme Mengen an Energie und Wasser. KI ist aktuell nicht ressourcenschonend.
Soziale Folgen: Mit KI lassen sich sogenannte Deepfakes erzeugen – täuschend echte, aber gefälschte Bilder, Videos oder Audiodateien von realen Personen. Darauf kommen wir später noch genauer zu sprechen. Außerdem besteht die Gefahr, dass Menschen eine emotionale Bindung zu KI-Chatbots aufbauen und sie als "Freund" oder Vertrauensperson sehen – obwohl hinter den Antworten kein echtes Verständnis oder Mitgefühl steckt.

Zum Ausprobieren bis nächste Woche

Für Anfänger

Öffne ChatGPT (https://chat.openai.com) oder Google Gemini (https://gemini.google.com) und stelle eine Frage.
Probiere verschiedene Formulierungen für die gleiche Frage aus. Merkst du Unterschiede in den Antworten?
Bring die KI dazu, dir die Antwort in verschiedenen Stilen auszugeben: Als Fließtext, in Stichpunkten, in einfacher Sprache.
Lass dir etwas erklären, das du schon gut kennst – und prüfe, ob die KI Fehler macht.

Für Fortgeschrittene / Profis:

Probiere verschiedene Chatbots aus: ChatGPT, Gemini, Claude, Mistral und schau, welcher sich für dich am besten bedienen lässt.
Probiere Tools wie Internetsuche aus.
Probiere spezielle KI-Suchmaschinen aus: Perplexity oder Google KI-Suche
Alternativtexte generieren:
- Ich habe in ChatGPT einen Alternativtext Generator gebaut: https://t1p.de/alttext
- Lade ein Bild hoch und sende es ohne weitere Eingabe an ChatGPT.
- Du erhältst eine lange und eine kurze Beschreibung.
- Jetzt öffne ein neues Fenster in ChatGPT: https://chatgpt.com
- Lade exakt dasselbe Bild hoch.
- Jetzt bring ChatGPT durch deine Eingabe (Prompting) dazu, dass sich die Beschreibung des Bildes mit der aus dem Alternativtext Generator möglichst ähnlich ist: Aufbau, Stil, Ausführlichkeit der Beschreibung.

Das sind nur Vorschläge. Und natürlich nutzt keiner alle diese Tools. Wir haben alle unsere Favoriten, die wir immer wieder nutzen. Nehmt euch einfach ein paar der Punkte heraus und testet.

Austausch gerne hier im Thread – was hat euch überrascht, was hat gut funktioniert, was nicht?

Hawkeye · Beitrag von **Hawkeye** » 11.04.2026, 15:49

Hallo Zusammen,

vielen Dank Benjamin für deinen super Vortrag.

Ich möchte ein paar Dinge ergänzen, damit die Diskussion im Forum hoffentlich bald Fahrt aufnimmt.

Zunächst zum Thema, was KI eigentlich ist:

Es gibt unterschiedliche Definitionen und die Bundesregierung vertritt in Ihrer „KI Strategie“ folgende Position. Dort heißt es:

[…]Sehr abstrakt ordnen sich KI-Forscher zwei Richtungen zu: der „schwachen“ und der „starken“ KI. Die „starke“ KI formuliert, dass KI-Systeme die gleichen intellektuellen Fertigkeiten wie der Mensch haben oder ihn darin sogar übertreffen können. Die „schwache“ KI ist fokussiert auf die Lösung konkreter Anwendungsprobleme auf Basis der Methoden aus der Mathematik und Informatik, wobei die entwickelten Systeme zur Selbstoptimierung fähig sind. Dazu werden auch Aspekte menschlicher Intelligenz nachgebildet und formal beschrieben bzw. Systeme zur Simulation und Unterstützung menschlichen Denkens konstruiert.

Die Bundesregierung orientiert sich bei ihrer Strategie an der Nutzung der KI für die Lösung von Anwendungsproblemen und damit an den Positionen der „schwachen“ KI“.

]

Mit „Aspekte menschlicher Intelligenz nachgebildet“ sind u.a. Neuronale Netze gemeint, die Benjamin angesprochen hat. Die Unterscheidung in „schwache KI“ und „starke KI“ macht noch einmal den Unterschied im Denken deutlich. Aktuell haben wir es mit „schwacher KI“ zu tun.

Ferner möchte ich mich zum Thema Risiken von KI äußern. Was mir fehlt unter der Aufzählung der Risiken ist die Auswirkung von KI auf die Arbeitswelt. Wenn die KI zukünftig Jobs übernimmt, die bislang von Menschen übernommen wurden, dann hat das auch soziale Folgen. Telefonisten, Call Center Agents, Jobs, die in der Vergangenheit oft von Blinden und Sehbehinderten Menschen ausgeübt wurden, stehen zur Disposition. Vor kurzen hat Matt Shumer, ein amerikanischer Unternehmer eine Kontroverse ausgelöst. (vgl : https://www.tagesschau.de/wirtschaft/te ... t-100.html).

Die Zeit wird zeigen, ob Matt Shumer mit seiner düsteren Prognose recht hat oder nicht.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 12.04.2026, 21:48

Super Ergänzungen zu dem, was ich gesagt habe!

Man könnte es auch so formulieren: Bei den besten, aktuellen KI-Systemen handelt es sich um "sehr starke, schwache KI". Was ich damit meine: Mathematisch gesehen sind wir hier immer noch bei schwacher KI. Starke KI existiert bis dato nicht.
Sie denkt nicht wie wir. Das menschliche Denken wird maximal nachgebildet, z. B. mit neuronalen Netzen.
Sehr stark ist sie deshalb, weil diese KI schon jetzt ein mächtiges Werkzeug ist.
Wir können damit viele Probleme lösen bzw. sie kann uns beid er Lösung dieser Probleme massiv unterstützen.
Deshalb auch die Gefahr der Übernahme von Jobs: Danke für die Ergänzung auch dazu.

Hawkeye · Beitrag von **Hawkeye** » 12.04.2026, 23:07

Hallo Benjamin,

vielen Dank für deine Antwort.

vielleicht noch eine kleine historische Ergänzung:

Vor 30 Jahren kam es zu einen Denkwürdigen Schachduell zwischen Garri Kasparov, dem damaligen Schachweltmeister und dem Computer Deep Blue. Der eine oder andere wird sich noch daran erinnern. Hier ein „Kalenderblatt zum legendären Duell- Mensch gegen Maschine.

Das Duell Mensch gegen Maschine hat seit jeher fasziniert und wurde in zahlreichen Science-Fiction Romanen und Filmen thematisiert. Das Roboter die Weltherrschaft an sich reißen, davon sind wir noch ein Stück entfernt. Trotzdem , wie das Beispiel Schach zeigt, kann die KI dem Menschen überlegen sein. Damals im Jahr 1996 war die KI noch nicht so ausgetüftelt wie heute. Der Computer arbeitete nicht mit neuronalen Netzen. Das kam im Schach mit Alpha Zero. Möglicherweise muss die KI nicht „stark“ werden. Eventuell reicht schon eine schwache KI damit wir uns als Menschheit selbst ausrotten.

Der Streit zwischen dem Pentagon und der Firma Anthropic(https://www.tagesschau.de/wirtschaft/di ... t-100.html) wirft jedenfalls ethische Fragen auf und kann einen schon Angst machen.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 15.04.2026, 17:41

Modul 2 – KI barrierefrei: Anwendungen für blinde und sehbehinderte Menschen

Willkommen zu Modul 2.
In diesem Modul schauen wir uns konkrete KI-Werkzeuge an, die uns im Alltag helfen. Von Bildbeschreibung über Dokumentenerkennung bis hin zu Brillen, die die Umgebung in Echtzeit beschreiben. Was gibt es, was taugt und was passt zu wem?

KI hilft bei der Barrierefreiheit

KI hilft nicht nur uns als Blinde oder Sehbehinderte.
Wir schauen uns kurz an, wo sie ganz allgemein zum Einsatz kommt, um die Zugänglichkeit zu verbessern:

Leichte bzw. einfache Sprache: KI-Anwendungen wie ChatGPT können Texte umwandeln.
Transkription: hilfreich für alle, besonders hilfreich für Menschen mit Hörbehinderung.
Objekterkennung: hilfreich für uns. Wir hatten das Beispiel im letzten Modul.
Sprachausgaben: die allermeisten Stimmen heute sind per KI erzeugt.
Gebärdensprache: Googles Signgemma (eher eine Nische und nur amerikanische Gebärdensprache, aber im Kommen).
und viele mehr.

Sprachausgaben

Ein schönes Beispiel, wie KI trainiert wird und zum Einsatz kommt, sind Sprachausgaben.
Um eine Stimme zu trainieren, werden Daten gesammelt: Ein Sprecher spricht hunderte, besser tausende Sätze ein. Die Sätze werden einzeln als Audiodatei (WAV) gespeichert. Eine Textdatei gibt an, welche Datei welchen Satz enthält:

"audio1 | Heute ist Mittwoch;
audio2 | Wie funktioniert KI?"

Die Audio-Dateien und die Textdatei übergeben wir an ein System, das daraus ein KI-Modell trainiert. Die nötige Rechenleistung "leihen" wir uns von Computern im Internet. Fertig ist unsere Stimme.

KI-Anwendungen für unseren Alltag

Be My Eyes / Be My AI

Be My Eyes kennen viele als App, über die man freiwillige Helfer per Videoanruf erreicht. Seit 2023 gibt es dazu Be My AI: eine KI-Bildbeschreibung, die Fotos detailliert und oft erstaunlich gut beschreibt.

Foto machen, KI beschreibt das Bild in natürlicher Sprache.
Funktioniert ohne menschlichen Helfer, rund um die Uhr.
Besonders gut bei: Szenen beschreiben, Produkte erkennen, beschreiben was um einen herum passiert.
Grenzen: Manchmal zu ausführlich, manchmal interpretiert die KI etwas falsch, manchmal wird Text "halluziniert". Kritisch bleiben.
Folge-Fragen stellen: Es gibt einen Schalter "Weitere Fragen", nachdem man ein Foto mit Be My Eyes gemacht hat. Hier kann man eine Frage stellen oder eine Anweisung für die KI eintippen oder per Siri diktieren.

Seeing AI, Envision & Google Lookout

Es gibt mehrere Apps, die KI für verschiedene Aufgaben nutzen:

Seeing AI (Microsoft): Kostenfrei, viele Funktionen (Texterkennung, Szenen, Personen, Farben, Licht). Auf iOS und Android verfügbar.
Envision: Umfangreich, kann Texte, Szenen und Dokumente erkennen. Gibt es als App und als smarte Brille (Envision Glasses). iOS und Android.
Google Lookout: Android-basiert. Texterkennung, Objekterkennung, Szenen. Starke Objekterkennung, fast in Echtzeit.

Alle diese Apps nutzen KI. Der Unterschied liegt in der Bedienbarkeit, den Funktionen und der Qualität der Beschreibungen. Tipp: Einfach das gleiche Foto mit verschiedenen Apps beschreiben lassen und vergleichen.

KI in Screenreadern

KI kommt inzwischen auch direkt in Screenreader:

NVDA: NVDA ist ein großartiger Screenreader. Über Add-ons wie "AI Content Describer" oder "Vision Assistant Pro" können Bildbeschreibungen und mehr direkt per Tastendruck ausgelöst werden – mitten in der normalen Arbeit am PC. Es ist meist ein API-Schlüssel zur Nutzung der KI nötig. Die Einrichtung ist daher etwas komplizierter, jedoch auch für alle Nutzer machbar. Eine ausführliche Beschreibung und Podcast zu einer dieser Erweiterungen findet man im Beitrag "NVDA nachhaltig" im offSight-Forum.
JAWS: Hat inzwischen eine eingebaute KI-Bildbeschreibung (Sprechendes Bild), eine Positionserkennung des Gesichts in der Videokamera, einen KI-Grafikbezeichner und man kann per KI Seiten zusammenfassen lassen (Schneller Überblick). Tastenkürzel: JAWS+G, JAWS+Leertaste, P und dann eine jeweilige Taste (Hilfe mit H).
VoiceOver (Apple): KI wird hier für viele Funktionen genutzt (Bilder beschreiben, Lupe, Objekterkennung, Texterkennung), Grafikbezeichner, Texte in unzugänglichen Apps lesen, Bildschirmerkennung.
TalkBack (Android): Google hat eine Bildbeschreibungsfunktion für das aktuelle Element und den gesamten Bildschirm integriert, man kann auch Fragen stellen.
SuperNova (Windows): Auch hier wird KI zur Beschreibung und für kontextbezogene Hilfe genutzt.

Das Spannende: Man muss die App nicht mehr extra öffnen – die KI ist dort, wo man gerade arbeitet.

Nahe Zukunft: KI, die mit der Maus klickt
Besonders gut für unbedienbare Apps und Webseiten

Wie wir wissen, kann KI Bilder analysieren.
Das klappt besonders gut mit Screenshots.
Ein Schritt weiter: KI bekommt eine Aufgabe, analysiert Screenshots, klickt mit der Maus oder bedient die Tastatur.
Beispiel: "Wähle die Option aus, klicke auf Weiter und beschreib mir den nächsten Bildschirm".
Die Windows-App "Guide" setzt das schon um.
Claude Desktop kommt bzw. ist auf dem Mac schon verfügbar.

Dokumentenerkennung: OCR vs. KI

Klassische OCR (Optical Character Recognition) erkennt gedruckten Text zeilenweise. Das funktioniert bei sauberen Dokumenten gut, scheitert aber oft bei:

Handschrift
Schlechter Bildqualität
Komplexen Layouts (Tabellen, Formulare)
Hochglanzpapier wie Flyern
Mehrspaltigem Text (Zeitschriften, Zeitungen)

KI-basierte Erkennung geht weiter: Sie versteht den Kontext, kann Handschrift entziffern, Beschriftungen auf Verpackungen lesen und den Inhalt zusammenfassen. Apps wie Be My AI oder Envision nutzen genau das.

Die Gefahr sind Halluzinationen. Während klassische OCR einfach Fehler gemacht hat (Buchstabensalat), neigt KI dazu, Fehlendes zu ergänzen. Wir erinnern uns: KI gibt die wahrscheinlichste Antwort.
Das lässt sich reduzieren: Wir weisen die KI an, Unlesbares zu überspringen oder einen Hinweis zu geben. Und wir mischen klassische OCR-Erkennung mit KI.

KI in Spezialhilfsmitteln für Blinde

Es gibt viele Hilfsmittel, die KI nutzen:

Stellar Trek von HumanWare: Erkennung von Türen, Ampeln, Überwegen, Text.
Vorlesesysteme: Bildbeschreibung, Antworten auf Fragen zum gescannten Text.
Brillen für Sehbehinderte (BIEL Glasses): nutzen spezielle KI-Modelle, die das Bild an die jeweilige Sehschwäche anpassen.
OrCam MyEye: Kleine Brillenkamera. Erkennt Texte, Farben, Geldscheine, Gesichter und enthält in der aktuellsten Version eine KI-Beschreibung (online).
Envision Glasses: Basiert auf der Google Glass. Erkennt Texte, Farben, Szenen, Geldscheine und Objekte. Hinweis: Das Produkt läuft aus, da Google Glass 2 nicht mehr produziert wird.

Mainstream-KI als Hilfsmittel

Die großen Chatbots (ChatGPT, Gemini, Copilot) haben inzwischen Live-Erkennung:

Handy-Kamera öffnen, Chatbot schauen lassen, Fragen stellen.
ChatGPT und Gemini haben einen Voice Mode: Man kann direkt sprechen und die KI beschreibt, was die Kamera sieht.
Vorteil: Echtzeit-Bildbeschreibung im Gespräch.
Nachteil: Keine richtige, proaktive Live-Interaktion. Sie antworten nur auf konkrete Fragen.
Was (noch) nicht geht: "Sag mir Bescheid, wenn du eine Bank siehst".

Die Ray-Ban Meta Brille

Meta hat eine smarte Brille in Kooperation mit Ray-Ban veröffentlicht.
Wir nutzen sie für die Umgebung: "Hey Meta, lies das Schild" - "Hey Meta, beschreib mir den Kalender an der Wand".
Achtung: Auf Datenschutz achten, besonders bei sensibler Post!

Echte Live-Erkennung - oOrion, ScribeMe

Es gibt Apps, die eine reaktive Beschreibung simulieren:

oOrion: "Sag mir, wenn du den Eingang zum Laden siehst". Man gibt eine Aufgabe und die KI "sucht" danach.
ScribeMe: KI beschreibt allgemein, was sie sieht, und man kann sie im Dialog steuern. Ermöglicht auch (fast) Live-Audiodeskription für Videos durch Bildschirmfreigabe.

Zum Ausprobieren bis nächste Woche

Mach ein Foto und beschreibe es mit mindestens 2 verschiedenen Apps.
Übe die Kameraposition: Wie hältst du eine Dose am besten? Frage die KI (Gemini Live/ScribeMe) nach Feedback zur Bildqualität.
Vergleiche ChatGPT/Gemini Live mit Be My AI oder Lookout.
Probiere oOrion oder ScribeMe im Live-Modus.
Teile hier im Thread: Welches Tool hat dich am meisten überzeugt? Welches hat versagt?

Was sind eure Lieblingstools? Habt ihr Erfahrungen, die ihr teilen wollt? Rein damit in den Thread!

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 16.04.2026, 21:32

Hier findet ihr alle Apps, Dienste, Screenreader-Erweiterungen und weiterführenden Links aus Modul 2.

KI-Apps zur Bildbeschreibung und Szenenerkennung

Be My Eyes / Be My AI – Bildbeschreibung per KI, rund um die Uhr, ohne menschlichen Helfer. Auch mit freiwilligen Helfern per Videoanruf. iOS und Android, kostenlos.
iOS: https://apps.apple.com/app/be-my-eyes/id905177575
Android: https://play.google.com/store/apps/deta ... s.bemyeyes
Seeing AI (Microsoft) – Texterkennung, Szenen, Personen, Farben, Licht. iOS und Android, kostenlos.
iOS: https://apps.apple.com/app/seeing-ai/id999062298
Android: https://play.google.com/store/apps/deta ... t.seeingai
Envision – Texte, Szenen, Dokumente erkennen. Als App und als smarte Brille. iOS und Android.
https://www.letsenvision.com/
Google Lookout – Texterkennung, Objekterkennung, Szenen in Echtzeit. Nur Android.
https://play.google.com/store/apps/deta ... ity.reveal

Live-Erkennung und Echtzeit-Beschreibung

oOrion – Stell eine Frage und lass sie dir kontinuierlich beantworten. Objekte finden, Texte lesen, Umgebung beschreiben. Auch auf der Ray-Ban Meta Brille (Testphase). iOS.
https://www.oorion.fr/
ScribeMe – Live-Erkennung, Dokumentenerkennung, Bildschirm teilen für (fast) Live-Audiodeskription. iOS und Android.
iOS: https://apps.apple.com/us/app/scribeme/id6739640292
Android: https://play.google.com/store/apps/deta ... y.subcribe

KI in Screenreadern

NVDA – Kostenloser Open-Source-Screenreader für Windows. Über Add-ons erweiterbar.
https://www.nvaccess.org/download
AI Content Describer (NVDA-Add-on) – KI-Bildbeschreibung per Tastendruck direkt im Screenreader.
https://addonstore.nvaccess.org/
Vision Assistant Pro (NVDA-Add-on) – KI-Assistent für NVDA mit Bildbeschreibung, Übersetzung, Diktat und Dokumentenanalyse. Kostenlos, benötigt eigenen API-Schlüssel.
https://github.com/mahmoodhozhabri/VisionAssistantPro
JAWS (Freedom Scientific) – eingebaute KI-Bildbeschreibung mit der Funktion "sprechendes Bild KI" (JAWS+Leertaste,. P, Enter), Grafikbezeichner und Seitenzusammenfassung. https://fscompanion.ai - hier ist es möglich, Fragen zu Tastenkürzeln, Funktionen etc. zu stellen

Chatbots mit Kamera und Live-Erkennung

ChatGPT (OpenAI) – Chatbot mit Kamera-Funktion und Voice Mode für Live-Beschreibung.
https://chatgpt.com/
Google Gemini – Chatbot mit Kamera und Gemini Live für Gespräche über das, was die Kamera sieht.
https://gemini.google.com/
Microsoft Copilot – KI-Assistent mit Kamera-Funktion.
https://copilot.microsoft.com/

KI-Brillen und Spezialhilfsmittel

Ray-Ban Meta Brille – Smarte Brille von Meta. Umgebung beschreiben, Texte lesen, Fragen stellen per Sprachbefehl.
https://www.meta.com/smart-glasses/
Envision Glasses – Brille auf Basis der Google Glass. Texte, Farben, Szenen, Geldscheine, KI-Sprachassistent. (Produkt läuft aus.)
https://www.letsenvision.com/glasses
OrCam MyEye – Kleine Brillenkamera. Erkennt Texte, Farben, Geldscheine, Produkte, Gesichter. Neüste Version mit KI-Beschreibung.
https://www.orcam.de/
BIEL Glasses – Brille für Sehbehinderte mit KI-Modellen, die das Bild an die jeweilige Sehschwäche anpassen.
https://bielglasses.com/
Stellar Trek (HumanWare) – KI-gestütztes GPS- und Vorlesegerät. Erkennung von Türen, Ampeln, überwegen, Text.
https://deutscherhilfsmittelvertrieb.de ... tellartrek
BlindShell Classic 3 – Barrierefreies Tastenhandy mit KI-Assistentin Luna und Bildbeschreibung (Observo).
https://www.blindshell.de/eshop/blindshell-classic-3

Computersteürung durch KI

Guide – Windows-App: KI analysiert Screenshots und klickt mit der Maus. Macht unbedienbare Apps zugänglich. Achtung: nur englischsprachig und kostenpflichtig!
https://www.guideinteraction.com/

Podcasts und Artikel zum Vertiefen

NVDA nachhaltig – Podcast zu NVDA-Erweiterungen und KI-Bildbeschreibung (deutsch)
Beitrag und Podcast-Folgen im offSight-Forum:
viewtopic.php?f=13&p=555
Ausführliche Podcast-Folge zum Thema NVDA und KI-Add-ons "Vision Assistant Pro":
https://nvda-hawaii.podigee.io/1-ki-assistent-pro
SightViews – BlindShell Classic 3: Wie viel Smartphone steckt im Tastenhandy? (deutsch)
https://www.sightviews.de/321-blindshelltest
SightViews – Stellar Trek von HumanWare (deutsch)
https://www.sightviews.de/239-neü-episode
Double Tap – Oorion: Locate Things More Easily (englisch – Hinweis: englischsprachiger Podcast)
https://doubletaponair.com/oorion-locat ... re-easily/
Double Tap – oOrion und ScribeMe: Praxiserfahrungen mit Smart Glasses (englisch – Hinweis: englischsprachiger Podcast)
https://doubletaponair.com/oorion-and-s ... d-users-2/
Artikel: TTS mit eigener Stimme – Piper-Stimme trainieren (deutsch)
Ausführliche Anleitung, wie man mit dem Open-Source-System Piper eine eigene KI-Stimme trainiert: Sätze einsprechen, Audiodateien und Textdatei vorbereiten, Modell trainieren.
https://blog.meister-security.de/tts-mi ... er-stimme/

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 17.04.2026, 08:15

Am Mittwoch hat jemand im Chat nach Tastenkürzel für die JAWS KI gefragt. Während Robbie schon recherchiert hat, wie man die Gesichtspositionierung für Video-Meetings aufruft, reiche ich hier nochmal einige interessante Kürzel nach.
Wie schon erwähnt: Ihr könnt mit dem FSCompanion chatten und ihm einfach Fragen nach Tastenkürzel und der Funktionsweise von JAWS stellen: https://fscompanion.ai

Tastenkürzel:
Gesicht im Blick (für Video-Meetings):

JAWS+Leertaste, F, O: Schaltet Gesicht im Blick ein und aus. Muss vor dem Meeting passieren, da die Funktion die Kamera benötigt.
JAWS+Leertaste, F, D: Gibt eine detailierte Beschreibung.
JAWS+Leertaste, F, L: Helligkeitsstufe abfragen.
JAWS+Leertaste, F, P: Hintergrund beschreiben lassen.

Sprechendes Bild KI (picturesmart) - Beschreibungen abrufen:

JAWS+G: Grafikbezeichner. Beschriftet die aktuelle Grafik im Internet, wenn sie nicht beschriftet ist.
JAWS+Leertaste, P, EINGABE: Beschreibt das aktuelle Element im Kontext, z. B. in Powerpoint die aktuelle Folie, im Explorer die aktuelle Datei, im Internet das aktuell ausgewählte Element usw.
JAWS+Leertaste, P, F: Beschreibt die aktuell im Windows Explorer gewählte Bilddatei.
JAWS+Leertaste, P, C: Beschreibt das aktuell ausgewählte Steuerelement (z. B. ein Bild in Word oder auf einer Webseite).
JAWS+Leertaste, P, S: Beschreibt den gesamten Bildschirm.
JAWS+Leertaste, P, W: Beschreibt das aktuelle Anwendungsfenster, das gerade geöffnet ist.
JAWS+Leertaste, P, A: Öffnet das Dialogfenster, um ein Bild von Scanner oder Kamera aufzunehmen und zu beschreiben.

carina · Beitrag von **carina** » 17.04.2026, 18:27

Hallo zusammen,

danke Ben für die ausführlichen Infos, die du hier für uns zusammenstellst.
Ich möchte noch ergänzen, dass es Be My Eyes auch für Windows gibt. Hier könnt ihr euch euren Bildschirm oder Dokumente beschreiben lassen. Das ist zum Beispiel hilfreich für gescannte PDFs oder nicht barrierefreie Inhalte auf Webseiten. Ihr könnt auch ein Foto mit eurer Webcam machen und es beschreiben lassen, um zum Beispiel herauszufinden, was andere bei einem Videocall von euch und eurer Umgebung sehen. Mehr Infos und den Download der App findet ihr auf dieser Seite (leider auf Englisch):
https://www.bemyeyes.com/be-my-eyes-for ... zcwNDM2Nzg.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 21.04.2026, 08:18

Danke an Carina für den Hinweis auf Be My Eyes für Windows. Das ist eine großartige Alternative zu den genannten NVDA Add-ons und der eingebauten KI von JAWS unter Windows.

Aus der Praxis:
Eine Beschreibung eines geteilten Bildschirms in einem Video-Meeting sah bei mir zum Beispiel konkret wie unten zitiert aus. Genutzt habe ich das NVDA Add-on "AI content Describer" mit einer von mir selbst definierten Anweisung/Prompt. Ähnliche Ergebnissse sind mit JAWS KI und/oder Be My Eyesfür Windows denkbar, wobei man bei Beiden leider den Prompt nicht anpassen kann.

Hier nun das Praxisbeispiel aus meinem Arbeitsalltag (Namen von Personen und Details geändert):

Auf einem geteilten Bildschirm ist eine blaue Folie mit dem [Unternehmenslogo] und dem Text „Join at slido.com #2639 680“ zu sehen. Zusätzlich sind ein QR-Code und der Passcode „jtwikf“ eingeblendet. In vier kleinen Videofenstern der Teilnehmer sind Benjamin Hofer, [Person A(Name richtig)], [Person B(Name richtig)] sowie eine weitere Person zu erkennen.

Worum ging es?
Es handelte sich um ein Quiz zum gemeinsamen Durchspielen nach einer Einarbeitung in ein neues Produkt. Die Kollegen haben hier, wie aus der Beschreibung hervorgeht, Slido genutzt. Slido ist eine Platform, die für uns gut bedienbar ist, Fragen werden automatisch für alle eingeblendet und man kann per Formular antworten. Um dem Quiz beizutreten, nutzt man entweder einen QR Coe oder Zugangsdaten. Beides war auf dem geteilten Bildschirm sichtbar. Ein tastendruck genügte, um mir die Daten zu holen - sowohl der Zahlen-PIN als auch das Passwort waren 100% richtig. Das ging sogar schneller und einfacher, als jemanden zu bitten, das ganze in den Chat zu stellen oder mir per Privatnachricht zu senden.
Verblüffend ist für mich immer wieder, wie schnell die KI besser wird. Fehler bei Passwörtern oder Codes können passieren und waren vor einigen Monaten / Jahren auch echt nicht selten. Mittlerweile shabe ich schon mehrere Male die Erfahrung gemacht, dass es funktioniert - keine Garantier natürlich.
Und ganz, ganz wichtig: Bitte niemals persönliche Passwörter oder Zugangsdaten mit der KI teilen!!!

Hawkeye · Beitrag von **Hawkeye** » 25.04.2026, 14:21

Hallo Ben,

mich interessieren deine Erfahrungen mit „Scribe Me“ . Soweit ich weiß, ist diese App – im Gegensatz zu vielen anderen – kostenpflichtig. Daher bin ich neugierig wie du (und andere User auch) das Kosten/Nutzen Verhältnis bewerten. Einen kleinen „Testbericht“ gibt es auf der Seite der „Apfelschule“.

https://apfelschule.ch/tipps-und-tricks ... stuetzung/

Über mehr Testberichte würde ich mich sehr freuen!

Viele Grüße

Hawkeye

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 28.04.2026, 21:41

Hallo Hawkeye,
danke für die Frage und den Linka uf den Bericht von "Apfelschule".
Scribe Me ist eine innovative App, die allerdings noch ihre Fehler hat. Aktuell gibt es ein Abo-Modell und gleichzeitig kann die App auch bis zu einem gewissen Limit frei genutzt werden.
Der Erfahrungsbericht, den du verlinkst, deckt sich überwiegend mit meinen Erfahrungen.
Die Live-Erkennung ist verzögert. Das trifft allerdings auf jede aktuelle KI zu. Eine Live-KI ohne Verzögerung gibt es nicht. Ich habe den persönlichen Eindruck, dass die Verzögerung bei oOrion etwas weniger ist, sie ist allerdings auch hier deutlich spürbar.
Der Grund: Die KI verarbeitet immer noch eine Abfolge an Bildern, nicht ein Live-Video. Außerdem ist es abhängig von deiner jeweiligen Verbindung an deinem jeweiligen Ort, wie schnell diese Bilder gesendet werden und natürlich von dem dahinterliegenden KI-System. Beides ist maßgeblich.
oOrion macht auf mich persönlich den flüssigeren Eindruck und hat auch objektiv betrachtet aktuell weniger Fehler.
Scribe Me verfolgt einen etwas anderen Ansatz und hat Potenzial.
Scribe Me kann außer der Live-Erkennung auch noch Dokumente in barrierefreie Form umwandeln (PDF, PowerPoint). Hier macht es einen sehr ordentlichen Job wie ich finde. Bildbeschreibungen (also die Beschreibung der Grafiken innerhalb des Dokuments) sind allerdings meist auf Englisch.
Ein Abo ist hier aktuell, vor allem zu dem Preis, für die meisten nicht wirklich empfehlenswert.
Die App ist ja auch im kostenlosen Umfang nutzbar.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 29.04.2026, 17:41

Willkommen zu Modul 3!
Heute wird es praktisch und gleichzeitig wichtig: Wie bediene ich die großen Chatbots mit Screenreader? Und was passiert eigentlich mit meinen Daten?

Teil 1: Chatbots blind bedienen

Wir erinnern uns: Ein Chatbot ist die Anwendung im Internet, also vereinfacht gesagt die Webseite, auf der wir mit der KI reden.

Nicht jeder Chatbot ist gleich gut mit Screenreader bedienbar. Wir gehen die wichtigsten der Reihe nach durch und sehen, welcher wofür gut ist, wo die Daten landen, und wie sich die Oberfläche per Tastatur bedienen lässt.

Ein Hinweis vorweg: Die Smartphone-Apps der großen Anbieter sind alle mittel bis gut bedienbar – mit etwas Einschränkungen, vor allem für unerfahrene Nutzer. Für die tägliche schnelle Frage zwischendurch reichen sie meist gut aus. Sollte eine der Apps nicht gut gehen, greifen wir auch hier auf die Web-Oberfläche zurück.
Wichtiger Hinweis: Die Internetseiten und auch Apps der jeweiligen KI-Chatbots verändern sich stark. Was heute gilt, muss also in einigen Wochen oder Monaten nicht mehr richtig sein.

Im Folgenden beziehen sich die Bedien-Tipps auf die Web-Oberflächen.

ChatGPT (OpenAI)

ChatGPT von OpenAI ist der Alltags-Chatbot für Viele. Er ist stark personalisierbar, die Nutzerbasis ist sehr groß. Die Daten liegen in den USA. Empfehlung: Schaltet das Training mit euren Daten in den Einstellungen ab (als "Opt-out" bezeichnet). Ihr erreicht die Einstellung mit der Tastatur über STRG+Umschalt+I und dann im Reiter "Datenkontrollen".

Bedienbarkeit: gut.

Jede Nachricht im Chat ist eine Überschrift Ebene 4. Mit JAWS/NVDA kannst du also mit der Taste 4 durch das Gespräch springen.
STRG+Eingabe sendet den Chat – direkt aus dem Eingabefeld, ohne dass du zum Senden-Button navigieren musst.
Vor dem Senden mit Tab / Shift+Tab erreichbar: Dateien hochladen, Modell auswählen, Modus auswählen (z. B. Recherche, Bilder).

Gemini (Google)

Gemini ist der Alltags-Chatbot von Google und eng an das Google-Ökosystem angebunden. Gemini sucht also auch in Google Maps oder, wenn du es einrichtest, im Gmail (E-Mails von Google) und auch Dokumenten im Google-Ökosystem. Auch der Kalender lässt sich über Gemini steuern.

Bedienbarkeit: gut.

Jede Nachricht in der Konversation ist eine Überschrift Ebene 2. Mit 2 durch das Gespräch springen.
Eingabe sendet die Nachricht. Shift+Eingabe macht eine neue Zeile.

Claude (Anthropic)

Claude von Anthropic ist längst kein Geheimtipp mehr, sondern ein wirklich starker allgemeiner Chatbot. Er ist besonders beliebt bei Programmierern, Designern und Textern und auch allgemein super nutzbar. Er recherchiert gut, wenn man ihn dazu anweist, und inkludiert seine Quellen direkt im Text. Claude ist weniger "gesprächig" (weniger Blabla) als ChatGPT, mehr auf Effizienz ausgerichtet.

Bedienbarkeit: Die Weboberfläche ist gut bedienbar und klar strukturiert. Das gilt auch für die Smartphone-Apps. Der Sprachmodus (wo man live mit der KI sprechen kann) ist hier deutlich weniger ausgereift wie bei Gemini und ChatGPT und aktuell auch nur auf Englisch verfügbar.

Microsoft Copilot

Copilot ist von Microsoft und gut in Windows und Edge integriert. Die Bedienung variiert je nachdem, wo man Copilot nutzt (Browser, Windows-Taskleiste, Office-Apps).

Wichtige Tastenkürzel:

Windows-Taste + C öffnet die Copilot-App unter Windows. Auf neueren Tastaturen gibt es zusätzlich eine eigene Copilot-Taste rechts neben Alt Gr.
Alt + I öffnet Copilot in den Office-Apps (Word, Excel, PowerPoint, Outlook). Dasselbe Kürzel funktioniert überall.

Hinweis: Alle diese Chatbots sind kostenlos. Und alle haben eine kostenpflichtige Stufe an Bord, die mehr bietet: Bessere Modelle, mehr und ausführlichere Recherchen, längere Kontextfenster (das, was sich der Chatbot auf einmal merkt), mehr Dateien hochladen etc.

Teil 2: Datenschutz – wo gehen meine Daten hin?

Wenn du etwas in ChatGPT, Gemini, Claude oder Copilot eingibst, werden deine Eingaben auf Computern des Anbieters verarbeitet. Die Server sind meist in den USA. Das hat drei Konsequenzen:

Training: Eingaben werden bei den US-Anbietern oft zum Training der Modelle verwendet (lässt sich abschalten – Opt-out in den Einstellungen).
Behördenzugriff: US-Gesetze (Cloud Act, FISA) erlauben es der US-Regierung, jederzeit auf Daten von US-Unternehmen zuzugreifen, auch wenn die Server in Europa stehen.
Was sollte ich nicht eingeben? Niemals Passwörter, keine Gesundheitsdaten, keine vertraulichen Dokumente. Gib nichts Persönliches ein, ohne nachzudenken. Faustregel: Wenn es eine Katastrophe wäre, dass deine Eingabe öffentlich im Internet steht, gib sie nicht ein.

Es gibt zwei Lösungen: europäische Chatbots oder Offline-KI.

Europäische Alternative: Mistral Le Chat

Mistral ist ein französischer Chatbot, komplett europäisch, mit starken Modellen. Recherchiert auch im Web.

Bedienbarkeit: nicht so gut wie bei ChatGPT oder Gemini. Die Oberfläche hat keine sauberen Überschriftenstrukturen.

Tipp: Wenn keine Überschriften in der Antwort sind, weise den Bot einfach selbst dazu an:

"Starte ab jetzt jede Antwort mit der Überschrift Ebene 2 ‚Antwort‘ (also ## Antwort)."

Dann kannst du auch hier per Schnellnavigation durch die Antworten springen. Funktioniert dauerhaft in der Konversation.

Weitere Alternativen (USA als auch Europa)

Perplexity (USA) (https://perplexity.ai) – mehr eine KI-Suchmaschine als ein Chatbot. Zugriff auf verschiedene Modelle/Anbieter möglich. Bedienbarkeit gut, auch mit Überschriften, aber man muss mit Screenreader teilweise viel überspringen, um zur eigentlichen Antwort zu kommen. Könnte ein Manko für unerfahrene Nutzer sein.
Google KI-Suche – die KI-Antworten oben in der Google-Suche. Sehr gut und ohne Einschränkungen bedienbar.
Proton Lumo (https://lumo.proton.me) – Proton ist der Schweizer Anbieter, bekannt für starke Verschlüsselung. Europäische Alternative mit Fokus auf Datenschutz.
X.AI Grok – der Chatbot von Elon Musks Firma X.AI.
Meta AI – der Assistent in WhatsApp, Instagram und Facebook.
Ecosia KI-Suche (https://www.ecosia.org/ai-search) – deutsche Suchmaschine mit Fokus auf Umweltschutz und Datenschutz. KI-Suche schwächer als Google.

Beispiel-Aufgabe: alle Chatbots gegeneinander testen

Um Bedienbarkeit und Antwortstil der verschiedenen KI-Chatbots zu testen, probier einen Prompt deiner Wahl mit unterschiedlichen Chatbots aus. Am besten eignet sich für den Anfang ein Thema, mit dem du dich auskennst.
Hier ein Beispiel von mir:

"Gib mir für die Betriebssysteme Windows, Mac, Linux, iOS und Android alle gängigen Screenreader und gehe auf Verfügbarkeit, Preis, Stärken/Schwächen und Braille-Bedienung ein."

Du wirst schnell merken: Die einen antworten kurz und tabellarisch, die anderen weitschweifig, manche recherchieren live im Netz, andere antworten aus dem Gedächtnis. Und das können wir steuern. Wir steuern mit der Eingabe den Stil, ob die Antwort kurz und knapp, ausführlich, tabellarisch oder im Fließtext ist. Wir steuern, ob der Chatbot länger nachdenken, auf jeden Fall im Internet recherchieren soll. Wir können angeben, ob der Stil formell oder informell sein soll, ob wir eine kurze Übersicht oder ausführliche Erklärung aller Punkte haben wollen.

Teil 3: Offline-KI – die Daten bleiben zu Hause

Die zweite Lösung gegen das Datenschutzproblem: KI-Modelle komplett lokal auf dem eigenen Rechner laufen lassen. Kein Internet nötig, keine Daten verlassen das Gerät.

Ollama

Ollama (https://ollama.com/download) ist das Standard-Werkzeug dafür. Es ist eine kostenlose Anwendung für Windows, Mac und Linux. Damit lädst du dir Open-Source-Sprachmodelle direkt auf deinen Rechner und chattest dann mit ihnen. Kein Programmieren nötig, keine Konfiguration, keine zusätzliche Software.

Seit 2025 gibt es Ollama als richtige Desktop-App mit Chat-Oberfläche. Frühere Versionen waren reine Kommandozeilen-Tools. Heute reicht ein Klick auf das Modell in der App und schon kann man tippen.

Lokal oder Cloud? Beides möglich

Wichtig zu verstehen: In der Ollama-App gibt es zwei Arten von Modellen.

Lokale Modelle: Sie laufen direkt auf deinem Rechner. Du lädst sie einmal herunter (typisch zwischen 5 und 30 GB pro Modell) und kannst sie danach komplett ohne Internet nutzen.
Cloud-Modelle: Sie tragen den Zusatz -cloud im Namen (zum Beispiel gpt-oss:120b-cloud) und laufen auf den Servern von Ollama. Dafür musst du dich vorher mit einem Ollama-Konto anmelden. Ohne Anmeldung sind die Cloud-Modelle nicht verfügbar.

Wenn du die App ohne Anmeldung benutzt, läuft also alles lokal. Sobald du ein heruntergeladenes Modell aus der Liste auswählst, bist du offline-fähig. Internet kannst du danach abschalten und es funktioniert weiter.

Kleiner Hinweis am Rande: Wer ein lokales Modell fragt, was es selbst gerade tut, bekommt manchmal kreative Antworten. Lokale Modelle halluzinieren öfter als die großen Cloud-Chatbots, vor allem bei Fragen zu sich selbst oder zur Technik im Hintergrund. Was du wirklich brauchst, steht in der Ollama-Dokumentation, nicht in der Antwort des Modells.

Aktuelle Modelle (Stand 2026)

Zwei Modelle sind aktuell besonders interessant:

Gemma 4 (Google), Variante gemma4:26b: der starke Allrounder. Versteht Text und Bilder, antwortet sehr gut auf Deutsch. Größe rund 17 GB.
GPT-OSS (OpenAI), Variante gpt-oss:20b: OpenAI hat dieses Modell offen veröffentlicht. Es ist auf logisches Denken und Aufgaben mit mehreren Schritten ausgelegt. Größe rund 13 GB.

Was bedeuten 20B und 26B?

Das B steht für „Billion", englisch für Milliarde. Ein Modell mit 20B hat also 20 Milliarden Parameter. Parameter sind die Stellschrauben, an denen das Modell beim Training „gedreht" hat, um Sprache zu verstehen. Faustregel: mehr Parameter bedeutet mehr Wissen und bessere Antworten, aber auch mehr Speicher und mehr Rechenzeit. Zum Vergleich: ChatGPT in der Cloud arbeitet mit deutlich größeren Modellen, die niemand zu Hause laufen lassen könnte.

Bedienbarkeit mit Screenreader

Ollama lässt sich auf zwei Wegen nutzen:

Kommandozeile (Terminal): Komplett textbasiert, deshalb mit dem Screenreader sehr gut zu bedienen. Setzt aber Erfahrung mit der Kommandozeile voraus. Zumindest sollte man ganz einfache Texteingaben verstehen.
Ollama-App: Generell bedienbar, aber mit Einschränkungen. Manche Schalter sind nicht beschriftet, einige Bedienelemente verlangen etwas Anpassung. Für den Einstieg trotzdem die einfachste Variante.

Wir schauen uns im Workshop hauptsächlich die App an.

Ein Hinweis zum „Denkprozess"

Moderne Modelle wie GPT-OSS zeigen während der Antwort, besonders bei Ollama, oft ihren internen Gedankengang an. Das nennt sich Reasoning oder Thinking. Dabei kann es passieren, dass dein deutscher Prompt im Hintergrund ins Englische übersetzt wird oder das Modell von dir in der dritten Person spricht („the user wants…"). Das ist kein Fehler, sondern liegt daran, dass die Trainingsdaten überwiegend englisch sind und die Modelle intern auf Englisch besser „denken" als auf Deutsch. Die finale Antwort kommt natürlich wieder auf Deutsch heraus. Wer den Denkprozess störend findet, kann ihn in den Modelleinstellungen oder im Chat selbst meist abschalten. Der Denkprozess dient allerdings dazu, dass sich das Modell intern "hinterfragt" und so zu deutlich besseren Ergebnissen kommt.

Schritt für Schritt: Ollama ausprobieren

Ollama von ollama.com herunterladen und installieren.
App öffnen. Ein Konto ist nicht nötig, solange du lokale Modelle nutzt.
Ein Modell auswählen, zum Beispiel gemma4:4b oder gpt-oss:20b. Beim ersten Mal lädt die App das Modell herunter. ACHTUNG: Hier ist etwas Rechenleistung und Speicherplatz nötig. Das ist nichts für ältere Rechner.
Loslegen. Du chattest jetzt lokal mit einer KI.

Offline-KI ist nicht nur Chatbot

Offline-KI ist auch unabhängig von Chatbots schon lange beliebt. Klassisches Beispiel: Whisper von OpenAI zur Audiotranskription. Whisper ist Open Source, läuft lokal, braucht erstaunlich wenig Ressourcen und ist seit Jahren das Werkzeug der Wahl, wenn man Sprachaufnahmen, Interviews oder Vorträge in Text umwandeln will, ohne dass irgendetwas in die Cloud geht.

Zum Ausprobieren bis nächste Woche

Schaue in die Einstellungen deines Chatbots: Ist das Training mit deinen Daten aktiviert? Schalte es ab.
Probiere einen eigenen Beispiel-Prompt oder den oben (Screenreader-Vergleich) in mindestens zwei verschiedenen Chatbots aus und vergleiche.
Probiere Mistral Le Chat aus, komplett europäisch, kein Datenabfluss in die USA.
Wenn du Lust hast: Installiere Ollama und chatte lokal, zum Beispiel mit gemma4:26b (Bilderkennung) oder gpt-oss:20b (logisches Denken).

Wie sind eure Erfahrungen mit Datenschutz und den verschiedenen Chatbots? Teilt eure Tipps hier im Thread!

Linkliste

ChatGPT: https://chatgpt.com
Google Gemini: https://gemini.google.com
Claude: https://claude.ai
Microsoft Copilot: https://copilot.microsoft.com
Mistral Le Chat: https://chat.mistral.ai
Perplexity: https://perplexity.ai
Proton Lumo: https://lumo.proton.me
Grok (X.AI): https://grok.com
Meta AI: https://www.meta.ai
Ecosia KI-Suche: https://www.ecosia.org/ai-search
Ollama herunterladen: https://ollama.com/download

Hawkeye · Beitrag von **Hawkeye** » 04.05.2026, 19:18

Hallo Ben,

herzlichen Dank für dein feedback zu „Scribe me“ und deinen sehr gelungenen Vortrag im Rahmen von Modul 3.

Ich habe noch Fragen zum dritten Modul:

In Modul 2 hast du das NVDA Add on „Vision Assistant Pro„ erwähnt. Soweit ich das verstanden habe, nutzt dieses Add on die großen Chatbots wie ChatGPT
oder Google Gemini. Gibt es auch ein NVDA add on, dass man z.B. zur Bedienung von Ollama, oder Whisper AI, bzw. Lumo etc. nutzen kann? Ich erinnere mich dunkel, dass du erwähnt hast, so ein Add On programmiert zu haben. Könntest du das Add on bitte zur Verfügung stellen? Dann wäre man nicht so stark vom Wohlwollen der Programmierer und ihrer GUI abhängig.

Viele Grüße

Hawkeye

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 05.05.2026, 15:24

Hallo Hawkeye,
danke dir für dein positives Feedback!
Zum "Vision Assistant Pro": Der Vision Assistant Pro ist ein Add-On, das aktuell nur auf Gemini zugreift. Du brauchst dafür einen API-Schlüssel von Gemini.
Es gibt ein Add-on "AI content describer", das allerdings nicht mehr wirklich weiterentwickelt wird. Du müsstest testen, ob es bei der von dir genutzten NVDA-Version noch klappt.
Ich selbst arbeite aktuell an einem sehr unabhängigen Add-on. Das stimmt. Wenn es stabil und funktional genug zum Veröffentlichen ist, werde ich es veröffentlichen. Die Entwicklung ist aufwändig. Geschätzt wird das in den nächsten 4-6 Wochen sein für eine erste Version.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 06.05.2026, 18:01

Willkommen zum Modul 4!

Worum geht's heute?

Letzte Woche hat Robbie ein schönes Beispiel gezeigt: Protokolle mit KI erstellen. Die KI bekommt seine rohen Notizen und liefert ein fertiges Protokoll in genau der Struktur, die er braucht. Das ist eine Aufgabe, die immer wiederkehrt. Und das Protokoll soll jedes Mal nach derselben Vorlage aussehen.

Das könnte man der KI in jedem Chat aufs Neue erklären, mit Rolle, Format, Tonalität, Beispiel. Es macht keinen Spaß und Sinn, jedes Mal denselben Block einzufügen. Außerdem haben wir viel davon, wenn die KI möglichst viel Kontext bekommt, in diesem Fall ein Beispiel-Protokoll.
Genau hier kommen eigene Chatbots, Projekte oder KI-Agenten ins Spiel. Eigene Chatbots erlauben drei Dinge: Anweisungen wiederverwenden, Wissen dauerhaft hinterlegen und Aufgaben immer auf dieselbe Art erledigen.

Ein zweites Beispiel aus meinem Alltag: Alternativtexte. Ich lade ein Bild hoch, der selbst erstellte Chatbot schreibt mir den Alt-Text genau so, wie ich ihn brauche. Kurz, sachlich, nach WCAG - oder eben, wie ich es brauche. Ohne dass ich es jedes Mal sagen muss.

Heute geht es deshalb um zwei Themen, die direkt zusammenhängen:

Prompting: Wie schreibe ich die Anweisung, damit die KI wirklich das tut, was ich will?
Wiederverwenden: Welche Werkzeuge gibt es, um diese Anweisung dauerhaft zu speichern, und wie baue ich mir damit meinen eigenen Chatbot?

Am Ende werfen wir noch einen kurzen Blick auf KI-Agenten. Das ist die nächste Stufe.

Teil 1: Prompting für Fortgeschrittene

In Modul 1 haben wir die Basics gelernt. Jetzt gehen wir tiefer.

Techniken, die den Unterschied machen

Rollen vergeben: „Du bist ein erfahrener Ernährungsberater. Erstelle mir einen Wochenplan." Die KI antwortet besser, wenn sie weiß, wer sie sein soll.
Kontext mitgeben: Je mehr relevante Info du lieferst, desto besser die Antwort. Liefere nicht alles auf einmal, aber das Wichtigste.
Few-Shot Prompting: Du gibst der KI ein oder zwei Beispiele, wie die Antwort aussehen soll. Die KI erkennt das Muster und folgt ihm.
Chain-of-Thought: „Denke Schritt für Schritt." Das zwingt die KI, ihre Antwort in Zwischenschritten aufzubauen, statt vorschnell zu antworten. Es liefert oft bessere Ergebnisse. 2026 ist das zwar nicht mehr so relevant wie früher, aber es ist immer noch eine bekannte Prompting-Technilk.

System-Prompts: Der KI eine Persönlichkeit geben

Ein System-Prompt ist eine Anweisung, die vor jedem Gespräch gilt. Beispiel:

„Du bist ein hilfreicher Assistent, der blinden Menschen hilft, Technik zu verstehen. Antworte immer klar, präzise, in einfacher Sprache und ohne Fachjargon. Wenn du dir unsicher bist, sage das ehrlich. Erfinde nichts. Vermeide Floskeln, verschachtelte sätze und Call to Action-Fragen."

Genau so ein System-Prompt steckt im Kern jedes eigenen Chatbots. Wer ihn gut formuliert, hat schon einen großen Teil der Arbeit erledigt.

Personalisierung: Wer bin ich, und wie soll der Bot antworten?

Bevor wir eigene Chatbots bauen, gibt es eine Vorstufe, die jeder direkt nutzen kann. Alle drei großen Chatbots haben eine Funktion, mit der du dauerhaft hinterlegen kannst, wer du bist und wie der Bot dir antworten soll. Das spart dir, in jedem neuen Chat aufs Neue zu erklären, dass du blind bist und visuelle Inhalte beschrieben haben möchtest.

Wichtig: Die Personalisierung gilt für alle Chats. Sie ist also für allgemeine Vorlieben gut. Für eine bestimmte Aufgabe (zum Beispiel Protokolle schreiben) ist ein eigener Chatbot der richtige Weg.

Sinnvolle Inhalte für die Personalisierung:

Wer bin ich? Beruf, Interessen, Vorkenntnisse, dass du blind oder sehbehindert bist.
Wie soll der Bot antworten? Sprache (einfach oder fachlich), Länge (kurz und direkt oder ausführlich), Format (mit Überschriften, mit Aufzählungen, in Fließtext), Tonalität (sachlich, locker, freundlich).

So richtest du das in den drei großen Anwendungen ein:

ChatGPT: Tastenkürzel STRG+Shift+I öffnet direkt den Personalisierungs-Dialog („Custom Instructions"). Alternativ über das Profilmenü → Einstellungen → Personalisierung. Dort gibt es zwei Felder: „Was sollte ChatGPT über dich wissen?" und „Wie soll ChatGPT antworten?".
Gemini: Auf gemini.google.com → in der Seitenleiste auf „Saved Info" oder „Gespeicherte Informationen" → unter „Your instructions for Gemini" auf „Hinzufügen" / „Add +" → Anweisung eintragen → Submit. Auf dem Smartphone: Menü → Einstellungen → Personal Intelligence → Instructions for Gemini. Achtung: Diese Funktion gibt es nur mit privatem Google-Konto, nicht mit Schul- oder Firmenkonto.
Claude: Einstellungen → „Profil" / „Profile". Dort kannst du deinen Namen, deinen Beruf und einen Freitext zur „Persönlichen Vorliebe" hinterlegen („Personal Preferences"). Empfehlung: 300 bis 500 Wörter, und ruhig auch sagen, was Claude nicht tun soll. Das ist oft wirkungsvoller als Anweisungen, was es tun soll.

Typische Fehler

Zu vage: „Schreib mir was über KI". Lieber: „Schreib eine Zusammenfassung in 5 Sätzen über KI-Bilderkennung für blinde Menschen."
Zu viel auf einmal: Lieber mehrere kleine Prompts als einen riesigen.
Ergebnis nicht prüfen: KI kann halluzinieren. Wir müssen immer gegenlesen, vor allem bei wichtigen Informationen, die nicht falsch sein dürfen. Auch wenn die KI Quellen nennt, müssen wir sie prüfen. Die KI ist ein Werkzeug. Die Inhalte, die ich mit ihr erstelle, habe ich erstellt.

Teil 2: Eigene Chatbots bauen

Jetzt zum eigentlichen Kern. Eigene Chatbots sind keine Programmierung. Du beschreibst in Worten, was der Bot tun soll, hinterlegst optional ein paar Dateien als Wissensbasis, und der Bot ist fertig. In jedem Chat mit ihm gilt deine Anweisung dann automatisch.

Praktisch jeder große Anbieter hat eine eigene Variante davon. Die Namen sind unterschiedlich, das Prinzip ist überall ähnlich: ein Name, eine Anweisung, optional Wissen. Hier der Stand Mai 2026 für die wichtigsten Anbieter.

ChatGPT: Custom GPTs

Bei OpenAI heißen eigene Chatbots GPTs (oder „Custom GPTs"). Sie sind seit Ende 2023 verfügbar und der Quasi-Standard.

Voraussetzung: ChatGPT-Plus-Abo oder höher. In der kostenlosen Version kann man fremde GPTs nutzen, aber keine eigenen bauen.
So geht's: Linke Seitenleiste → „GPTs entdecken" → Schalter „Erstellen" / „Create".
Zwei Wege: Entweder im Chat-Dialog beschreiben, was der Bot können soll (der Builder fragt einen aus). Oder direkt im Konfigurations-Tab Felder ausfüllen: Name, Beschreibung, Anweisungen, Konversations-Starter.
Wissensbasis: Bis zu 20 Dateien hochladen (PDF, DOCX, TXT, ...). Der Bot zieht Inhalte daraus, wenn sie zur Frage passen.
Teilen: Der fertige GPT kann geteilt oder privat gehalten werden.

Gemini: Gems

Googles Variante heißt Gems. Die Funktion ist inzwischen auch in der kostenlosen Variante verfügbar, im Funktionsumfang aber kleiner als bei ChatGPT.

So geht's: Auf gemini.google.com → Seitenleiste „Gems entdecken" / → „Neues Gem".
Name, Anweisung und optional Beispiel-Aufgaben eintragen. Knopf „Gemini benutzen, um Anweisungen neu zu schreiben" oder "Prompt optimieren" hilft, einen knappen Prompt zu einem ausführlicheren auszubauen.
Wissensbasis: Dateien hochladen, mit Google AI Pro bis zu 10 Dateien pro Gem.
Super Gems: Seit Dezember 2025. Erweiterte Gems mit Buttons, Formularen und Eingabemasken, gebaut über Googles No-Code-Werkzeug Opal. Eher etwas für Fortgeschrittene. Hier kannst du wirklich eigene Apps bauen.

Claude: Projekte

Bei Anthropic heißt die Funktion Projekte („Projects"). Sie unterscheidet sich konzeptionell etwas von GPTs und Gems: Ein Projekt ist mehr ein „Arbeitsplatz" mit gemeinsamem Kontext, weniger ein einzelner geteilter Bot.

Voraussetzung: Claude Pro oder Team.
So geht's: claude.ai → Menüpunkt „Projekte" → „+ Neues Projekt". Name vergeben, dann zwei Bereiche pflegen.
Custom Instructions: Ein fester Prompt, der vor jeder Konversation im Projekt mitläuft. Empfehlung: 200 bis 500 Wörter. Auch sagen, was Claude nicht tun soll.
Knowledge / Wissensbasis: Bis zu 100 MB Dokumente (PDF, DOCX, TXT, CSV, JSON). Maximal 10 MB pro Datei. Claude nutzt diese in jeder Unterhaltung im Projekt.
Konversationen: Innerhalb eines Projekts hat man beliebig viele Chats, also Gespräche. Alle bekommen die Anweisungen und das Wissen automatisch mit.

Praxis-Tipp: Für den Protokoll-Bot lege ich ein Projekt „Protokolle" an, schreibe meine Format-Vorgaben in die Anweisungen, lege ein altes Beispiel-Protokoll als Wissens-Datei rein. Jede neue Sitzung wird dann ein neuer Chat in diesem Projekt. Ich brauche dann nur noch einen Chat in diesem Projekt starten und meine Notizen reinkopieren. Der Bot, also das Projekt weiß, was zu tun ist.

Microsoft Copilot: zwei Welten

Bei Microsoft hängt es davon ab, ob privat oder beruflich.

Privat (Microsoft 365 Personal, Family, Premium): Copilot Notebooks. Eine Art Arbeits-Mappe, in die du Dateien, Notizen, Links und Chats steckst. Copilot zieht aus diesen Quellen seine Antworten, fasst sie zusammen, erstellt Quizzes, Audio-Übersichten und Karteikarten daraus. Seit 2026 lassen sich auch eigene Agents direkt auf einem Notebook gründen.
Beruflich (Microsoft 365 Copilot mit Business-Lizenz): Copilot Studio. Vollwertiger Agent-Builder mit Anbindung an über 1400 Systeme über das sog. Model-Context-Protokoll. Mehr Funktionen, aber komplexer und nichts für mal eben zwischendurch.

Für den Workshop interessant ist eher Copilot Notebooks. Copilot Studio ist klar Richtung Firmen-Einsatz gedacht.

Mistral Le Chat: Agents

Auch Mistral (der französische Anbieter aus Modul 3) hat eine eigene Bauweise: Agents. Funktioniert seit 2025 und hat 2026 ordentlich nachgelegt.

So geht's: In Le Chat (chat.mistral.ai) im Menü „Agenten" / „Agents" → „Neuer Agent". Name, Beschreibung, Anweisung. Werkzeuge (Web-Suche, Code-Interpreter) dazuschalten.
Wissensbasis: Dateien hochladen oder externe Quellen anbinden. In Le Chat Enterprise auch SharePoint, Google Drive, Gmail.
Geschwindigkeit: Mistral wirbt damit, dass die Agents spürbar schneller antworten als die Konkurrenten. In der Praxis stimmt das oft.
Datenschutz: Server in Europa, EU-konform. Für sensible Daten die beste Wahl unter den Großen.

Ollama: lokal mit Modelfile

Ollama haben wir in Modul 3 schon kennengelernt. Auch hier kann man eigene Bots bauen, allerdings textbasiert über eine kleine Datei.

So geht's: Eine Textdatei namens „Modelfile" anlegen. Inhalt:

Code: Alles auswählen

FROM gemma4:26b
SYSTEM "Du bist ein Assistent, der mir Bildbeschreibungen nach WCAG erstellt. Halte dich kurz, sachlich und beschreibe den Zweck des Bildes."

Und hier muss man jetzt mit der Kommandozeile arbeiten: Mit ollama create alttext-bot -f Modelfile einen eigenen Bot mit dem Namen „alttext-bot" erzeugen.
Anschließend ollama run alttext-bot und es geht los.
Vorteil: Komplett offline, keine Daten verlassen den Rechner.
Nachteil: Zur Zeit keine grafische Oberfläche zum Anlegen. Geht nur über die Kommandozeile. Mit Screenreader aber gut machbar, weil rein textbasiert.

Welcher Anbieter für was?

ChatGPT GPT: Reichste Funktionen, größte Auswahl an fertigen GPTs, aber kostenpflichtig.
Gemini Gem: Sehr gut, wenn man im Google-Ökosystem unterwegs ist (Drive, Mail, Kalender). In der Gratis-Variante schon brauchbar.
Claude Projekt: Mein persönlicher Favorit für Aufgaben mit viel Text und festem Format. Wissensbasis ist großzügig, Anweisungen werden sauber befolgt.
Copilot Notebook: Wenn du sowieso Microsoft 365 hast und Office-Dokumente einbeziehen willst, ist das die Wahl. Es erfordert meines wissen s nach etwas mehr Einarbeitung.
Mistral Agent: Wenn Datenschutz wichtig ist und alles in Europa bleiben soll. Es ist etwas weniger screenreader-kompatibel.
Ollama Modelfile: Wenn alles lokal bleiben muss oder du gerne tüftelst.

Tipps zum Bauen, egal mit welchem Werkzeug

Klein anfangen: Ein klares Ziel pro Bot. Lieber drei spezialisierte Bots als einer, der alles können soll.
System-Prompt ist alles: Hier investiert man die meiste Zeit. Sage konkret, was rauskommen soll, in welcher Form, in welchem Ton. Gerne mit Beispiel.
Was nicht tun? Schreib auch rein, was der Bot vermeiden soll. Floskeln, Disclaimer, „als KI kann ich nicht...". Das hilft oft mehr als Anweisungen, was er tun soll.
Testen: Funktioniert der Bot wie gewünscht? Was passiert bei unerwarteten Fragen?
Iterieren: Prompt anpassen, nochmal testen, besser machen. Erste Version ist nie die letzte.

Drei Praxisbeispiele zum Loslegen

Protokoll-Bot: Du gibst Notizen rein, der Bot liefert das Protokoll im Format deiner Organisation. Wissensbasis: zwei oder drei alte Protokolle als Vorlage.
Alternativtext-Generator: Du lädst ein Bild hoch, der Bot schreibt den Alt-Text nach WCAG. System-Prompt: „Du schreibst Alternativtexte für Bilder auf Websites. Halte dich an die WCAG-Richtlinien: kurz, sachlich, Zweck des Bildes beschreiben. Keine Floskeln wie ‚Auf dem Bild ist zu sehen'."
Lern-Buddy: Ein Bot, der dir ein bestimmtes Thema erklärt und dann selbst Verständnisfragen dazu stellt.

Teil 3: Ausblick — KI-Agenten

2026 hört man überall von Agentic AI. Was steckt dahinter?

Ein klassischer Chatbot antwortet auf eine Frage und wartet dann auf die nächste. Ein KI-Agent geht weiter:

Er kann mehrere Schritte hintereinander ausführen, um ein Ziel zu erreichen.
Er kann Werkzeuge verwenden: im Internet suchen, Dateien lesen, Code ausführen, E-Mails verschicken.
Er kann selbst entscheiden, welchen nächsten Schritt er macht.

Beispiel: Du sagst „Suche mir die drei günstigsten Hotels in Berlin für nächstes Wochenende und fasse die Bewertungen zusammen." Ein Agent sucht selbst, vergleicht und liefert dir das Ergebnis. Er gibt also nicht nur eine Antwort, sondern handelt aktiv.

Das ist noch nicht perfekt und braucht Kontrolle. Aber die Richtung ist klar: KI wird vom Antwortgeber zum Assistenten, der Aufgaben erledigt.

Auch für Barrierefreiheit ist das relevant. In Modul 2 haben wir über "Guide" gesprochen, eine Windows-App, die meinen Computer steuern kann und der ich z. B. sagen kann "Klicke in dieser Anwendung ins Menü, wähle XY aus und fülle die Formularfelder aus". Das hilft beim Bedienen unzugänglicer Anwendungen und ist aktuell im Ankommen.

Zum Ausprobieren bis nächste Woche

Pflege deine Personalisierung. Hinterlege in deinem Hauptbot, wer du bist und wie er dir antworten soll. Mindestens: blind oder sehbehindert, bevorzugte Antwortlänge, Format.
Bau dir deinen ersten eigenen Bot. Egal ob als Custom GPT, Gemini Gem, Claude Projekt oder Mistral Agent. Thema frei wählbar, gerne der Protokoll-Bot, der Alt-Text-Generator oder etwas ganz Eigenes.
Probiere mindestens eine der Prompting-Techniken (Rolle, Few-Shot, Chain-of-Thought) gezielt aus.
Teile hier im Thread, was du gebaut hast. Oder wo du nicht weiterkommst.

Wir freuen uns auf eure Kreationen!

Linkliste

ChatGPT GPTs erstellen: https://chatgpt.com/gpts
Gemini Gems erstellen: https://gemini.google.com/gems/create
Claude Projekte: https://claude.ai/projects
Mistral Le Chat Agents: https://chat.mistral.ai
Ollama Modelfile-Doku: https://docs.ollama.com/modelfile

carina · Beitrag von **carina** » 12.05.2026, 14:37

Hallo Ben,

ja, jetzt hat es bei mir auch geklappt, keine Ahnung, wo beim letzten Mal das Problem war. :-)
Gerne teile ich meinen SightCity-Gem mit euch, der so gepromptet wurde, dass sich insbesondere junge blinde Menschen angesprochen fühlen sollten. Ich wünsche euch viel Spaß beim Ausprobieren und bin gespannt auf euer Feedback: https://gemini.google.com/gem/1SDIliuU4 ... sp=sharing

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 12.05.2026, 17:27

Willkommen zu Modul 5!

Worum geht's heute?

Letzte Woche haben wir uns eigene Chatbots gebaut, also der KI Aufgaben beigebracht, die immer wiederkehren. Heute drehen wir den Spieß um. Statt Aufgaben zu erledigen, lassen wir die KI etwas erschaffen: Musik, Stimmen, Bilder, ganze Videos. Das Spannende dabei: Vieles davon ist auch für uns als blinde oder sehbehinderte Nutzer gut bedienbar. Und einige Anwendungen sind richtig nützlich, nicht nur Spielerei.

Wir gehen die Bereiche der Reihe nach durch und schauen jeweils auf drei Dinge: Was geht? Wie ist die Bedienbarkeit? Und wofür brauche ich das eigentlich?

Wie funktioniert das eigentlich? Aus Rauschen wird Bild und Musik

Eine kurze Erklärung vorab, weil sie immer wieder Aha-Momente liefert. Die KI startet bei der Bilderzeugung mit einem komplett verrauschten Bild, also reinem Bildrauschen wie ein altes Fernsehbild ohne Empfang. Schritt für Schritt entfernt sie das Rauschen, geleitet durch deinen Prompt. Nach vielen kleinen Durchgängen ist aus dem Rauschen ein klares Bild geworden. Dasselbe Prinzip steckt hinter der Musikgenerierung: Aus akustischem Rauschen wird Stück für Stück ein Song. Fachbegriff: Diffusionsmodell.

Musik generieren

Ja, KI kann Songs machen. Und zwar richtig gute. Zwei Werkzeuge möchte ich vorstellen.

Suno

Suno (suno.ai) ist aktuell das beeindruckendste Tool für KI-Musik.

Du gibst einen Text ein oder lässt Suno einen schreiben, wählst einen Stil und bekommst innerhalb von Sekunden einen fertigen Song.
Text und Stil sind dabei Eingabefelder und erwarten einen Prompt (also eine Anweisung) wie du das von den letzten Modulen kennst. Hier können sich Musik-Profis austoben!
Bei Genres sind keine Grenzen gesetzt: Pop, Rock, Jazz, Klassik, Hip-Hop, Schlager und vieles mehr.
Generier einen Text, in dem du nur vage vorgibst, worum es gehen soll. Oder schreib ihn Vers für Vers.
Die Ergebnisse sind oft erstaunlich gut. Gesang, Instrumente, Arrangement sind alle generiert.
Bedienbarkeit: Mit Screenreader recht gut. Eingabefeld und Schalter sind weitgehend beschriftet, du kommst per Tab durch die Oberfläche.

Gemini

Auch Google Gemini kann inzwischen Musik erzeugen. Das ganze geht direkt im Chat. Du beschreibst, was du willst, und Gemini liefert dir einen Audio-Schnipsel oder ein längeres Stück.

Vorteil: Du brauchst kein extra Konto, keine extra App. Die Bedienoberfläche ist die normale Gemini-Webseite, die du aus Modul 3 und Modul 4 kennst und die mit Screenreader sehr gut funktioniert.
Anwendungsfall: Wenn du nur mal eben etwas ausprobieren willst, ohne dich bei einem neuen Dienst anzumelden. Für tiefere Musik-Produktion ist Suno stärker. Auch gemini generiert aber hochwertige Musik und auch hier kannst du die Anweisung so ausführlich gestalten wie du magst.

Achtung: Oft ist die Musikgenerierung begrenzt. Ladest du ein von Gemini generiertes Musikstück herunter, bekommst du nur die ersten 30 Sekunden. Auch bei Suno kannst du die vollen Songs und den vollen Funktionsumfang meist nur mit der Pro-Version nutzen.

Wofür braucht man das?

Auf den ersten Blick wirkt KI-Musik wie Spielerei. Drei Anwendungen, die wirklich nützlich sind:

Jingles: Eigene kurze Erkennungsmelodien für Podcasts, YouTube-Videos oder einen Forum-Beitrag. Früher musstest du dafür einen Komponisten bezahlen oder dich durch Stockmusik kämpfen.
Geburtstags- oder Anlass-Songs: Personalisierte Lieder zum Verschenken. Das funktioniert verblüffend gut, vor allem dann, wenn man selbst etwas kreativ ist.
Kreative Erkundung: „Wie würde mein Lieblingstext im Reggae-Stil klingen?" Das ist Spaß, aber auch Lerneffekt für gutes Prompting.

Ein Praxis-Tipp zum Prompting: Je präziser dein Stil, desto besser das Ergebnis. „Akustischer Folk mit weiblicher Stimme, ruhig, nachdenklich, Gitarre und sanftes Klavier" liefert mehr als „mach mir einen schönen Song mit Gitarre und Klavier".

Stimmen, Vorlesen und Voice Cloning

Die Zeiten roboterhafter Computerstimmen sind vorbei. Aktuelle KI-Stimmen klingen natürlich, ausdrucksstark und sind oft kaum von echten Sprechern zu unterscheiden.

ElevenLabs

ElevenLabs ist der Marktführer bei KI-Stimmen.

Es gibt viele vorgefertigte Stimmen in vielen Sprachen. Sie klingen sehr natürlich.
Du kannst eigene Texte vorlesen lassen, die Audio-Datei herunterladen und überall einsetzen.
Bedienbarkeit: Hier müssen wir ehrlich sein. Der etwas fortgeschrittenere Editor von ElevenLabs hakt mit NVDA. Auswahlfelder sind oft nicht sauber bedienbar, manche Schalter nicht beschriftet. Für einfache Vorlese-Aufgaben (Text rein, Stimme wählen, abspielen) reicht es, für tiefere Bearbeitung wird es mühsam. Apple-Nutzer mit VoiceOver berichten teils von besseren Erfahrungen.

Eigene Stimme klonen

Das geht wirklich: Du sprichst ein paar Minuten Audiomaterial ein, und die KI kann danach in deiner Stimme sprechen, auch in Sprachen, die du selbst gar nicht beherrschst.

Praktischer Anwendungsfall: Du nimmst einen Vortrag in deiner Muttersprache auf, lässt ihn in Englisch oder Spanisch synthetisieren und teilst ihn mit einem internationalen Publikum. Die Stimme bleibt deine.

Voice Dubbing: Videos in andere Sprachen

Eine Sonderfunktion, die ElevenLabs gut beherrscht: Voice Dubbing. Du gibst ein Video oder eine Audiodatei rein, ElevenLabs trennt Sprecher von Hintergrundgeräuschen, übersetzt das Gesagte in eine andere Sprache und legt es mit der Originalstimme drüber. Mehr als 30 Sprachen werden inzwischen unterstützt.

Für uns ist interessant: Das funktioniert in beide Richtungen. Du kannst englischsprachige YouTube-Tutorials auf Deutsch synchronisieren lassen, oder eigene Inhalte international zugänglich machen. Lippensync ist nicht perfekt, aber bei Erklär-Videos oder Vorträgen reicht es allemal.

Whisper für Transkription

Aus Modul 3 kennst du Whisper schon: Das Open-Source-Modell von OpenAI für Audio-Transkription. Es passt thematisch auch hierher und sei darum erwähnt. Audio kommt rein, Text kommt raus. Komplett offline möglich, sehr genau, viele Sprachen. Wenn du regelmäßig Aufnahmen verschriftlichen willst (Interviews, Vorträge, eigene Sprachnotizen), ist Whisper das Werkzeug der Wahl. Datenschutzfreundlich und kostenlos.

NotebookLM: Recherche, die zum Podcast wird

NotebookLM (notebooklm.google.com) ist ein Werkzeug von Google, das in dieser Workshop-Reihe noch keine Rolle gespielt hat, hier aber wunderbar passt. Es kombiniert drei Dinge, die für uns alle nützlich sind.

Eigene Wissensbasis: Du lädst Dokumente hoch (PDFs, Webseiten, Notizen, eigene Texte). NotebookLM liest sie und antwortet ausschließlich auf Basis dieser Quellen. Das macht Halluzinationen viel unwahrscheinlicher.
Recherche und Fragen: Du stellst Fragen zu deinen Quellen, bekommst Antworten mit direkten Verweisen auf die jeweilige Stelle im Dokument.
Audio Overview: Auf Knopfdruck generiert NotebookLM einen Podcast aus deinen Quellen. Zwei KI-Stimmen unterhalten sich locker und fundiert über deine Inhalte. Das klingt erstaunlich natürlich. Inzwischen geht das in über 80 Sprachen, Deutsch klingt sehr ordentlich.
Video Overview: Seit März 2026 gibt es zusätzlich einen Video-Modus. Eine Art animierte Folien-Präsentation mit gesprochenem Off-Kommentar, generiert von Gemini 3 und Veo 3.
Interaktiver Modus: Während der Audio-Podcast läuft, kannst du in der Pro-Version dazwischengrätschen („mehr Details bitte") und die KI antwortet kontextbezogen, bevor sie weitermacht.
Andere, interaktive Lernformen: NotebookLM generiert dir auch ein Quiz, Karteikarten, eine Q&A und vieles mehr.

Bedienbarkeit: Sehr gut. Wie alle Google-Tools ist NotebookLM solide mit Screenreader nutzbar. Web-Oberfläche ist klar strukturiert.

Use Cases für uns:

Längere Texte oder PDFs „anhören" statt durchlesen. Der generierte Podcast ist oft eingängiger als die Originalquelle.
Komplexe Themen aufarbeiten: Mehrere Quellen rein, einen Überblicks-Podcast generieren.
Lernen für Prüfungen: Skript hochladen, sich den Stoff im Dialog erklären lassen.

NotebookLM ist einer meiner persönlicher Favoriten unter den Werkzeugen. Es kombiniert echten Nutzen mit guter Bedienbarkeit.

Bilder generieren

KI-Modelle wie DALL-E, Imagen oder Nano Banana erzeugen Bilder aus Textbeschreibungen. Du beschreibst, was du sehen willst, die KI generiert es.

DALL-E (OpenAI): Direkt in ChatGPT integriert. „Erstelle ein Bild von einer Katze, die auf einem Surfbrett steht", und es entsteht.
Imagen (Google): Direkt in Gemini eingebaut.
Nano Banana (Google): Spezialwerkzeug für sehr schnelle, kleine Bilder. Inzwischen ebenfalls in Gemini verfügbar.
Midjourney: Lange Zeit Spitze bei der Bildqualität, läuft hauptsächlich über Discord. Bedienbarkeit für Screenreader-Nutzer eher mühsam.

Ist das für uns relevant?

Auf den ersten Blick vielleicht nicht. Auf den zweiten schon:

Social Media: Beiträge mit eigenen Bildern, ohne auf Stockfotos zurückzufallen.
Präsentationen und Folien: Eigene Illustrationen für Vorträge.
Kreative Projekte: Buchcover, Logos, Visitenkarten, Designs.
Ideen visualisieren: Du beschreibst eine Wohnzimmer-Idee, die KI macht ein Bild, das du dir wiederum von der KI beschreiben lassen kannst. Brücke zwischen Idee und Umsetzung.

Wichtig: Für KI-generierte Bilder solltest du immer einen Alt-Text schreiben oder schreiben lassen. Das ist gute Praxis und hilft anderen blinden Nutzern. Praktisch geht das so: Bild generiert, dann denselben Chatbot bitten: „Schreib mir einen kurzen Alt-Text für dieses Bild."

Video: Avatare, Voiceover und mehr

Hier passiert 2026 die rasanteste Entwicklung. Ein paar Werkzeuge, die hervorstechen.

HeyGen: dein KI-Avatar

HeyGen (heygen.com) macht etwas Verblüffendes: Aus 15 Sekunden Video von dir erstellt es einen digitalen Zwilling. Der Avatar spricht dann jeden Text in deiner Stimme, mit deinem Gesichtsausdruck, deiner Gestik.

Du gibst einen Text ein, HeyGen produziert ein Video, in dem dein Avatar genau diesen Text spricht. Über 170 Sprachen werden unterstützt.
Stimme, Mimik und Gestik werden mitgelernt. Das Ergebnis sieht nicht aus wie eine Animation, sondern wie ein echter Videoclip.
Use Case: Erklärvideos in mehreren Sprachen, ohne dass du sie alle selbst aufnehmen musst. Schulungsvideos. Begrüßungs-Videos für eine Webseite.

Ethisch ist das ziemlich heikel, technisch faszinierend. Wir kommen gleich noch mal drauf zurück.

TwelveLabs: Videos verstehen

TwelveLabs (twelvelabs.io) geht den umgekehrten Weg. Statt Videos zu erzeugen, versteht es bestehende. Du kannst per natürlicher Sprache in Stunden von Videomaterial suchen („Finde die Stelle, wo der Sprecher die Folie 5 zeigt"). Es gibt zusätzlich „Rodeo", eine App-Schicht, die auch Videobearbeitung erlaubt.

Für blinde Nutzer perspektivisch interessant: Eine KI, die Videos für uns durchsucht, beschreibt und zusammenfasst. Aktuell noch eher ein Werkzeug für Profis und Entwickler, aber die Richtung stimmt.

Gemini und ChatGPT können auch Videos generieren

Auch hier gilt: Die klassischen Chatbots holen schnell auf. Gemini kann inzwischen kurze Videoclips generieren (per Veo-Modell), ChatGPT plant ähnliches. Für einfache Animationen oder kurze Szenen reicht das oft schon.

Use Case: Voiceover für deine Videos

Ein konkretes Workflow-Beispiel, das viele Bausteine kombiniert:

Skript schreiben in einem Chatbot deiner Wahl.
Stimme aufnehmen oder synthetisieren (ElevenLabs, eigene Stimme).
Video produzieren (HeyGen mit Avatar, oder klassische Bildschirmaufnahme).
Übersetzen und dubben (ElevenLabs Voice Dubbing).
Optional: Mit Auphonic noch nachmastern.

Das alles ohne Studio, ohne Kameramann, ohne Tonstudio. Was vor zwei Jahren ein Profi-Setup gebraucht hätte, geht heute in verblüffender Qualität am Schreibtisch.

Audioschnitt und Nachbearbeitung

Auphonic

Auphonic (auphonic.com) ist ein Dienst für automatisches Audio-Mastering.

Audio hochladen, Auphonic optimiert Lautstärke, entfernt Rauschen, gleicht Pegel an.
Perfekt für Podcasts, Interviews, Aufnahmen.
Bedienbarkeit: Mit Screenreader gut bedienbar. Klare Web-Oberfläche.
Workflow: Aufnehmen, bei Auphonic hochladen, fertiges Audio herunterladen.

Für alle, die regelmäßig Audio aufnehmen, spart Auphonic enorm viel Zeit.

Descript

Auch mit Descript können wir Audios bearbeiten. Es geht sogar noch einen Schritt weiter: Descript transkribiert das Gesprochene, lässt uns den Text bearbeiten und bearbeitet anhand dessen das Audio. Wir können sozusagen durch reines Bearbeiten des Texts schneiden.

Rechtliches: Wem gehören die generierten Werke?

Bevor du etwas Generiertes veröffentlichst oder verkaufst, ist ein Blick in die AGB des Tools Pflicht. Die Regeln unterscheiden sich stark zwischen Anbietern und Tarifen.

Zwei Beispiele zum Vergleich (Stand Mai 2026):

Suno: In der Gratis-Variante gehören die Songs Suno selbst. Du darfst sie privat nutzen, aber nicht kommerziell. Erst das Pro- oder Premier-Abo gibt dir die kommerziellen Rechte, und das gilt nur für Songs, die im Abo-Zeitraum entstanden sind. Wer also einen Suno-Song verkaufen oder auf Spotify stellen will, muss zum Zeitpunkt der Generierung bezahlt haben.
NotebookLM: Google beansprucht keinen Besitz an deinen generierten Inhalten, also Podcasts, Zusammenfassungen, Videos. Für die hochgeladenen Quellen bist du aber selbst verantwortlich. Lade also keine fremden urheberrechtlich geschützten PDFs hoch, an denen du keine Rechte hast.

Dazu kommt eine Ebene drüber, unabhängig vom Tool: In den USA ist rein KI-generiertes Material nicht urheberrechtlich geschützt, weil das Urheberrecht einen menschlichen Schöpfer voraussetzt. In Deutschland ist die Lage ähnlich. Sobald du das Werk substanziell bearbeitest oder in einen größeren eigenen Kontext einbettest, ist der menschliche Anteil aber geschützt.

Faustregel: Vor jedem kommerziellen Einsatz die AGB des Tools prüfen. Bei den meisten gilt grob: Gratis-Variante ist privat ok, kommerziell heikel. Bezahl-Variante meist ok, aber Detail-Bedingungen lesen.

Ethik: Deepfakes und Verantwortung

Stimmen klonen, Avatare erzeugen, Videos generieren ist faszinierend, aber gefährlich, wenn man es nicht ernst nimmt.

Niemandes Stimme oder Bild ohne Einverständnis klonen. Wenn du jemandem die Stimme oder das Gesicht digital nachbaust, brauchst du dessen Einwilligung. Alle Tools und das Gesetz verlangen das ausdrücklich!
KI-generierte Inhalte kennzeichnen. In Beschreibungen, Untertiteln oder Begleittexten klar machen: Das hier ist KI-generiert. Der EU AI Act schreibt das ab 2026 sogar vor.
Deepfakes erkennen lernen. Gefälschte Stimmen und Videos sind ein reales Problem, vor allem bei politischen Manipulationen oder Enkeltrick-Anrufen mit geklonter Stimme. Sei kritisch bei dem, was du hörst und siehst, gerade wenn es emotional aufgeladen ist.

Allgemein zur Geschwindigkeit der Entwicklung

Die Plattformen in diesem Modul entwickeln sich schneller als alle anderen, die wir bisher gesehen haben. Was heute noch ein eigenständiger Spezialdienst ist (Suno für Musik, ElevenLabs für Stimmen, HeyGen für Avatare), kann in einem halben Jahr direkt in Gemini oder ChatGPT eingebaut sein. Wir sehen das jetzt schon: Musik in Gemini, Bildgenerierung in ChatGPT, Video-Ansätze in beiden.

Mein Tipp: Bleib bei den großen Chatbots als Hauptwerkzeug, und greife zu den Spezial-Tools, wenn du das Maximum aus einer Disziplin holen willst.

Zum Ausprobieren

Suno-Song: Erstelle einen Song in Suno oder Gemini. Thema frei wählbar, gerne eine Hymne für den DBSV-Jugendclub oder unseren KI-Workshop.
NotebookLM-Podcast: Lade ein PDF hoch (z. B. eines unserer Modul-Dokumente) und generiere dazu einen Audio-Podcast. Hör ihn dir an.
Stimme klonen: Wenn du magst und einen Account hast, klone deine eigene Stimme bei ElevenLabs. Lass damit einen Text vorlesen.
Bild und Alt-Text: Erstelle ein Bild mit DALL-E in ChatGPT oder mit Imagen in Gemini. Lass dir anschließend vom selben Chatbot einen Alt-Text dazu schreiben.

Teile deine Ergebnisse hier im Thread. Songs, Audiobeispiele, Bilder, alles willkommen, solange du es teilen magst.

Abschluss des Workshops

Das war unser KI-Workshop. In fünf Modulen haben wir gelernt:

Was KI ist und wie sie funktioniert.
Welche Tools uns im Alltag helfen.
Wie wir Chatbots bedienen und unsere Daten schützen.
Wie wir eigene Chatbots bauen und KI-Agenten verstehen.
Was KI kreativ alles kann.

Das Wichtigste: KI entwickelt sich rasant weiter. Bleib neugierig, probier aus, tausch dich aus. Genau dafür gibt es diesen Thread und das offSight-Forum.

Danke fürs Mitmachen!

Linkliste

Suno: https://suno.com
Gemini: https://gemini.google.com
ElevenLabs: https://elevenlabs.io
ElevenLabs Voice Dubbing: https://elevenlabs.io/dubbing-studio
NotebookLM: https://notebooklm.google.com
HeyGen: https://heygen.com
TwelveLabs: https://twelvelabs.io
DALL-E (in ChatGPT): https://chatgpt.com
Auphonic: https://auphonic.com
Whisper: https://github.com/openai/whisper

Thaliruth · Beitrag von **Thaliruth** » 18.05.2026, 03:19

Hallo zusammen,

ich habe mich heute bewusst hier registriert, nachdem ich eure Podcast-Episoden zum Thema lokale KI gehört habe. Zunächst einmal möchte ich sagen, dass ich eure KI-Reihe wirklich interessant und gelungen finde. Dennoch gibt es einige Punkte, die ich aus meiner persönlichen Erfahrung heraus gerne ergänzen beziehungsweise etwas differenzierter darstellen möchte, da ich mich selbst seit langer Zeit intensiv mit lokaler KI beschäftige und unter anderem viele Modelle aus der Ollama-Bibliothek nutze.

Zunächst möchte ich auf das Thema Hardware eingehen. Im Podcast wurde mehrfach erwähnt, dass man für lokale KI zwingend die neueste Hardware sowie sehr viel Arbeitsspeicher benötigt. Das sehe ich in dieser Form nicht ganz so. Entscheidend ist in erster Linie die Grafikkarte beziehungsweise der verfügbare VRAM. Genau dort werden die Modelle zunächst geladen. Natürlich existieren auch Modelle, die ausschließlich über die CPU oder den Arbeitsspeicher laufen, die meisten modernen Modelle profitieren jedoch massiv von einer dedizierten Grafikkarte.

Wenn beispielsweise ein Modell etwa 12 GB groß ist und man eine Grafikkarte mit 16 GB VRAM besitzt, dann wird das Modell vollständig im Grafikspeicher geladen. Dadurch arbeitet die KI deutlich schneller und reagiert wesentlich flüssiger. Nutzt man hingegen größere Modelle, beispielsweise mit 20 GB Größe, während die Grafikkarte nur 16 GB VRAM besitzt, wird ein Teil in den Arbeitsspeicher ausgelagert. Dadurch sinkt die Geschwindigkeit entsprechend. Ohne dedizierte Grafikkarte funktioniert lokale KI zwar ebenfalls, allerdings deutlich langsamer. Die CPU spielt dabei zunächst eine eher untergeordnete Rolle. Viel wichtiger ist die Frage, was man konkret mit der KI machen möchte und in welchem Umfang sie genutzt wird.

Ich entwickle derzeit selbst ein vollständig barrierefreies KI-Programm für Windows, das auf Ollama basiert. Ollama läuft dabei lediglich im Hintergrund, während meine Anwendung die eigentliche Bedienoberfläche bereitstellt und die Modelle darüber verwaltet werden können. Das gesamte System ist speziell auf Barrierefreiheit mit Screenreadern ausgelegt.

Aktuell habe ich beispielsweise nur drei Hauptmodelle installiert, arbeite jedoch mit über zwanzig unterschiedlichen Konfigurationen beziehungsweise Untermodellen. Ich nutze dafür ein eigenes Layer-System. Das bedeutet, dass ein Basismodell mit verschiedenen Parametern, Kontexten und Einstellungen kombiniert wird. So kann ich beispielsweise unterschiedliche Temperaturwerte oder spezielle Kontexte für Coding-Aufgaben definieren, ohne jedes Mal ein komplett neues Modell installieren zu müssen. Dadurch spart man Speicherplatz und kann ein einziges Modell sehr flexibel anpassen.

Mein KI-Programm umfasst jedoch weit mehr als nur Chatfunktionen. Unter anderem integriere ich derzeit Sprach- und Audiotechnologien. Ich verwende hierbei nicht Whisper, sondern WhisperX, da die Qualität und Genauigkeit aus meiner Sicht deutlich besser ist. Zusätzlich nutze ich Speaker-Diarization von Hugging Face, wodurch mehrere Sprecher automatisch erkannt und getrennt werden können. Das Programm unterscheidet dann beispielsweise Sprecher 1, Sprecher 2 und Sprecher 3. Zeitstempel können ebenfalls optional eingeblendet werden.

Darüber hinaus unterstützt mein System Voice Cloning und weitere Funktionen. Besonders umfangreich ist jedoch der Projektbereich meines Programms. Projekte und Daten werden lokal auf meinem Rechner gespeichert und verarbeitet. Die KI arbeitet dabei vollständig auf meinem System. Dadurch lassen sich Entwicklungsprojekte direkt lokal verwalten, bearbeiten und organisieren.

Ein weiteres wichtiges Element meines Programms ist ein integriertes Token-Warning-System. Wenn ein Chatverlauf zu groß wird, erscheint automatisch eine Warnung. Anschließend wird ein Protokoll erstellt und lokal gespeichert. Dieses Protokoll kann später genutzt werden, um einen neuen Chat anzulegen und der KI den bisherigen Kontext erneut bereitzustellen. Gerade bei lokalen Modellen ist das wichtig, da große Kontexte nicht nur die Leistung beeinträchtigen, sondern Modelle mit der Zeit auch Informationen verlieren oder Inhalte miteinander vermischen können.

Auch beim Thema Modell-Updates möchte ich gerne etwas ergänzen. Im Podcast wurde erwähnt, dass Modelle Updates erhalten würden. Genau genommen ist das jedoch nicht der Fall. Modelle aus der Ollama-Bibliothek werden einmal heruntergeladen und bleiben anschließend unverändert. Erscheint eine neue Version, handelt es sich im Grunde um ein neues Modell, das separat heruntergeladen werden muss. Ollama selbst kann natürlich Updates erhalten, etwa zur Unterstützung neuer Hardware oder zur Optimierung von Prozessen. Die eigentlichen Modelle werden jedoch normalerweise nicht direkt aktualisiert.

Mein aktuelles System besteht aus 64 GB DDR5-Arbeitsspeicher, einem Intel Core Ultra i9 sowie einer NVIDIA RTX 5060 mit 16 GB VRAM. Zusätzlich nutze ich hochwertige NVMe-SSD-Speicher direkt auf dem Mainboard. Mit diesem Rechner lässt sich bereits sehr viel im Bereich lokaler KI umsetzen. Natürlich stößt auch eine 16-GB-Grafikkarte irgendwann an ihre Grenzen, insbesondere bei größeren Modellen. Je nach Aufgabe können Antworten dann durchaus 10 bis 15 Sekunden benötigen.

Was ich ebenfalls empfehlen kann, ist die Nutzung von sogenannten Modell-Dateien oder Konfigurationsdateien mit vordefinierten Parametern und Kontexten. In meinen Konfigurationen habe ich beispielsweise bereits Vorgaben zu WCAG-Standards oder bestimmten Programmiersprachen hinterlegt. Dadurch muss ich diese Informationen nicht ständig erneut in den Prompt schreiben.

Ich hoffe wirklich, dass mein Beitrag nicht falsch verstanden wird. Ich möchte keineswegs belehrend wirken. Mir ging es lediglich darum, einige technische Aspekte aus meiner persönlichen Erfahrung heraus zu ergänzen. Gerade weil ich selbst seit langer Zeit im IT-Bereich tätig bin, meine Systeme grundsätzlich selbst zusammenbaue und mich intensiv mit lokaler KI beschäftige, wollte ich meine Sichtweise teilen.

Außerdem liegt mein Fokus stark auf echter Barrierefreiheit. Viele Entwickler orientieren sich zwar an WCAG-Standards, testen ihre Programme jedoch nie mit einem Screenreader. Genau dort entstehen oft die größten Probleme. Blinde Entwickler haben hier häufig einen anderen Blickwinkel, weil selbst kleinste Details entscheidend sein können. Genau darauf achte ich bei meinen Anwendungen besonders.

Mein KI-Programm befindet sich derzeit ungefähr bei 65 % Entwicklungsfortschritt. Die Kernfunktionen laufen bereits stabil, aktuell arbeite ich noch an weiteren Audiofunktionen, Voice Cloning und zusätzlichen Systemkomponenten. Langfristig soll daraus eine zentrale barrierefreie Plattform entstehen, sodass man nicht für jede Aufgabe separate Programme benötigt.

Sobald das Projekt vollständig abgeschlossen ist, werde ich es sehr wahrscheinlich ausführlich in einer eigenen Podcast-Episode vorstellen.

Viele Grüße
Thaliruth

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 19.05.2026, 20:32

Hallo Thaliruth,
ich danke dir für deine sehr ausführliche und differenzierte Rückmeldung!
Und dein Projekt klingt wirklich spannend. Ich freue mich schon auf ein Release.

Deine Punkte sind alle korrekt.
Mit lokaler KI kann man bereits einiges machen. Du schreibst, du kommst aus der IT und kennst dich offensichtlich gut mit der Materie aus. Genau da ist der Knackpunkt. Ich habe im Seminar versucht, KI-Neulinge als auch KI-Fortgeschrittene abzuholen. Du scheinst schon eher KI-Experte zu sein. Eigene Modelfiles bauen, Werte wie Temperature bewusst zu setzen sind schon Funktionen für sehr fortgeschrittene Nutzer. Hab da immer den Anwender im Blick, der bei ChatGPT was eingibt und sich damit schon nicht 100% sicher fühlt, weil er nicht wirklich weiß, was im Hintergrund passiert.
Du hast Recht, dass KI lokal keine High-End Hardware braucht. Auch ohne GPU kannst du theoretisch schon einiges machen. Dein Setup ist natürlich fortgeschritten und reicht für Vieles, was lokale LLMs oder andere Modelle können. Hier könnten wir noch ein paar Spezifikationen konkret ergänzen. Das nehme ich mit.

Und, teile gerne den Fortschritt deines Projekts. Ich bin wirklich gespannt! :)

Viele grüße
Ben

Thaliruth · Beitrag von **Thaliruth** » 19.05.2026, 21:20

Hallo Ben, ich werde mich hierzu natürlich sehr gerne noch einmal melden, sobald ich eine finale Version meines Programms fertiggestellt habe. Und selbstverständlich stimme ich dir vollkommen zu, was den Punkt Anfängerfreundlichkeit und den einfachen Einstieg betrifft. Das war ein Aspekt, den ich in dieser Form tatsächlich nicht ausreichend berücksichtigt hatte. So wie du es erklärt hast, ist es gerade für Einsteiger wirklich sehr verständlich und sinnvoll aufgebaut.

Ich persönlich denke allerdings auch, dass es im Alltag vermutlich nur wenige blinde Menschen gibt, die tatsächlich eine lokale KI einsetzen würden. Letztendlich spielt dabei natürlich immer eine große Rolle, wofür man eine lokale KI überhaupt benötigt und wie man diese konkret einsetzen möchte.

Für mich persönlich hat sich der Mehrwert vor allem seit 2022 deutlich gezeigt. Seit meiner Erblindung musste ich leider feststellen, dass viele Programme, die ich früher bevorzugt für meine Social-Media-Arbeit genutzt habe, inzwischen für mich nicht mehr wirklich zugänglich oder barrierefrei nutzbar sind. Durch die enormen Fortschritte der KI-Technologie entwickle ich deshalb inzwischen mithilfe von KI meine eigenen Programme für den Computer, die vollständig barrierefrei und mit meinem Screen Reader bedienbar sind.

Dadurch konnte ich mir in vielen Bereichen eine enorme Erleichterung und gleichzeitig einen deutlich besseren Workflow schaffen. Ich habe bereits zahlreiche Programme für mich selbst entwickelt – sei es ein schlichtes FTP-Programm, um mich mit meinem Server zu verbinden und Dateien auszutauschen, oder ein übersichtliches E-Mail-Programm, das nicht so überladen ist wie beispielsweise Outlook. Outlook Classic wird in einigen Jahren ohnehin verschwinden und durch die cloudbasierte Variante ersetzt werden. Diese habe ich bereits getestet und sie ist leider ebenfalls alles andere als barrierefrei.

Zusätzlich habe ich mir eine eigene Plattform geschaffen, mit der ich systemübergreifend meine Notizen verwalten kann – sowohl am PC als auch am iPhone. Dafür nutze ich eine webbasierte Lösung, die den iCloud-Notizen ähnelt, da selbst die Apple-Webseite für mich nicht besonders übersichtlich ist, wenn ich darüber meine Notizen verwalten möchte.

Dank der KI konnte ich mir bereits in vielen Bereichen meines Alltags sehr große Erleichterungen schaffen und entwickle ständig weitere Programme. Derzeit möchte ich zudem versuchen, ein barrierefreies Programm zu erstellen, mit dem ich wieder professionell in die Videoproduktion und den Videoschnitt einsteigen kann, so wie ich es früher bereits gemacht habe.

Und auch bei dem Thema Modellierung verschiedener KI-Modelle sowie dem Arbeiten mit Model-Files und Parametern hast du natürlich vollkommen recht. Das ist definitiv nicht jedermanns Sache. Auch ich experimentiere hier noch sehr viel mit unterschiedlichen Einstellungen und teste zahlreiche Modelle.

Aktuell habe ich bereits ein Modell gefunden, das ich bevorzugt für meine Mittelalter-Geschichten verwende. Dieses Modell ist allerdings etwas größer, als es meine Grafikkarte optimal bewältigen kann. Deshalb dauert die Generierung einer vollständigen Antwort entsprechend länger. Wenn ich beispielsweise eine Geschichte mit ungefähr 6000 Zeichen erstellen lasse, liegt die Generierungszeit bei etwa drei Minuten und dreißig Sekunden. Für mich persönlich ist das jedoch ein akzeptabler Kompromiss.

Wenn ich hingegen ein kleineres Modell verwende, das vollständig in den Grafikspeicher passt, liegt die Reaktionszeit bei unter einer Minute. Daran merkt man schon sehr deutlich, welchen Unterschied eine leistungsfähige Grafikkarte machen kann. Ich werde mir sicherlich irgendwann eine Grafikkarte mit deutlich mehr Videospeicher kaufen, sobald sich die Preise wieder etwas stabilisiert haben.

Aber letztendlich muss man hier für sich selbst passende Kompromisse finden. Das Modell, das ich aktuell bevorzugt nutze, ist beispielsweise auch im Bereich Programmierung äußerst produktiv und liefert sehr gute Ergebnisse. Dafür nehme ich die längeren Antwortzeiten gerne in Kauf. Kleinere Modelle arbeiten zwar oft deutlich schneller, qualitativ merkt man allerdings teilweise erhebliche Unterschiede, und das habe ich bereits häufig festgestellt.

Zurzeit teste ich außerdem viele unterschiedliche Modelle mit diversen Model-Files und Parametern, die speziell für mich als Koch besonders interessant sind. Gerade im kulinarischen Bereich gibt es inzwischen durchaus einige spannende Modelle.

Ich selbst würde mich dabei nicht unbedingt als KI-Experten bezeichnen. Ich bin eher ein technisch versierter Mensch und liebe Herausforderungen. Wenn ich mich überhaupt als Profi bezeichnen würde, dann eher in meinem eigentlichen Beruf als Koch, den ich mit großer Leidenschaft ausübe.

Im IT-Bereich war ich zwar Anfang der 2000er Jahre eine Zeit lang selbstständig, letztendlich arbeite ich aber bereits seit den 1990er Jahren mit Computern, Serversystemen, Webseiten und Kundenbetreuung. Daher kenne ich mich in diesem Bereich ebenfalls recht gut aus.

Aber gut, das führt jetzt etwas vom eigentlichen Thema weg. Wie gesagt, ich werde mich sehr gerne noch einmal privat bei dir melden

Beitrag von **Robbie Sandberg Site Admin** » 26.05.2026, 13:32

Hier sind die Podcast-Episoden wie folgt aufbereitet. Zu jedem Modul gibt es einen Link, mit dem die Episode direkt abgespielt werden kann.
Da die Episoden recht lang sind und jeweils mehrere Themen behandeln, sind sie in Kapitel unterteilt. Um diese direkt ansteuern zu können, gibt es einen weiteren Link, der auf die Podcast Website führt. Hier muss man auf „Kapitelmarken“ klicken und findet dann unter der gleichnamigen Überschrift eine Liste der Kapitel, die durch Enter direkt abgespielt werden können.
Alternativ kann eure Podcast-App wahrscheinlich auch Kapitelmarken verarbeiten.

Modul 1: Was ist KI? – Grundlagen & Überblick
Modul 1 abspielen
Kapitel der Episode:
• Wie funktioniert KI
• Apps und Tools mit KI steuern
• KI-unterstützte Web-Recherche kann Barrieren umgehen
• KI kann halluzinieren
• Prompting für ein gutes Resultat
• Chancen und Risiken
Modul 1 Website

Modul 2: KI-Tools für blinde und sehbehinderte Menschen
Modul 2 abspielen
Kapitel der Episode:
• Wie KI Zugänglichkeit für behinderte Menschen schafft
• Bilder beschreiben, Texte, Objekte und Produkte erkennen
• Vergleich zwischen klassischer und KI-gesteuerter Texterkennung: Vor- und Nachteile, Handschrifterkennung
• KI-Features in Sprachausgaben: Websites zusammenfassen, unzugängliche Apps bedienen, Grafiken beschreiben
• Zukunftsaussichten: KI assistiert bei Barrieren, führt Mausklicks aus oder füllt unzugängliche Formulare aus
• Die Rayban-Meta Smart-Brille
• Live-Erkennung mit OOrion und ScribeMe: Hindernisse melden, Ziele finden, kontinuierliche Umgebungsbeschreibung
Modul 2 Website

Modul 3: Chatbots blind bedienen + Datenschutz & Offline-KI
Modul 3 abspielen
Kapitel der Episode:
• Chatbots blind bedienen
• Datenschutz und weitere Bedientipps
• KI offline nutzen
Modul 3 Website

Modul 4: Prompting für Fortgeschrittene, eigenen Chatbot erstellen – ohne programmieren
Modul 4 abspielen
Kapitel der Episode:
• Prompting für Fortgeschrittene, Tipps und Kniffe
• Chatbots den eigenen Bedürfnissen anpassen
• Eigene Chatbots anlegen, um bestimmte Aufgaben zu automatisieren
• Demo des Anlegens eines Chatbots in Gemini
Modul 4 Website

Modul 5: Kreativ mit KI – Musik, Stimmen, Audio & Bilder
Modul 5 abspielen
Kapitel der Episode:
• Musik generieren
• Stimmen generieren und klonen, Live-Übersetzung und eigene Stimme in anderen Sprachen sprechen lassen
• Videos in anderen Sprachen beschreiben und übersetzen lassen
• Aus Text- und Bildmaterial Podcasts und Präsentationen mit KI-Stimmen erstellen
• Bilder generieren
• Videos Generieren, eigenen Live-Avatar für Präsentationen erstellen
• Audiobearbeitung
• Recht und Ethik
Modul 5 Website

Beitrag von **Robbie Sandberg Site Admin** » 30.05.2026, 08:39

Das Gems Feature ist Teil des Menüs „Weitere Optionen“, das teil der Seitenleiste ist.
Wenn ihr Gems nicht findet, prüft zunächst ob die Seitenleiste geöffnet ist. Dafür gibt es einen Schalter, mit der Schnellnavigationstaste b zu finden. Wenn der Schalter „Seitenleiste schließen“ heißt, ist die Seitenleiste geöffnet. Nur dann ist Gems zu finden.
Bei mir wurde die Option Gems allerdings nicht in der Seitenleiste angezeigt. Daraufhin hatte ich einen längeren, unbefriedigenden Chat mit Gemini.
Gemini empfahl zunächst, direkt über gemini.google.com/gem auf das Feature zuzugreifen. Das ging nicht. Gemini bestätigte mir dann, dass das nicht geht. Nur ein Beispiel dafür, dass Chatbots einen gerne mal in die Wüste schicken.
Auf meine Nachfragen hin erklärte Gemini mehrmals, dass das Feature aus Datenschutzrechtlichen Gründen in Europa nicht freigeschaltet ist. Mehr war aus dem Bot nicht rauszuholen.
Das ist kompletter Humbug. Durch Rumprobieren habe ich es letztlich geschafft, an Gems ranzukommen. So hat’s funktioniert.
Unter dem Google Konto gibt es ein Menü „Einstellungen“. Öffnet man das mit Enter, ist die Option „Persönlicher Kontext“ fokussiert. Laut JAWS ist es eine von 11 Optionen, aber die Anderen lassen sich mit den Cursor-Tasten nicht auswählen, weder in Chrome, noch in Edge.
Ich habe dann den JAWS-Cursor aktiviert und damit den Bildschirm erkundet. So fand ich das wort „Gems“. Mit der Braille-Zeile habe ich es angeklickt, habe wieder den PC-Cursor aktiviert und dann gab es die Überschrift „Gems-Manager“.
Seit dem wird der Link Gems fast immer im Menü für weitere Aktionen angezeigt, aber es kommt vor, dass ich den beschriebenen Prozess wiederholen muss.

Beitrag von **Robbie Sandberg Site Admin** » 03.06.2026, 10:40

Ich habe mich in den letzten Tagen viel mit Gemini beschäftigt. U.A. habe ich mir ein Gem gebaut bzw. Bin noch dabei, das mir Wanderrouten recherchiert und alle möglichen Infos dazu aufbereitet, die Blinden sonst nicht zugänglich sind oder auf diversen mehr oder weniger zzugänglichen Websites mühsam zusammengesucht werden müssten. Zum Schluss packt es mir alle für die Route wichtigen POI in eine GPX-Datei.
Das ist ein echter Gamechanger für uns. Ich bin begeistert.
Gleichzeitig merkt man bei einer solch intensiven Beschäftigung mit einem Chatbot aber auch, wo es bei KI noch hakt. Ein Beispiel: Bevor ich mit dem Gem anfing, habe ich Gemini einfach so nach Wanderrouten gepromptet und um Detaillierte Wegbeschreibungen gebeten. DA kam zur Antwort: „Ich kann dir keine Tastaturbedienbaren Wanderungen anbieten.“ hä?!
Nach mehrfachem Rückfragen stellte sich heraus, dass mein Prompt mit dem persönlichen Kontext ins Gehege kam, wo ich hinterlegt hatte, dass Gemini bei Software-Themen immer von einer reinen Tastaturbedienung ausgehen soll. Wie der Bot zu dem Schluss kam, dass ich auch Wanderungen per Tastatur bedienen möchte, tja wer weiß das.

Auch musste ich feststellen, dass es nicht trivial ist, ein Systemprompt für ein relativ komplexes Gem zu formulieren. Es ist zwar niedrigschwelliger als zu programmieren, aber ein Programm führt meinen Code aus und interpretiert ihn nicht. Es führt nicht irgend eine andere Option aus, die es für besser hält. Ein Gem ist an sich schon ein Programm, das eigene Parameter mitbringt, bevor ich ihm überhaupt sage, was es tun soll. Und das ist manchmal hinderlich.
Ein Gem ist wie ein Kumpel, den ich losschicke, um Bier zu kaufen. Der Kumpel kommt vom Einkauf zurück und sagt, „ich dachte, du solltest vielleicht weniger Bier trinken, weil du sonst dick wirst, Da habe ich dir stattdessen Hagebuttentee mitgebracht“. Ich wollte aber Bier verdammt nochmal! Ich schicke den Kumpel also wieder los und Sage: „Du sollst Bier holen. Wenn dir unterwegs der Gedanke kommt, dass etwas anderes für mich besser wäre, verwirf diesen Gedanken. ES ist dir verboten, mit etwas anderem als Bier zurückzukommen.“
Und genau so läuft das mit dem Gem. Es ist von vornherein darauf programmiert, mir Denkprozesse abzunehmen, Dinge zusammenzufassen oder Schlüsse zu ziehen. Das was eigentlich helfen soll, kann hier eher hinderlich sein. So hat das Wander-Gem z.B. bei Routen die es nicht vollständig im Web abrufen konnte, einfach selbst Tracking-Punkte hinzugefügt. Die ergeben zwar eine Linie zwischen zwei Wegpunkten, entsprechen aber nicht unbedingt der Tatsächlichen Route. Das ist natürlich verherend, wenn man als blinder Wanderer dann wer weiß wo hin geführt wird. DA muss man sich darauf verlassen können, absolut exakte, realexistierende Daten zu bekommen.
Genau wie bei dem Kumpel mit dem Bier müssen im Prompt also explizite Verbote formuliert werden, die das Ziel haben, eigenmächtiges Handeln zu unterbinden. Da steht dann wirklich, „Erzeuge für jede Route eine herunterladbare GPX-Datei aus gesicherten Datenquellen. Es ist dir strickt verboten, Routenpunkte zu extrapolieren“.
Das sind Dinge, die ich durch Ausprobieren und immer wieder Rücksprache mit Gemini gelernt habe. Ich hatte immer zwei Instanzen gleichzeitig auf. Eine für das Gem und eine für ein fortlaufendes Gespräch mit Gemini, wo ich gefragt habe: Warum verhält sich das Gem so? Wie kann ich das verhindern? Wie formuliere ich die Anweisung so, dass sie garantiert befolgt wird? Dann im anderen Fenster wieder das Systemprompt angepasst und erneut versucht.
Das war aufwändig, aber auch höchst interessant, weil man dabei verstehen lernt, wie diese Modelle Tatsächlich funktionieren.
Auch musste ich lernen, dass ein zu komplexes Prompt dazu führt, das einzelne Anweisungen, obwohl klar definiert, nicht ausgeführt werden. Das ist wie bei dem Kumpel, der jetzt nicht nur den Auftrag hat Bier zu holen, sondern dem ich sage: „Besorge außerdem noch ungarische Chips, gesalzene Erdnüsse und Alka-Seltzer. Wenn du keine ungarischen Chips kriegst, nimm die mit Peperoni. Wenn es die nicht gibt, nimm keine. Komme bloß nicht mit Flips zurück. Statt Alka-Seltzer kannst du auch Aspirin nehmen, aber keinesfalls Ibu.““
Natürlich vergisst er dann die Hälfte und kommt doch mit Flips zurück.
So ist es auch bei dem Gem. Ich finde allerdings, dass eine Software sich nicht auf Vergesslichkeit rausreden darf. ES müsste schon möglich sein, das Systemprompt Anweisungsgetreu abzuarbeiten. Zurzeit führt eine hohe Komplexität aber noch zu Gedächtnisverlusten.
Trotzdem bin ich total geflasht was damit möglich ist und wie sich das für uns nutzen lässt. Wenn ich mein Wander-Gem optimiert habe, werde ich es hier teilen.

Benjamin Hofer · Beitrag von **Benjamin Hofer** » 22.06.2026, 09:14

Hallo,
wie auch während der Seminar-Termine erwähnt, kann KI mittlerweile auch sehr effektiv in der Software-Entwicklung eingesetzt werden. Als erfahrener IT'ler habe ich da zwar einen Vorteil - ich weiß, wie Software funktioniert und kann auch selbst programmieren - auch Nichtprogrammierer können aber mit KI durchaus eigene, coole Apps bauen.

Ein Beispiel: Ich habe ein voll zugängliches WM-Dashboard für die aktuell laufende Fußball-WM gebaut, mit Live-Tabellen, ausführlichen Spielstatistiken, Mannschaftsaufstellungen etc. alles screenreader-optimiert.
Das Coole ist: Mit Tools wie Claude Code oder Google AI Studio kann das jeder, der technisch grundsätzlich fit ist. Man muss für solche Dinge kein Programmierer mehr sein.

Ich werde darüber hier noch etwas ausführlicher schreiben.

Links:
- Mein WM-Dashboard: https://wm2026.bhofer.de
- Claude Code: https://claude.ai -> dann ins Menü und auf "Code". Man kann aber auch im normalen Claude-Chat programmieren, dazu am besten das Modell "Opus 4.8" auswählen. Im Menü gibt es einen Punkt "Artefakte", wo man sich eigene Webanwendungen entwickeln lassen und diese dann direkt im Browser bedienen kann.
- Google AI Studio: https://aistudio.google.com/ - die Bedienung ist komplexer.

offSight

KI verstehen und clever nutzen

KI verstehen und clever nutzen

Housekeeping und ein paar Infos vorab

Modul 1 - Was ist KI? Definition, erste Schritte

Ergänzungen zu Modul 1

Re: Ergänzungen zu Modul 1

Re: Ergänzungen zu Modul 1

Modul 2: KI- barrierefrei - Anwendungen für Blinde und Sehbehinderte

Modul 2 - Linkliste: alles auf einen Blick

Praxis: Die wichtigsten Tastenkürzel für KI-Funktionen von JAWS (Sprechendes Bild KI)

Ergänzung: Be My Eyes für den PC

Praxis: Wie hat mir KI geholfen? Teilnahme an einem Quiz leicht gemacht

Ergänzungen zu Modul 2 - Erfahrungen mit Scribe Me

Feedback zu Scribe Me -

Modul 3 - KI-Chatbots blind bedienen, Datenschutz, KI offline nutzen

Fragen zu Modul 3

Antworten zu Hawkeye's Fragen auf Modul 3

Modul 4 - Eigenen KI-Agenten erstellen ohne Programmieren

Mein SightCity-Gem

Modul 5 – Kreativ mit KI: Musik, Stimmen, Audio, Bilder und Video

Ergänzung zu lokalen Modellen

Re: Ergänzung zu lokalen Modellen

Re: Ergänzung zu lokalen Modellen

Alle fünf Module zum Nachhören

Fix falls die Option Gems in Gemini nicht angezeigt wird

Autoritäre Gem-Erziehung verhindert Hagebutten-Tee

Die Fußball-WM 2026 zugänglicher machen