KI verstehen und clever nutzen

Langstock kaputt? Fragen zum Screenreader? Widerspenstiger Führhund? Hier findest du Antworten und Lösungen.
Antworten

KI verstehen und clever nutzen

Beitrag von Robbie Sandberg Site Admin » 21.03.2026, 18:31

Dieser Thread Dient zum Austausch während unserer Seminarreihe "KI verstehen und clever nutzen" und darüber hinaus. Hier könnt ihr eure Erfahrungen und Fragen teilen.

Detaillierte Übersicht der Seminarinhalte:
Modul 1: Was ist KI? – Grundlagen & Überblick
Inhalte
• Was ist KI? Kurze Geschichte, Begriffe sortieren (ML, Deep Learning, LLM, etc.)
• Wie lernt eine KI? Datensätze, Training, Modelle – anschaulich erklärt
• Klassische Anwendungsfälle: Object Detection (“Was sieht die Kamera?”), Spracherkennung, Übersetzung
• Sprachmodelle (LLMs): Wie funktionieren ChatGPT & Co.? Was passiert, wenn ich etwas eintippe?
• Erste Schritte Prompting: Was ist ein Prompt? Warum ist die Formulierung wichtig? – Klarheit, Ziel, was soll die KI für mich tun?
• Chancen und Risiken der KI: Effizienz, Produktivität vs. Halluzinationen, Probleme
Praxis
• Gemeinsam einen Chatbot ausprobieren (ChatGPT, Gemini)
• Vergleich: gleiche Frage, verschiedene Formulierungen → unterschiedliche Ergebnisse
Takeaway
Grundverständnis: Was KI kann, was sie nicht kann, wie man mit ihr redet, wo Chancen und Risiken liegen.
Modul 2: KI-Tools für blinde und sehbehinderte Menschen
Inhalte
• Be My Eyes / Be My AI: Bildbeschreibung per KI – wie gut ist das wirklich? Wo liegen die großen Chancen für Blinde und was kann schiefgehen?
• Seeing AI / Envision / Google Lookout Vergleich der Apps; welche KI-Funktionen bieten sie? Unterschied zu Be My AI
• KI in Screenreadern: NVDA + Add-ons, JAWS, VoiceOver-Integration, TalkBack-Bildbeschreibung: kurze Einführung, Erfahrungen
• Dokumentenerkennung: klassische OCR vs. KI (z.B. handschriftliche Notizen, Briefe, Verpackungen)
• Mainstream KI-Tools als Hilfsmittel: Live-Erkennung in ChatGPT, Gemini oder Copilot
Praxis
• Vergleich: Foto mit 3 verschiedenen Apps beschreiben lassen
• Use-Case-Runde: Teilnehmende teilen ihre Erfahrungen & Lieblingstools
• Gemeinsam neue Szenarien durchsprechen
• Teilnehmende testen bis zum folgenden Termin und tauschen sich im offSight-Forum aus
Takeaway
Persönliche Tool-Empfehlung: Was passt zu meinem Alltag? Verständnis, was die Tools können und was nicht + wie sie arbeiten. Verständnis, wie man diese Tools mit KI-Wissen effektiver einsetzen kann.
Modul 3: KI-Chatbots bedienen + Datenschutz & Offline-KI
Inhalte
Chatbots blind bedienen - ChatGPT, Gemini, Copilot: Bedienbarkeit mit Screenreader (Web & App) - Welcher Chatbot funktioniert für wen am besten? Ehrlicher Vergleich. - Tastaturnavigation, APIs, alternative Interfaces wie BasiliskLLM - Tipps: Custom Instructions, Systemanweisungen, Memory, Voice Mode * Europäische Alternativenmit mehr Datenschutz: z. B. Mistral Le Chat
Datenschutz & Offline-KI - Was passiert mit meinen Daten? Cloud vs. lokal, Trainings-Opt-out - Offline-KI auf dem eigenen Rechner: Ja, das geht – auch ohne Programmierkenntnisse! - Ollama als Tool kurz vorgestellt: Hier können Technikbegeisterte ohne Programmierkenntnisse experimentieren - Demo: Lokales Modell installieren und nutzen (Schritt für Schritt) - Vor-/Nachteile: Geschwindigkeit, Qualität, Privatsphäre
Praxis
• Gemeinsam ein lokales Modell starten (wer mag)
• Chatbot-Vergleich: gleiche Aufgabe in ChatGPT, Mistral Le Chat, Gemini → Ergebnis vergleichen
Takeaway
Wissen, welcher Chatbot für einen funktioniert – und wie man KI auch offline nutzen kann. Wissen, wie die ChatBots Datenschutz handhaben (Opt-in, Opt.out) und was es mit Modelltraining auf sich hat. Grob wissen, was Custom Instructions und Memory sind.
Modul 4: Eigenen Chatbot bauen + Prompting-Meisterklasse
Inhalte
Prompting für Fortgeschrittene - Prompting-Techniken: Klarheit, Rollen, Kontext, Few-Shot, Chain-of-Thought - System-Prompts: Wie man einer KI eine Persönlichkeit gibt - Prompt-Bibliotheken: Vorlagen für wiederkehrende Aufgaben - Typische Fehler und wie man sie vermeidet – KI-Agenten und der Unterschied zu Chatbots
Eigenen Chatbot bauen - Custom GPTs (OpenAI) oder Gemini Gems: Schritt-für-Schritt-Anleitung - Praxisbeispiel 1: Alternativtext-Generator – Bilder beschreiben nach WCAG-Standards - Praxisbeispiel 2: Alltagstricks-Berater – ein Bot, der sich mit Blindenalltagstipps auskennt - Wissensdatenbank einbinden (Dateien hochladen, die der Bot kennen soll) - Testen, iterieren, verbessern
Praxis
• Wir bauen einen eigenen Mini-Chatbot (mit Anleitung)
• Jeder baut einen eigenen Mini-Chatbot (unterschiedliche Anwendungsfälle) im Nachgang; Austausch in der folgenden Session oder im offSight Forum
Takeaway
Ein eigener, funktionierender Chatbot – und das Know-how, weitere zu bauen.
Modul 5: Kreativ mit KI – Musik, Stimmen, Audio & Bilder
Inhalte
Musikgenerierung - Tools: Suno, Gemini - Musik aus Text erzeugen - Demo: Song erstellen mit eigenem Text (DBSV, Jugendclub, KI-Seminar o. anderes Thema) - Bedienbarkeit & Qualität
KI-Stimmen & Stimmklonen - Text-to-Speech: ElevenLabs, OpenAI TTS, Google Gemini TTS - Eigene Stimme klonen – und in anderen Sprachen sprechen lassen - Wichtiger Kontext: Ethik: Deepfakes, Consent, Kennzeichnung - Demo: Stimmklon live erstellen * Demo bei Interesse: Live-Simultanübersetzung im Google Meet ausprobieren
Audioschnitt & Nachbearbeitung - Auphonic: Automatisches Mastering für Podcasts & Aufnahmen - Bedienbarkeit mit Screenreader - Workflow: Aufnehmen → Auphonic → fertig
Bildgenerierung - Wie funktioniert Bilderstellung? - Klassischere KI-Tools: DALL-E, Midjourney, Stable Diffusion – Überblick - Sinnvolle Anwendungsfälle für blinde Menschen (z.B. Social Media) - Alt-Text für KI-generierte Bilder
Praxis
• Song erzeugen (Suno)
• Stimme klonen (ElevenLabs – wer mag)
• Audio nachbearbeiten (Auphonic)
Takeaway
Kreative KI-Tools kennen und einsetzen können. Spaß gehabt.

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Housekeeping und ein paar Infos vorab

Beitrag von Benjamin Hofer » 08.04.2026, 17:40

Willkommen zum Workshop "KI verstehen und clever nutzen"
Ich bin Ben und werde den Workshop leiten.
Heute, am 08.04.2026, starten wir mit dem Workshop.
Wie in Robbie's Beitrag beschrieben, besteht der Workshop aus fünf Modulen.
Da sehr viele Teilnehmer angemeldet sind, wird der Austausch hauptsächlich im Forum bzw. im Chat in der Zoom-Konferenz stattfinden.

Für alle Teilnehmenden und alle, die sonst noch mitlesen: Der Thread hier im Forum wird eine Sammlung aller Handouts inkl. Diskussion unf Fragen sein.
Er dient also als zentrale Anlaufstelle für alle Infos, Fragen und Kommentare.
Ich werde zu jedem der Module einen ausführlichen Post veröffentlichen.
Die Posts erkennt ihr an der Überschrift "Modul 1, Modul 2", etc.

Eine Bitte: Nutzt am besten den Chat in der Zoom-Konferenz (während des Workshops) und das Forum nachher für Fragen. Wir werden aufgrund der hohen Teilnehmerzahl währnd der Konferenz vielleicht nicht auf alle Fragen eingehen können.

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Modul 1 - Was ist KI? Definition, erste Schritte

Beitrag von Benjamin Hofer » 08.04.2026, 17:54

Modul 1 – Was ist KI? Grundlagen & Überblick

Willkommen zum ersten Modul unseres KI-Workshops! Bevor wir in den nächsten Wochen richtig einsteigen, klären wir erstmal die Basics: Was ist KI eigentlich, wie funktioniert sie?
Was kann sie wirklich? Und was nicht?

Was ist Künstliche Intelligenz?

Künstliche Intelligenz (KI) ist ein Überbegriff für Software, die Aufgaben erledigt, für die man normalerweise menschliches Denken braucht: Sprache verstehen, Bilder erkennen, Texte schreiben, Entscheidungen treffen.

Wichtig: KI "denkt" nicht wie wir. Sie erkennt Muster in riesigen Datenmengen und wendet diese Muster an.

Das Ganze passiert oft anhand von Wahrscheinlichkeiten bzw. Vorhersagen.

Damit das funktioniert, braucht man zwei Dinge: große Mengen an Daten und leistungsstarke Rechner, auf denen die KI trainiert wird. Diesen Vorgang nennt man Training: Die KI bekommt Beispiele gezeigt und lernt daraus selbstständig Muster zu erkennen.

Ein anschauliches Beispiel: Man zeigt der KI tausende Bilder von Hunden – aus verschiedenen Blickwinkeln, bei unterschiedlichem Licht, mit Schatten. Irgendwann erkennt sie auf jedem neuen Bild zuverlässig, ob ein Hund zu sehen ist. Dabei ist die Qualität der Daten entscheidend: Wenn man der KI nie Bilder von anderen Vierbeinern wie Katzen zeigt, hält sie am Ende womöglich auch eine Katze für einen Hund.

Ein paar Begriffe, die man einordnen sollte:
  • Machine Learning (ML): Die KI lernt selbst aus Daten, statt fest programmiert zu werden.
  • Deep Learning: Eine spezielle Form von ML mit vielen Schichten – sogenannten neuronalen Netzen. Die sind vom menschlichen Gehirn inspiriert: Viele kleine Einheiten (Neuronen) sind miteinander verbunden und verarbeiten Informationen in mehreren Schichten. Je mehr Schichten, desto komplexere Zusammenhänge kann das Netz lernen. Deep Learning ist besonders stark bei Bildern und Sprache.
  • Large Language Models (LLMs): Sprachmodelle wie ChatGPT oder Gemini. Sie wurden mit gigantischen Textmengen trainiert und können Texte verstehen und erzeugen.
Wie lernt eine KI?

Stark vereinfacht:
  1. Man füttert die KI mit riesigen Datenmengen (Texte, Bilder, Audiodaten).
  2. Die KI erkennt darin Muster und Zusammenhänge.
  3. Nach dem Training kann sie dieses Wissen auf neue Eingaben anwenden.
Beispiel: Ein Sprachmodell hat Milliarden von Sätzen gelesen. Wenn du ihm eine Frage stellst, sagt es das wahrscheinlichste nächste Wort voraus. Das passiert immer und immer wieder. So entstehen ganze Antworten.

Klassische Anwendungsfälle

KI begegnet uns überall, auch wenn wir es nicht immer merken:
  • Bilderkennung: "Was sieht die Kamera?" – Objekte, Personen, Szenen erkennen. Genau das machen auch Apps wie Be My Eyes oder Seeing AI.
  • Spracherkennung: Sprache in Text umwandeln – z. B. Siri, Google Assistant oder jede andere Diktierfunktion.
  • Übersetzung: DeepL, Google Translate – alles KI-basiert.
  • Textgenerierung: ChatGPT, Gemini, Claude, Copilot – Chatbots, die auf Fragen antworten, Texte schreiben, zusammenfassen, übersetzen.
Übrigens: Viele KI-Anwendungen nutzen wir schon seit Jahren, ohne groß darüber nachzudenken:
  • Empfehlungssysteme: Wenn Amazon dir Produkte vorschlägt oder Netflix Serien empfiehlt – dahinter steckt KI, die dein Verhalten analysiert und vorhersagt, was dich interessieren könnte.
  • Textvervollständigung: Wenn dein Handy beim Tippen das nächste Wort vorschlägt, ist das ein kleines Sprachmodell, das Wahrscheinlichkeiten berechnet.
  • Wettervorhersagen: Auch hier kommt zunehmend KI zum Einsatz, um aus riesigen Datenmengen bessere Vorhersagen zu berechnen.
Der KI-Hype: Wie kam es zu Sprachmodellen?

KI-Forschung gibt es seit den 1950er-Jahren, aber lange war sie eher ein Nischenthema. Der große Durchbruch für die breite Öffentlichkeit kam Ende November 2022, als OpenAI ChatGPT veröffentlichte. Plötzlich konnte jeder mit einer KI chatten, die erstaunlich flüssig und hilfreich antwortete – und das kostenlos im Browser.

Innerhalb weniger Tage nutzten Millionen Menschen ChatGPT. Google zog mit Bard nach, das später dann zu Gemini nach, Anthropic brachte Claude heraus, und Meta veröffentlichte offene Modelle und die Meta AI, die wir auch auf den Ray-Ban Meta haben.
Seitdem entwickelt sich das Feld rasant weiter: Die Modelle werden besser, schneller und vielseitiger.
Wir sehen Live-Interaktion mit KI, KI-Agenten, die ganze Aufgaben ausführen etc. - alles basierend auf den Large Language Models.

Sprachmodelle: Wie funktioniert ChatGPT & Co.?

Wenn du ChatGPT etwas schreibst, passiert Folgendes:
  • Dein Text (der "Prompt") wird in Zahlen umgewandelt, die das Modell verarbeiten kann.
  • Das Modell berechnet, welche Antwort am wahrscheinlichsten passt.
  • Es gibt die Antwort Stück für Stück aus.
Kleiner aber wichtiger Hinweis: Das Modell arbeitet intern nicht mit ganzen Wörtern, sondern mit sogenannten Tokens. Ein Token kann ein Wort sein, aber auch nur ein Wortteil oder ein Satzzeichen. Das Wort "Barrierefreiheit" besteht z. B. aus mehreren Tokens. Deshalb ist "Token" nicht dasselbe wie "Wort" – ein Unterschied, der bei Preisen und Limits von KI-Diensten relevant wird.

KI und Kontext
Das Modell hat kein echtes Wissen und nativ keinen Internetzugang. Es arbeitet mit dem, was es im Training gelernt hat. Solche Modelle haben quasi das ganze Internet gelesen und sind auf einem bestimmten Stand eingefroren.
Beispiel: Die Frage "Wer ist der deutsche Bundeskanzler?" beantwortet ein reines Modell falsch, wenn es nicht aktuell ist, wenn also seine Trainingsdaten seit 2023 nicht mehr aktualisiert wurden.
2023 war Olaf Scholz Bundeskanzler, was damals im Internet (News-Artikel, offizielle Infos der Regierung, Blogs, Zeitungen) auftauchte. Das ist, was das Modell weiß.

Das gilt auch für Fragen nach dem aktuellen Datum, der Zeit oder dem Wetter.

Die Chatbots, die wir nutzen (ChatGPT, Gemini) haben daher die Internetsuche und andere Tools schon integriert: Sie wissen, wenn sie ein Tool nutzen müssen, suchen also z. B. im Internet, wenn du nach dem Wetter fragst.
Das nennt sich dann Kontext. Und es macht KI erst richtig nützlich.
Kontext kann übrigens auch eine Datei sein, wie ein PDF, PowerPoint, etc. das du im ChatGPT-Interface hochlädst oder irgendwie anders der KI zur Verfügung stellst.

Das ganze geht auch noch weiter: ChatGPT hat z. B. eine Kooperation mit Komoot, Gemini sucht automatisch bei Google Maps usw.

Erste Schritte: Was ist ein Prompt?

Ein Prompt ist einfach das, was du der KI schreibst oder sagst. Die Qualität deiner Eingabe bestimmt die Qualität der Antwort. Ein paar Grundregeln:
  • Sei klar: Was genau soll die KI tun? Was willst du erreichen?
  • Gib Kontext: Wofür brauchst du das Ergebnis?
  • Definiere das Ziel: Soll die Antwort kurz, ausführlich, in Stichpunkten, in Gedichtform sein? In welchem Stil?
Beispiel: Statt "Erkläre KI" besser: "Erkläre mir in 5 einfachen Sätzen, was Künstliche Intelligenz ist. Ich habe keine technischen Vorkenntnisse."

Wo sind die Grenzen?

Sprachmodelle wissen nur das, was in ihren Trainingsdaten steckt – und das Training hat irgendwann einen Stichtag. Danach passierte Dinge kennen sie nicht. Deshalb sind Fragen nach dem aktuellen Wetter, der Uhrzeit, dem heutigen Datum oder aktuellen Nachrichten für ein reines Sprachmodell eine echte Herausforderung bis unmöglich.

Genau deshalb können moderne KI-Assistenten wie ChatGPT oder Gemini inzwischen Tools nutzen: Sie erkennen, dass sie für bestimmte Aufgaben Hilfe brauchen, und greifen dann z. B. auf eine Suchmaschine, einen Taschenrechner oder eine Wetter-API zu. Die KI weiß also: "Das kann ich nicht allein – ich brauche ein Werkzeug dafür."

Dieses Prinzip macht auch Dienste wie Perplexity so beliebt: Perplexity kombiniert ein Sprachmodell mit einer Live-Internetsuche und gibt Antworten mit Quellenangaben. So bekommt man aktuelle Informationen, ohne selbst verschiedene Websites durchforsten zu müssen.

Chancen und Risiken

Chancen:
  • Mehr Effizienz und Produktivität im Alltag
  • Neue Möglichkeiten der Barrierefreiheit (Bildbeschreibung, Sprachsteuerung, Live-Erkennung, Umwandlung von Texten in leichte Sprache, Videobeschreibung, automatische Untertitelung für Gehörlose)
  • Zugang zu Informationen, die vorher schwer erreichbar waren
  • KI hilft Menschen, ihre Ideen umzusetzen: Ob Musik generieren, Texte schreiben oder mit KI Software entwickeln – der Mensch gibt die Idee möglichst präzise vor, die KI ist gut darin, sie wirklich umzusetzen. Das spart oft so viel Zeit, dass Projekte überhaupt erst möglich werden.
Risiken:
  • Halluzinationen: KI erfindet manchmal Dinge, die sich plausibel anhören, aber falsch sind. Immer kritisch prüfen!
  • Voreingenommenheit (Bias): KI spiegelt die Daten wider, mit denen sie trainiert wurde – inklusive Fehlern und Vorurteilen. Das können Vorurteile sein, die sowieso in der Gesellschaft existieren, aber auch solche, die aus dem politischen System stammen, in dem das Modell entstanden ist. Ein Beispiel: Das chinesische Sprachmodell DeepSeek weicht bei politisch sensiblen Themen wie Taiwan oder dem Tiananmen-Platz erkennbar aus oder gibt die offizielle Linie der chinesischen Regierung wieder.
  • Datenschutz: Was du in einen Chatbot eingibst, kann gespeichert und verarbeitet werden. Dazu mehr in Modul 3.
  • Umwelt: Das Training und der Betrieb von KI-Modellen verbrauchen enorme Mengen an Energie und Wasser. KI ist aktuell nicht ressourcenschonend.
  • Soziale Folgen: Mit KI lassen sich sogenannte Deepfakes erzeugen – täuschend echte, aber gefälschte Bilder, Videos oder Audiodateien von realen Personen. Darauf kommen wir später noch genauer zu sprechen. Außerdem besteht die Gefahr, dass Menschen eine emotionale Bindung zu KI-Chatbots aufbauen und sie als "Freund" oder Vertrauensperson sehen – obwohl hinter den Antworten kein echtes Verständnis oder Mitgefühl steckt.
Zum Ausprobieren bis nächste Woche

Für Anfänger
  • Öffne ChatGPT (https://chat.openai.com) oder Google Gemini (https://gemini.google.com) und stelle eine Frage.
  • Probiere verschiedene Formulierungen für die gleiche Frage aus. Merkst du Unterschiede in den Antworten?
  • Bring die KI dazu, dir die Antwort in verschiedenen Stilen auszugeben: Als Fließtext, in Stichpunkten, in einfacher Sprache.
  • Lass dir etwas erklären, das du schon gut kennst – und prüfe, ob die KI Fehler macht.
Für Fortgeschrittene / Profis:
  • Probiere verschiedene Chatbots aus: ChatGPT, Gemini, Claude, Mistral und schau, welcher sich für dich am besten bedienen lässt.
  • Probiere Tools wie Internetsuche aus.
  • Probiere spezielle KI-Suchmaschinen aus: Perplexity oder Google KI-Suche
  • Alternativtexte generieren:
    • Ich habe in ChatGPT einen Alternativtext Generator gebaut: https://t1p.de/alttext
    • Lade ein Bild hoch und sende es ohne weitere Eingabe an ChatGPT.
    • Du erhältst eine lange und eine kurze Beschreibung.
    • Jetzt öffne ein neues Fenster in ChatGPT: https://chatgpt.com
    • Lade exakt dasselbe Bild hoch.
    • Jetzt bring ChatGPT durch deine Eingabe (Prompting) dazu, dass sich die Beschreibung des Bildes mit der aus dem Alternativtext Generator möglichst ähnlich ist: Aufbau, Stil, Ausführlichkeit der Beschreibung.
Das sind nur Vorschläge. Und natürlich nutzt keiner alle diese Tools. Wir haben alle unsere Favoriten, die wir immer wieder nutzen. Nehmt euch einfach ein paar der Punkte heraus und testet.

Austausch gerne hier im Thread – was hat euch überrascht, was hat gut funktioniert, was nicht?

  • Benutzeravatar
    Hawkeye
  • Beiträge: 29
  • Registriert: 06.06.2020, 15:48

Ergänzungen zu Modul 1

Beitrag von Hawkeye » 11.04.2026, 15:49

Hallo Zusammen,

vielen Dank Benjamin für deinen super Vortrag.

Ich möchte ein paar Dinge ergänzen, damit die Diskussion im Forum hoffentlich bald Fahrt aufnimmt.

Zunächst zum Thema, was KI eigentlich ist:

Es gibt unterschiedliche Definitionen und die Bundesregierung vertritt in Ihrer „KI Strategie“ folgende Position. Dort heißt es:

[…]Sehr abstrakt ordnen sich KI-Forscher zwei Richtungen zu: der „schwachen“ und der „starken“ KI. Die „starke“ KI formuliert, dass KI-Systeme die gleichen intellektuellen Fertigkeiten wie der Mensch haben oder ihn darin sogar übertreffen können. Die „schwache“ KI ist fokussiert auf die Lösung konkreter Anwendungsprobleme auf Basis der Methoden aus der Mathematik und Informatik, wobei die entwickelten Systeme zur Selbstoptimierung fähig sind. Dazu werden auch Aspekte menschlicher Intelligenz nachgebildet und formal beschrieben bzw. Systeme zur Simulation und Unterstützung menschlichen Denkens konstruiert.

Die Bundesregierung orientiert sich bei ihrer Strategie an der Nutzung der KI für die Lösung von Anwendungsproblemen und damit an den Positionen der „schwachen“ KI“.


]

Mit „Aspekte menschlicher Intelligenz nachgebildet“ sind u.a. Neuronale Netze gemeint, die Benjamin angesprochen hat. Die Unterscheidung in „schwache KI“ und „starke KI“ macht noch einmal den Unterschied im Denken deutlich. Aktuell haben wir es mit „schwacher KI“ zu tun.

Ferner möchte ich mich zum Thema Risiken von KI äußern. Was mir fehlt unter der Aufzählung der Risiken ist die Auswirkung von KI auf die Arbeitswelt. Wenn die KI zukünftig Jobs übernimmt, die bislang von Menschen übernommen wurden, dann hat das auch soziale Folgen. Telefonisten, Call Center Agents, Jobs, die in der Vergangenheit oft von Blinden und Sehbehinderten Menschen ausgeübt wurden, stehen zur Disposition. Vor kurzen hat Matt Shumer, ein amerikanischer Unternehmer eine Kontroverse ausgelöst. (vgl : https://www.tagesschau.de/wirtschaft/te ... t-100.html).

Die Zeit wird zeigen, ob Matt Shumer mit seiner düsteren Prognose recht hat oder nicht.

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Re: Ergänzungen zu Modul 1

Beitrag von Benjamin Hofer » 12.04.2026, 21:48

Super Ergänzungen zu dem, was ich gesagt habe!

Man könnte es auch so formulieren: Bei den besten, aktuellen KI-Systemen handelt es sich um "sehr starke, schwache KI". Was ich damit meine: Mathematisch gesehen sind wir hier immer noch bei schwacher KI. Starke KI existiert bis dato nicht.
Sie denkt nicht wie wir. Das menschliche Denken wird maximal nachgebildet, z. B. mit neuronalen Netzen.
Sehr stark ist sie deshalb, weil diese KI schon jetzt ein mächtiges Werkzeug ist.
Wir können damit viele Probleme lösen bzw. sie kann uns beid er Lösung dieser Probleme massiv unterstützen.
Deshalb auch die Gefahr der Übernahme von Jobs: Danke für die Ergänzung auch dazu.

  • Benutzeravatar
    Hawkeye
  • Beiträge: 29
  • Registriert: 06.06.2020, 15:48

Re: Ergänzungen zu Modul 1

Beitrag von Hawkeye » 12.04.2026, 23:07

Hallo Benjamin,

vielen Dank für deine Antwort.


vielleicht noch eine kleine historische Ergänzung:

Vor 30 Jahren kam es zu einen Denkwürdigen Schachduell zwischen Garri Kasparov, dem damaligen Schachweltmeister und dem Computer Deep Blue. Der eine oder andere wird sich noch daran erinnern. Hier ein „Kalenderblatt zum legendären Duell- Mensch gegen Maschine.



Das Duell Mensch gegen Maschine hat seit jeher fasziniert und wurde in zahlreichen Science-Fiction Romanen und Filmen thematisiert. Das Roboter die Weltherrschaft an sich reißen, davon sind wir noch ein Stück entfernt. Trotzdem , wie das Beispiel Schach zeigt, kann die KI dem Menschen überlegen sein. Damals im Jahr 1996 war die KI noch nicht so ausgetüftelt wie heute. Der Computer arbeitete nicht mit neuronalen Netzen. Das kam im Schach mit Alpha Zero. Möglicherweise muss die KI nicht „stark“ werden. Eventuell reicht schon eine schwache KI damit wir uns als Menschheit selbst ausrotten.

Der Streit zwischen dem Pentagon und der Firma Anthropic(https://www.tagesschau.de/wirtschaft/di ... t-100.html) wirft jedenfalls ethische Fragen auf und kann einen schon Angst machen.

Frage zur Eingabe bei ChatGPT

Beitrag von Divertimento » 13.04.2026, 17:10

Bin neu hier und schreibe sicher an falscher Stelle. Leider finde ich aber bis jetzt nirgends ein Stichwort "Neuer Beitrag" Meine Frage: Wenn ich chat gpt eine Frage stellen soll, wird mir nirgends ein Eingabefeld angezeigt, wo ich meien Frage reinschreiben kann - nur Diktierfunktion, die ich nicht nutzen will. Arbeite unter Windows 11 und Jaws am PC.

Modul 1 zum Nachhören

Beitrag von Robbie Sandberg Site Admin » 14.04.2026, 09:08

Hier könnt ihr den Vortrag des ersten Teils unserer Seminarreihe im offSight Podcast hören.
Podcast-Episode KI verstehen und clever nutzen: Wie funktioniert KI, wie prompte ich richtig, Wo hilft KI im Alltag

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Re: Frage zur Eingabe bei ChatGPT

Beitrag von Benjamin Hofer » 14.04.2026, 21:48

Hallo Divertimento,
du schreibst hier zu 100% richtig. Es gibt keine n Link "neuer Beitrag". Es handelt sich hier einfach um einen Diskussionsfaden, der fortgesetzt wird.

Zu deiner Frage bzgl. ChatGPT:
Wenn du im Browser (Chrome, Firefox, Edge) die Seite www.chatgpt.com aufrust, und dort auch die Diktierfunktion siehst, sollte es auch ein Eingabefeld geben.
Probier mit JAWS folgendes:
- Navigiere an den Anfang der Seite (STRG+Seitenanfang)
- Drücke ein E für "Eingabefeld"
- Der Cursor sollte nun im Eingabefeld sein. Der Text "Mit ChatGPT chatten - Stelle irgendeine Frage" sollte von JAWS angesagt werden.
- Tipp: Mit STRG+Eingabe kannst du den eingegebenen Text direkt abschicken.
Divertimento hat geschrieben:
13.04.2026, 17:10
Bin neu hier und schreibe sicher an falscher Stelle. Leider finde ich aber bis jetzt nirgends ein Stichwort "Neuer Beitrag" Meine Frage: Wenn ich chat gpt eine Frage stellen soll, wird mir nirgends ein Eingabefeld angezeigt, wo ich meien Frage reinschreiben kann - nur Diktierfunktion, die ich nicht nutzen will. Arbeite unter Windows 11 und Jaws am PC.

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Modul 2: KI- barrierefrei - Anwendungen für Blinde und Sehbehinderte

Beitrag von Benjamin Hofer » 15.04.2026, 17:41

Modul 2 – KI barrierefrei: Anwendungen für blinde und sehbehinderte Menschen

Willkommen zu Modul 2.
In diesem Modul schauen wir uns konkrete KI-Werkzeuge an, die uns im Alltag helfen. Von Bildbeschreibung über Dokumentenerkennung bis hin zu Brillen, die die Umgebung in Echtzeit beschreiben. Was gibt es, was taugt und was passt zu wem?

KI hilft bei der Barrierefreiheit

KI hilft nicht nur uns als Blinde oder Sehbehinderte.
Wir schauen uns kurz an, wo sie ganz allgemein zum Einsatz kommt, um die Zugänglichkeit zu verbessern:
  • Leichte bzw. einfache Sprache: KI-Anwendungen wie ChatGPT können Texte umwandeln.
  • Transkription: hilfreich für alle, besonders hilfreich für Menschen mit Hörbehinderung.
  • Objekterkennung: hilfreich für uns. Wir hatten das Beispiel im letzten Modul.
  • Sprachausgaben: die allermeisten Stimmen heute sind per KI erzeugt.
  • Gebärdensprache: Googles Signgemma (eher eine Nische und nur amerikanische Gebärdensprache, aber im Kommen).
  • und viele mehr.
Sprachausgaben

Ein schönes Beispiel, wie KI trainiert wird und zum Einsatz kommt, sind Sprachausgaben.
Um eine Stimme zu trainieren, werden Daten gesammelt: Ein Sprecher spricht hunderte, besser tausende Sätze ein. Die Sätze werden einzeln als Audiodatei (WAV) gespeichert. Eine Textdatei gibt an, welche Datei welchen Satz enthält:
"audio1 | Heute ist Mittwoch;
audio2 | Wie funktioniert KI?"
Die Audio-Dateien und die Textdatei übergeben wir an ein System, das daraus ein KI-Modell trainiert. Die nötige Rechenleistung "leihen" wir uns von Computern im Internet. Fertig ist unsere Stimme.

KI-Anwendungen für unseren Alltag

Be My Eyes / Be My AI

Be My Eyes kennen viele als App, über die man freiwillige Helfer per Videoanruf erreicht. Seit 2023 gibt es dazu Be My AI: eine KI-Bildbeschreibung, die Fotos detailliert und oft erstaunlich gut beschreibt.
  • Foto machen, KI beschreibt das Bild in natürlicher Sprache.
  • Funktioniert ohne menschlichen Helfer, rund um die Uhr.
  • Besonders gut bei: Szenen beschreiben, Produkte erkennen, beschreiben was um einen herum passiert.
  • Grenzen: Manchmal zu ausführlich, manchmal interpretiert die KI etwas falsch, manchmal wird Text "halluziniert". Kritisch bleiben.
  • Folge-Fragen stellen: Es gibt einen Schalter "Weitere Fragen", nachdem man ein Foto mit Be My Eyes gemacht hat. Hier kann man eine Frage stellen oder eine Anweisung für die KI eintippen oder per Siri diktieren.
Seeing AI, Envision & Google Lookout

Es gibt mehrere Apps, die KI für verschiedene Aufgaben nutzen:
  • Seeing AI (Microsoft): Kostenfrei, viele Funktionen (Texterkennung, Szenen, Personen, Farben, Licht). Auf iOS und Android verfügbar.
  • Envision: Umfangreich, kann Texte, Szenen und Dokumente erkennen. Gibt es als App und als smarte Brille (Envision Glasses). iOS und Android.
  • Google Lookout: Android-basiert. Texterkennung, Objekterkennung, Szenen. Starke Objekterkennung, fast in Echtzeit.
Alle diese Apps nutzen KI. Der Unterschied liegt in der Bedienbarkeit, den Funktionen und der Qualität der Beschreibungen. Tipp: Einfach das gleiche Foto mit verschiedenen Apps beschreiben lassen und vergleichen.

KI in Screenreadern

KI kommt inzwischen auch direkt in Screenreader:
  • NVDA: NVDA ist ein großartiger Screenreader. Über Add-ons wie "AI Content Describer" oder "Vision Assistant Pro" können Bildbeschreibungen und mehr direkt per Tastendruck ausgelöst werden – mitten in der normalen Arbeit am PC. Es ist meist ein API-Schlüssel zur Nutzung der KI nötig. Die Einrichtung ist daher etwas komplizierter, jedoch auch für alle Nutzer machbar. Eine ausführliche Beschreibung und Podcast zu einer dieser Erweiterungen findet man im Beitrag "NVDA nachhaltig" im offSight-Forum.
  • JAWS: Hat inzwischen eine eingebaute KI-Bildbeschreibung (Sprechendes Bild), eine Positionserkennung des Gesichts in der Videokamera, einen KI-Grafikbezeichner und man kann per KI Seiten zusammenfassen lassen (Schneller Überblick). Tastenkürzel: JAWS+G, JAWS+Leertaste, P und dann eine jeweilige Taste (Hilfe mit H).
  • VoiceOver (Apple): KI wird hier für viele Funktionen genutzt (Bilder beschreiben, Lupe, Objekterkennung, Texterkennung), Grafikbezeichner, Texte in unzugänglichen Apps lesen, Bildschirmerkennung.
  • TalkBack (Android): Google hat eine Bildbeschreibungsfunktion für das aktuelle Element und den gesamten Bildschirm integriert, man kann auch Fragen stellen.
  • SuperNova (Windows): Auch hier wird KI zur Beschreibung und für kontextbezogene Hilfe genutzt.
Das Spannende: Man muss die App nicht mehr extra öffnen – die KI ist dort, wo man gerade arbeitet.

Nahe Zukunft: KI, die mit der Maus klickt
Besonders gut für unbedienbare Apps und Webseiten
  • Wie wir wissen, kann KI Bilder analysieren.
  • Das klappt besonders gut mit Screenshots.
  • Ein Schritt weiter: KI bekommt eine Aufgabe, analysiert Screenshots, klickt mit der Maus oder bedient die Tastatur.
  • Beispiel: "Wähle die Option aus, klicke auf Weiter und beschreib mir den nächsten Bildschirm".
  • Die Windows-App "Guide" setzt das schon um.
  • Claude Desktop kommt bzw. ist auf dem Mac schon verfügbar.
Dokumentenerkennung: OCR vs. KI

Klassische OCR (Optical Character Recognition) erkennt gedruckten Text zeilenweise. Das funktioniert bei sauberen Dokumenten gut, scheitert aber oft bei:
  • Handschrift
  • Schlechter Bildqualität
  • Komplexen Layouts (Tabellen, Formulare)
  • Hochglanzpapier wie Flyern
  • Mehrspaltigem Text (Zeitschriften, Zeitungen)
KI-basierte Erkennung geht weiter: Sie versteht den Kontext, kann Handschrift entziffern, Beschriftungen auf Verpackungen lesen und den Inhalt zusammenfassen. Apps wie Be My AI oder Envision nutzen genau das.

Die Gefahr sind Halluzinationen. Während klassische OCR einfach Fehler gemacht hat (Buchstabensalat), neigt KI dazu, Fehlendes zu ergänzen. Wir erinnern uns: KI gibt die wahrscheinlichste Antwort.
Das lässt sich reduzieren: Wir weisen die KI an, Unlesbares zu überspringen oder einen Hinweis zu geben. Und wir mischen klassische OCR-Erkennung mit KI.

KI in Spezialhilfsmitteln für Blinde

Es gibt viele Hilfsmittel, die KI nutzen:
  • Stellar Trek von HumanWare: Erkennung von Türen, Ampeln, Überwegen, Text.
  • Vorlesesysteme: Bildbeschreibung, Antworten auf Fragen zum gescannten Text.
  • Brillen für Sehbehinderte (BIEL Glasses): nutzen spezielle KI-Modelle, die das Bild an die jeweilige Sehschwäche anpassen.
  • OrCam MyEye: Kleine Brillenkamera. Erkennt Texte, Farben, Geldscheine, Gesichter und enthält in der aktuellsten Version eine KI-Beschreibung (online).
  • Envision Glasses: Basiert auf der Google Glass. Erkennt Texte, Farben, Szenen, Geldscheine und Objekte. Hinweis: Das Produkt läuft aus, da Google Glass 2 nicht mehr produziert wird.
Mainstream-KI als Hilfsmittel

Die großen Chatbots (ChatGPT, Gemini, Copilot) haben inzwischen Live-Erkennung:
  • Handy-Kamera öffnen, Chatbot schauen lassen, Fragen stellen.
  • ChatGPT und Gemini haben einen Voice Mode: Man kann direkt sprechen und die KI beschreibt, was die Kamera sieht.
  • Vorteil: Echtzeit-Bildbeschreibung im Gespräch.
  • Nachteil: Keine richtige, proaktive Live-Interaktion. Sie antworten nur auf konkrete Fragen.
  • Was (noch) nicht geht: "Sag mir Bescheid, wenn du eine Bank siehst".
Die Ray-Ban Meta Brille
  • Meta hat eine smarte Brille in Kooperation mit Ray-Ban veröffentlicht.
  • Wir nutzen sie für die Umgebung: "Hey Meta, lies das Schild" - "Hey Meta, beschreib mir den Kalender an der Wand".
  • Achtung: Auf Datenschutz achten, besonders bei sensibler Post!
Echte Live-Erkennung - oOrion, ScribeMe

Es gibt Apps, die eine reaktive Beschreibung simulieren:
  • oOrion: "Sag mir, wenn du den Eingang zum Laden siehst". Man gibt eine Aufgabe und die KI "sucht" danach.
  • ScribeMe: KI beschreibt allgemein, was sie sieht, und man kann sie im Dialog steuern. Ermöglicht auch (fast) Live-Audiodeskription für Videos durch Bildschirmfreigabe.
Zum Ausprobieren bis nächste Woche
  • Mach ein Foto und beschreibe es mit mindestens 2 verschiedenen Apps.
  • Übe die Kameraposition: Wie hältst du eine Dose am besten? Frage die KI (Gemini Live/ScribeMe) nach Feedback zur Bildqualität.
  • Vergleiche ChatGPT/Gemini Live mit Be My AI oder Lookout.
  • Probiere oOrion oder ScribeMe im Live-Modus.
  • Teile hier im Thread: Welches Tool hat dich am meisten überzeugt? Welches hat versagt?
Was sind eure Lieblingstools? Habt ihr Erfahrungen, die ihr teilen wollt? Rein damit in den Thread!

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Modul 2 - Linkliste: alles auf einen Blick

Beitrag von Benjamin Hofer » 16.04.2026, 21:32

Hier findet ihr alle Apps, Dienste, Screenreader-Erweiterungen und weiterführenden Links aus Modul 2.

KI-Apps zur Bildbeschreibung und Szenenerkennung
Live-Erkennung und Echtzeit-Beschreibung
KI in Screenreadern
  • NVDA – Kostenloser Open-Source-Screenreader für Windows. Über Add-ons erweiterbar.
    https://www.nvaccess.org/download
  • AI Content Describer (NVDA-Add-on) – KI-Bildbeschreibung per Tastendruck direkt im Screenreader.
    https://addonstore.nvaccess.org/
  • Vision Assistant Pro (NVDA-Add-on) – KI-Assistent für NVDA mit Bildbeschreibung, Übersetzung, Diktat und Dokumentenanalyse. Kostenlos, benötigt eigenen API-Schlüssel.
    https://github.com/mahmoodhozhabri/VisionAssistantPro
  • JAWS (Freedom Scientific) – eingebaute KI-Bildbeschreibung mit der Funktion "sprechendes Bild KI" (JAWS+Leertaste,. P, Enter), Grafikbezeichner und Seitenzusammenfassung. https://fscompanion.ai - hier ist es möglich, Fragen zu Tastenkürzeln, Funktionen etc. zu stellen
Chatbots mit Kamera und Live-Erkennung
KI-Brillen und Spezialhilfsmittel
Computersteürung durch KI
  • Guide – Windows-App: KI analysiert Screenshots und klickt mit der Maus. Macht unbedienbare Apps zugänglich. Achtung: nur englischsprachig und kostenpflichtig!
    https://www.guideinteraction.com/
Podcasts und Artikel zum Vertiefen

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Praxis: Die wichtigsten Tastenkürzel für KI-Funktionen von JAWS (Sprechendes Bild KI)

Beitrag von Benjamin Hofer » 17.04.2026, 08:15

Am Mittwoch hat jemand im Chat nach Tastenkürzel für die JAWS KI gefragt. Während Robbie schon recherchiert hat, wie man die Gesichtspositionierung für Video-Meetings aufruft, reiche ich hier nochmal einige interessante Kürzel nach.
Wie schon erwähnt: Ihr könnt mit dem FSCompanion chatten und ihm einfach Fragen nach Tastenkürzel und der Funktionsweise von JAWS stellen: https://fscompanion.ai

Tastenkürzel:
Gesicht im Blick (für Video-Meetings):
  • JAWS+Leertaste, F, O: Schaltet Gesicht im Blick ein und aus. Muss vor dem Meeting passieren, da die Funktion die Kamera benötigt.
  • JAWS+Leertaste, F, D: Gibt eine detailierte Beschreibung.
  • JAWS+Leertaste, F, L: Helligkeitsstufe abfragen.
  • JAWS+Leertaste, F, P: Hintergrund beschreiben lassen.
Sprechendes Bild KI (picturesmart) - Beschreibungen abrufen:
  • JAWS+G: Grafikbezeichner. Beschriftet die aktuelle Grafik im Internet, wenn sie nicht beschriftet ist.
  • JAWS+Leertaste, P, EINGABE: Beschreibt das aktuelle Element im Kontext, z. B. in Powerpoint die aktuelle Folie, im Explorer die aktuelle Datei, im Internet das aktuell ausgewählte Element usw.
  • JAWS+Leertaste, P, F: Beschreibt die aktuell im Windows Explorer gewählte Bilddatei.
  • JAWS+Leertaste, P, C: Beschreibt das aktuell ausgewählte Steuerelement (z. B. ein Bild in Word oder auf einer Webseite).
  • JAWS+Leertaste, P, S: Beschreibt den gesamten Bildschirm.
  • JAWS+Leertaste, P, W: Beschreibt das aktuelle Anwendungsfenster, das gerade geöffnet ist.
  • JAWS+Leertaste, P, A: Öffnet das Dialogfenster, um ein Bild von Scanner oder Kamera aufzunehmen und zu beschreiben.

  • Benutzeravatar
    carina
  • Beiträge: 33
  • Registriert: 16.08.2019, 11:28

Ergänzung: Be My Eyes für den PC

Beitrag von carina » 17.04.2026, 18:27

Hallo zusammen,

danke Ben für die ausführlichen Infos, die du hier für uns zusammenstellst.
Ich möchte noch ergänzen, dass es Be My Eyes auch für Windows gibt. Hier könnt ihr euch euren Bildschirm oder Dokumente beschreiben lassen. Das ist zum Beispiel hilfreich für gescannte PDFs oder nicht barrierefreie Inhalte auf Webseiten. Ihr könnt auch ein Foto mit eurer Webcam machen und es beschreiben lassen, um zum Beispiel herauszufinden, was andere bei einem Videocall von euch und eurer Umgebung sehen. Mehr Infos und den Download der App findet ihr auf dieser Seite (leider auf Englisch):
https://www.bemyeyes.com/be-my-eyes-for ... zcwNDM2Nzg.

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Praxis: Wie hat mir KI geholfen? Teilnahme an einem Quiz leicht gemacht

Beitrag von Benjamin Hofer » 21.04.2026, 08:18

Danke an Carina für den Hinweis auf Be My Eyes für Windows. Das ist eine großartige Alternative zu den genannten NVDA Add-ons und der eingebauten KI von JAWS unter Windows.

Aus der Praxis:
Eine Beschreibung eines geteilten Bildschirms in einem Video-Meeting sah bei mir zum Beispiel konkret wie unten zitiert aus. Genutzt habe ich das NVDA Add-on "AI content Describer" mit einer von mir selbst definierten Anweisung/Prompt. Ähnliche Ergebnissse sind mit JAWS KI und/oder Be My Eyesfür Windows denkbar, wobei man bei Beiden leider den Prompt nicht anpassen kann.

Hier nun das Praxisbeispiel aus meinem Arbeitsalltag (Namen von Personen und Details geändert):
Auf einem geteilten Bildschirm ist eine blaue Folie mit dem [Unternehmenslogo] und dem Text „Join at slido.com #2639 680“ zu sehen. Zusätzlich sind ein QR-Code und der Passcode „jtwikf“ eingeblendet. In vier kleinen Videofenstern der Teilnehmer sind Benjamin Hofer, [Person A(Name richtig)], [Person B(Name richtig)] sowie eine weitere Person zu erkennen.
Worum ging es?
Es handelte sich um ein Quiz zum gemeinsamen Durchspielen nach einer Einarbeitung in ein neues Produkt. Die Kollegen haben hier, wie aus der Beschreibung hervorgeht, Slido genutzt. Slido ist eine Platform, die für uns gut bedienbar ist, Fragen werden automatisch für alle eingeblendet und man kann per Formular antworten. Um dem Quiz beizutreten, nutzt man entweder einen QR Coe oder Zugangsdaten. Beides war auf dem geteilten Bildschirm sichtbar. Ein tastendruck genügte, um mir die Daten zu holen - sowohl der Zahlen-PIN als auch das Passwort waren 100% richtig. Das ging sogar schneller und einfacher, als jemanden zu bitten, das ganze in den Chat zu stellen oder mir per Privatnachricht zu senden.
Verblüffend ist für mich immer wieder, wie schnell die KI besser wird. Fehler bei Passwörtern oder Codes können passieren und waren vor einigen Monaten / Jahren auch echt nicht selten. Mittlerweile shabe ich schon mehrere Male die Erfahrung gemacht, dass es funktioniert - keine Garantier natürlich.
Und ganz, ganz wichtig: Bitte niemals persönliche Passwörter oder Zugangsdaten mit der KI teilen!!!

  • Benutzeravatar
    Hawkeye
  • Beiträge: 29
  • Registriert: 06.06.2020, 15:48

Re: KI verstehen und clever nutzen - Ergänzungen zu Modul 2 - Erfahrungen mit Scribe Me

Beitrag von Hawkeye » 25.04.2026, 14:21

Hallo Ben,

mich interessieren deine Erfahrungen mit „Scribe Me“ . Soweit ich weiß, ist diese App – im Gegensatz zu vielen anderen – kostenpflichtig. Daher bin ich neugierig wie du (und andere User auch) das Kosten/Nutzen Verhältnis bewerten. Einen kleinen „Testbericht“ gibt es auf der Seite der „Apfelschule“.

https://apfelschule.ch/tipps-und-tricks ... stuetzung/

Über mehr Testberichte würde ich mich sehr freuen!

Viele Grüße

Hawkeye

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Feedback zu Scribe Me -

Beitrag von Benjamin Hofer » 28.04.2026, 21:41

Hallo Hawkeye,
danke für die Frage und den Linka uf den Bericht von "Apfelschule".
Scribe Me ist eine innovative App, die allerdings noch ihre Fehler hat. Aktuell gibt es ein Abo-Modell und gleichzeitig kann die App auch bis zu einem gewissen Limit frei genutzt werden.
Der Erfahrungsbericht, den du verlinkst, deckt sich überwiegend mit meinen Erfahrungen.
Die Live-Erkennung ist verzögert. Das trifft allerdings auf jede aktuelle KI zu. Eine Live-KI ohne Verzögerung gibt es nicht. Ich habe den persönlichen Eindruck, dass die Verzögerung bei oOrion etwas weniger ist, sie ist allerdings auch hier deutlich spürbar.
Der Grund: Die KI verarbeitet immer noch eine Abfolge an Bildern, nicht ein Live-Video. Außerdem ist es abhängig von deiner jeweiligen Verbindung an deinem jeweiligen Ort, wie schnell diese Bilder gesendet werden und natürlich von dem dahinterliegenden KI-System. Beides ist maßgeblich.
oOrion macht auf mich persönlich den flüssigeren Eindruck und hat auch objektiv betrachtet aktuell weniger Fehler.
Scribe Me verfolgt einen etwas anderen Ansatz und hat Potenzial.
Scribe Me kann außer der Live-Erkennung auch noch Dokumente in barrierefreie Form umwandeln (PDF, PowerPoint). Hier macht es einen sehr ordentlichen Job wie ich finde. Bildbeschreibungen (also die Beschreibung der Grafiken innerhalb des Dokuments) sind allerdings meist auf Englisch.
Ein Abo ist hier aktuell, vor allem zu dem Preis, für die meisten nicht wirklich empfehlenswert.
Die App ist ja auch im kostenlosen Umfang nutzbar.

  • Benutzeravatar
    Benjamin Hofer
  • Beiträge: 31
  • Registriert: 26.09.2019, 08:14
  • Wohnort: Bamberg, Bayern

Modul 3 - KI-Chatbots blind bedienen, Datenschutz, KI offline nutzen

Beitrag von Benjamin Hofer » 29.04.2026, 17:41

Willkommen zu Modul 3!
Heute wird es praktisch und gleichzeitig wichtig: Wie bediene ich die großen Chatbots mit Screenreader? Und was passiert eigentlich mit meinen Daten?

Teil 1: Chatbots blind bedienen

Wir erinnern uns: Ein Chatbot ist die Anwendung im Internet, also vereinfacht gesagt die Webseite, auf der wir mit der KI reden.

Nicht jeder Chatbot ist gleich gut mit Screenreader bedienbar. Wir gehen die wichtigsten der Reihe nach durch und sehen, welcher wofür gut ist, wo die Daten landen, und wie sich die Oberfläche per Tastatur bedienen lässt.

Ein Hinweis vorweg: Die Smartphone-Apps der großen Anbieter sind alle mittel bis gut bedienbar – mit etwas Einschränkungen, vor allem für unerfahrene Nutzer. Für die tägliche schnelle Frage zwischendurch reichen sie meist gut aus. Sollte eine der Apps nicht gut gehen, greifen wir auch hier auf die Web-Oberfläche zurück.
Wichtiger Hinweis: Die Internetseiten und auch Apps der jeweiligen KI-Chatbots verändern sich stark. Was heute gilt, muss also in einigen Wochen oder Monaten nicht mehr richtig sein.

Im Folgenden beziehen sich die Bedien-Tipps auf die Web-Oberflächen.

ChatGPT (OpenAI)

ChatGPT von OpenAI ist der Alltags-Chatbot für Viele. Er ist stark personalisierbar, die Nutzerbasis ist sehr groß. Die Daten liegen in den USA. Empfehlung: Schaltet das Training mit euren Daten in den Einstellungen ab (als "Opt-out" bezeichnet). Ihr erreicht die Einstellung mit der Tastatur über STRG+Umschalt+I und dann im Reiter "Datenkontrollen".

Bedienbarkeit: gut.
  • Jede Nachricht im Chat ist eine Überschrift Ebene 4. Mit JAWS/NVDA kannst du also mit der Taste 4 durch das Gespräch springen.
  • STRG+Eingabe sendet den Chat – direkt aus dem Eingabefeld, ohne dass du zum Senden-Button navigieren musst.
  • Vor dem Senden mit Tab / Shift+Tab erreichbar: Dateien hochladen, Modell auswählen, Modus auswählen (z. B. Recherche, Bilder).
Gemini (Google)

Gemini ist der Alltags-Chatbot von Google und eng an das Google-Ökosystem angebunden. Gemini sucht also auch in Google Maps oder, wenn du es einrichtest, im Gmail (E-Mails von Google) und auch Dokumenten im Google-Ökosystem. Auch der Kalender lässt sich über Gemini steuern.

Bedienbarkeit: gut.
  • Jede Nachricht in der Konversation ist eine Überschrift Ebene 2. Mit 2 durch das Gespräch springen.
  • Eingabe sendet die Nachricht. Shift+Eingabe macht eine neue Zeile.
Claude (Anthropic)

Claude von Anthropic ist längst kein Geheimtipp mehr, sondern ein wirklich starker allgemeiner Chatbot. Er ist besonders beliebt bei Programmierern, Designern und Textern und auch allgemein super nutzbar. Er recherchiert gut, wenn man ihn dazu anweist, und inkludiert seine Quellen direkt im Text. Claude ist weniger "gesprächig" (weniger Blabla) als ChatGPT, mehr auf Effizienz ausgerichtet.

Bedienbarkeit: Die Weboberfläche ist gut bedienbar und klar strukturiert. Das gilt auch für die Smartphone-Apps. Der Sprachmodus (wo man live mit der KI sprechen kann) ist hier deutlich weniger ausgereift wie bei Gemini und ChatGPT und aktuell auch nur auf Englisch verfügbar.

Microsoft Copilot

Copilot ist von Microsoft und gut in Windows und Edge integriert. Die Bedienung variiert je nachdem, wo man Copilot nutzt (Browser, Windows-Taskleiste, Office-Apps).

Wichtige Tastenkürzel:
  • Windows-Taste + C öffnet die Copilot-App unter Windows. Auf neueren Tastaturen gibt es zusätzlich eine eigene Copilot-Taste rechts neben Alt Gr.
  • Alt + I öffnet Copilot in den Office-Apps (Word, Excel, PowerPoint, Outlook). Dasselbe Kürzel funktioniert überall.
Hinweis: Alle diese Chatbots sind kostenlos. Und alle haben eine kostenpflichtige Stufe an Bord, die mehr bietet: Bessere Modelle, mehr und ausführlichere Recherchen, längere Kontextfenster (das, was sich der Chatbot auf einmal merkt), mehr Dateien hochladen etc.

Teil 2: Datenschutz – wo gehen meine Daten hin?

Wenn du etwas in ChatGPT, Gemini, Claude oder Copilot eingibst, werden deine Eingaben auf Computern des Anbieters verarbeitet. Die Server sind meist in den USA. Das hat drei Konsequenzen:
  1. Training: Eingaben werden bei den US-Anbietern oft zum Training der Modelle verwendet (lässt sich abschalten – Opt-out in den Einstellungen).
  2. Behördenzugriff: US-Gesetze (Cloud Act, FISA) erlauben es der US-Regierung, jederzeit auf Daten von US-Unternehmen zuzugreifen, auch wenn die Server in Europa stehen.
  3. Was sollte ich nicht eingeben? Niemals Passwörter, keine Gesundheitsdaten, keine vertraulichen Dokumente. Gib nichts Persönliches ein, ohne nachzudenken. Faustregel: Wenn es eine Katastrophe wäre, dass deine Eingabe öffentlich im Internet steht, gib sie nicht ein.
Es gibt zwei Lösungen: europäische Chatbots oder Offline-KI.

Europäische Alternative: Mistral Le Chat

Mistral ist ein französischer Chatbot, komplett europäisch, mit starken Modellen. Recherchiert auch im Web.

Bedienbarkeit: nicht so gut wie bei ChatGPT oder Gemini. Die Oberfläche hat keine sauberen Überschriftenstrukturen.

Tipp: Wenn keine Überschriften in der Antwort sind, weise den Bot einfach selbst dazu an:
"Starte ab jetzt jede Antwort mit der Überschrift Ebene 2 ‚Antwort‘ (also ## Antwort)."
Dann kannst du auch hier per Schnellnavigation durch die Antworten springen. Funktioniert dauerhaft in der Konversation.

Weitere Alternativen (USA als auch Europa)
  • Perplexity (USA) (https://perplexity.ai) – mehr eine KI-Suchmaschine als ein Chatbot. Zugriff auf verschiedene Modelle/Anbieter möglich. Bedienbarkeit gut, auch mit Überschriften, aber man muss mit Screenreader teilweise viel überspringen, um zur eigentlichen Antwort zu kommen. Könnte ein Manko für unerfahrene Nutzer sein.
  • Google KI-Suche – die KI-Antworten oben in der Google-Suche. Sehr gut und ohne Einschränkungen bedienbar.
  • Proton Lumo (https://lumo.proton.me) – Proton ist der Schweizer Anbieter, bekannt für starke Verschlüsselung. Europäische Alternative mit Fokus auf Datenschutz.
  • X.AI Grok – der Chatbot von Elon Musks Firma X.AI.
  • Meta AI – der Assistent in WhatsApp, Instagram und Facebook.
  • Ecosia KI-Suche (https://www.ecosia.org/ai-search) – deutsche Suchmaschine mit Fokus auf Umweltschutz und Datenschutz. KI-Suche schwächer als Google.
Beispiel-Aufgabe: alle Chatbots gegeneinander testen

Um Bedienbarkeit und Antwortstil der verschiedenen KI-Chatbots zu testen, probier einen Prompt deiner Wahl mit unterschiedlichen Chatbots aus. Am besten eignet sich für den Anfang ein Thema, mit dem du dich auskennst.
Hier ein Beispiel von mir:
"Gib mir für die Betriebssysteme Windows, Mac, Linux, iOS und Android alle gängigen Screenreader und gehe auf Verfügbarkeit, Preis, Stärken/Schwächen und Braille-Bedienung ein."
Du wirst schnell merken: Die einen antworten kurz und tabellarisch, die anderen weitschweifig, manche recherchieren live im Netz, andere antworten aus dem Gedächtnis. Und das können wir steuern. Wir steuern mit der Eingabe den Stil, ob die Antwort kurz und knapp, ausführlich, tabellarisch oder im Fließtext ist. Wir steuern, ob der Chatbot länger nachdenken, auf jeden Fall im Internet recherchieren soll. Wir können angeben, ob der Stil formell oder informell sein soll, ob wir eine kurze Übersicht oder ausführliche Erklärung aller Punkte haben wollen.

Teil 3: Offline-KI – die Daten bleiben zu Hause

Die zweite Lösung gegen das Datenschutzproblem: KI-Modelle komplett lokal auf dem eigenen Rechner laufen lassen. Kein Internet nötig, keine Daten verlassen das Gerät.

Ollama

Ollama (https://ollama.com/download) ist das Standard-Werkzeug dafür. Es ist eine kostenlose Anwendung für Windows, Mac und Linux. Damit lädst du dir Open-Source-Sprachmodelle direkt auf deinen Rechner und chattest dann mit ihnen. Kein Programmieren nötig, keine Konfiguration, keine zusätzliche Software.

Seit 2025 gibt es Ollama als richtige Desktop-App mit Chat-Oberfläche. Frühere Versionen waren reine Kommandozeilen-Tools. Heute reicht ein Klick auf das Modell in der App und schon kann man tippen.

Lokal oder Cloud? Beides möglich

Wichtig zu verstehen: In der Ollama-App gibt es zwei Arten von Modellen.
  1. Lokale Modelle: Sie laufen direkt auf deinem Rechner. Du lädst sie einmal herunter (typisch zwischen 5 und 30 GB pro Modell) und kannst sie danach komplett ohne Internet nutzen.
  2. Cloud-Modelle: Sie tragen den Zusatz -cloud im Namen (zum Beispiel gpt-oss:120b-cloud) und laufen auf den Servern von Ollama. Dafür musst du dich vorher mit einem Ollama-Konto anmelden. Ohne Anmeldung sind die Cloud-Modelle nicht verfügbar.
Wenn du die App ohne Anmeldung benutzt, läuft also alles lokal. Sobald du ein heruntergeladenes Modell aus der Liste auswählst, bist du offline-fähig. Internet kannst du danach abschalten und es funktioniert weiter.

Kleiner Hinweis am Rande: Wer ein lokales Modell fragt, was es selbst gerade tut, bekommt manchmal kreative Antworten. Lokale Modelle halluzinieren öfter als die großen Cloud-Chatbots, vor allem bei Fragen zu sich selbst oder zur Technik im Hintergrund. Was du wirklich brauchst, steht in der Ollama-Dokumentation, nicht in der Antwort des Modells.

Aktuelle Modelle (Stand 2026)

Zwei Modelle sind aktuell besonders interessant:
  • Gemma 4 (Google), Variante gemma4:26b: der starke Allrounder. Versteht Text und Bilder, antwortet sehr gut auf Deutsch. Größe rund 17 GB.
  • GPT-OSS (OpenAI), Variante gpt-oss:20b: OpenAI hat dieses Modell offen veröffentlicht. Es ist auf logisches Denken und Aufgaben mit mehreren Schritten ausgelegt. Größe rund 13 GB.
Was bedeuten 20B und 26B?

Das B steht für „Billion", englisch für Milliarde. Ein Modell mit 20B hat also 20 Milliarden Parameter. Parameter sind die Stellschrauben, an denen das Modell beim Training „gedreht" hat, um Sprache zu verstehen. Faustregel: mehr Parameter bedeutet mehr Wissen und bessere Antworten, aber auch mehr Speicher und mehr Rechenzeit. Zum Vergleich: ChatGPT in der Cloud arbeitet mit deutlich größeren Modellen, die niemand zu Hause laufen lassen könnte.

Bedienbarkeit mit Screenreader

Ollama lässt sich auf zwei Wegen nutzen:
  • Kommandozeile (Terminal): Komplett textbasiert, deshalb mit dem Screenreader sehr gut zu bedienen. Setzt aber Erfahrung mit der Kommandozeile voraus. Zumindest sollte man ganz einfache Texteingaben verstehen.
  • Ollama-App: Generell bedienbar, aber mit Einschränkungen. Manche Schalter sind nicht beschriftet, einige Bedienelemente verlangen etwas Anpassung. Für den Einstieg trotzdem die einfachste Variante.
Wir schauen uns im Workshop hauptsächlich die App an.

Ein Hinweis zum „Denkprozess"

Moderne Modelle wie GPT-OSS zeigen während der Antwort, besonders bei Ollama, oft ihren internen Gedankengang an. Das nennt sich Reasoning oder Thinking. Dabei kann es passieren, dass dein deutscher Prompt im Hintergrund ins Englische übersetzt wird oder das Modell von dir in der dritten Person spricht („the user wants…"). Das ist kein Fehler, sondern liegt daran, dass die Trainingsdaten überwiegend englisch sind und die Modelle intern auf Englisch besser „denken" als auf Deutsch. Die finale Antwort kommt natürlich wieder auf Deutsch heraus. Wer den Denkprozess störend findet, kann ihn in den Modelleinstellungen oder im Chat selbst meist abschalten. Der Denkprozess dient allerdings dazu, dass sich das Modell intern "hinterfragt" und so zu deutlich besseren Ergebnissen kommt.

Schritt für Schritt: Ollama ausprobieren
  1. Ollama von ollama.com herunterladen und installieren.
  2. App öffnen. Ein Konto ist nicht nötig, solange du lokale Modelle nutzt.
  3. Ein Modell auswählen, zum Beispiel gemma4:4b oder gpt-oss:20b. Beim ersten Mal lädt die App das Modell herunter. ACHTUNG: Hier ist etwas Rechenleistung und Speicherplatz nötig. Das ist nichts für ältere Rechner.
  4. Loslegen. Du chattest jetzt lokal mit einer KI.
Offline-KI ist nicht nur Chatbot

Offline-KI ist auch unabhängig von Chatbots schon lange beliebt. Klassisches Beispiel: Whisper von OpenAI zur Audiotranskription. Whisper ist Open Source, läuft lokal, braucht erstaunlich wenig Ressourcen und ist seit Jahren das Werkzeug der Wahl, wenn man Sprachaufnahmen, Interviews oder Vorträge in Text umwandeln will, ohne dass irgendetwas in die Cloud geht.

Zum Ausprobieren bis nächste Woche
  • Schaue in die Einstellungen deines Chatbots: Ist das Training mit deinen Daten aktiviert? Schalte es ab.
  • Probiere einen eigenen Beispiel-Prompt oder den oben (Screenreader-Vergleich) in mindestens zwei verschiedenen Chatbots aus und vergleiche.
  • Probiere Mistral Le Chat aus, komplett europäisch, kein Datenabfluss in die USA.
  • Wenn du Lust hast: Installiere Ollama und chatte lokal, zum Beispiel mit gemma4:26b (Bilderkennung) oder gpt-oss:20b (logisches Denken).
Wie sind eure Erfahrungen mit Datenschutz und den verschiedenen Chatbots? Teilt eure Tipps hier im Thread!

Linkliste

Antworten