Computer Vision: Wie Maschinen das Sehen erlernen
Im Zuge der Blog-Reihe zu Künstlicher Intelligenz (KI) widmen wir uns heute dem Thema Computer Vision (auch Machine Vision). Dabei handelt es sich um ein Teilgebiet der KI, das sich damit beschäftigt, visuelle Daten, v. a. Bilder und Videos, zu analysieren, zu manipulieren und Informationen zu extrahieren.
Die Spanne der Anwendungsfälle ist ähnlich wie bei NLP scheinbar endlos, denn visuelle Daten zu verarbeiten gehört auch für uns Menschen zu einer der primären sensorischen Aufgaben. Auch hier lohnt sich ein vereinfachter Vergleich, wie Menschen eigentlich visuelle Daten verarbeiten, um ein Verständnis für Computer Vision und die Parallelen zu menschlicher Verarbeitung zu bekommen.
Wie funktioniert die maschinelle Bildverarbeitung?
Um die geistige Entwicklung von Kleinkindern zu prüfen, bekommen sie häufig die Aufgabe Formen wie Quadrate, Dreiecke und Kreise zu erkennen und zu abstrahieren, z. B. welcher Holzklotz in welche Form passt. Was muss passieren, um diese Aufgabe zu meistern? Dem Kleinkind liegen zwei Objekte vor: der Holzklotz und die Form. Die Objekte haben bestimmte Farbmuster, die sich vermutlich vom Hintergrund (z.B. dem Fußboden) abgrenzen. Das Kind erhält visuelle Informationen, die ihm sagen, dass dort Objekte sind, die sich sowohl farblich und strukturell als auch in der Entfernung und Form vom Fußboden abgrenzen. Dadurch kann das Kind klar die Grenzen des Objektes erkennen. Wenn das Kind nun immer öfter mit diesem oder ähnlichen Objekten interagiert, begreift es nach und nach, dass Eigenschaften wie die Anzahl der Kanten, Ecken und auch die Seitenverhältnisse sich immer ähneln – es lernt Muster zu erkennen. Je besser das Kind diese Muster beherrscht, desto eher ist es in der Lage zu abstrahieren, dass der Holzklotz das gleiche Muster wie die quadratische Form hat und das Objekt entsprechend in die Form passt.
Die Datenlage in Computer Vision sieht natürlich zunächst anders aus. Während beim Kind komplexe sensorische und neurologische Verbindungen zur Wahrnehmung führen, sind visuelle Daten in einer Maschine zunächst einmal mathematischer Natur. Jeder Pixel erhält seinen eigenen numerischen Wert, der eine Farbe aus einem breiten Spektrum darstellt. Ein hochauflösendes Foto wird also in Millionen numerischen Werten hinterlegt. Die Vorgehensweise der Maschine zur Analyse und Mustererkennung ist in den Grundzügen nicht so anders als die des Menschen.
Durch verschiedene Manipulationstechniken kann die Maschine z. B. die Außenlinien von Objekten in einem Bild wahrnehmen. Im Beispiel der Holzklötze würde die Maschine klar die Trennlinie zwischen dem roten Holzblock und weißen Fußboden erkennen, denn die Pixel des Holzblocks liegen in signifikant unterschiedlichen Farbspektren als die des Fußbodens. Mithilfe von Machine Learning (ML) und großen Mengen an Trainingsdaten kann man der Maschine nun Mustererkennung beibringen.
Dies ist natürlich eine vereinfachte Form der visuellen Datenverarbeitung, doch es liefert ein Verständnis dafür, wie die Maschine Muster aus visuellen Daten erkennen kann und wo die Parallelen zu uns Menschen liegen. Mithilfe von riesigen Datenmengen und Deep Learning (DL) Algorithmen können verschiedenste Muster und Objekte in Bild- und Videodaten erkannt und klassifiziert werden.
Anwendungsgebiete
Eine der Hauptaufgaben in Computer Vision ist die Objekterkennung und Klassifizierung. Damit lassen sich verschiedenste Aufgaben lösen. Ein paar davon werden hier exemplarisch dargestellt.
Optical Character Recognition (OCR)
OCR ist eine weitverbreitete Technologie, die vor allem bei der Auswertung von Dokumenten Anwendung findet. Sie erlaubt es, Schrift und Schriftzeichen, die noch nicht im maschinellen Textformat vorliegt, in eine solche umzuwandeln. So können z. B. gescannte Rechnungen automatisiert ausgelesen werden und die einzelnen Datenpunkte wie Rechnungsnummer, Produktposition, offener Betrag oder Rechnungssteller extrahiert werden, um diese dann weiter zu verarbeiten.
OCR wird häufig in Kombination mit anderen Vorgängen genutzt, denn Textdaten lassen sich häufig einfacher weiterverarbeiten als visuelle Daten. Wenn man z. B. vorhandene Dokumente wie gescannte Rechnungen, Schriftverkehr, Verträge, usw. mittels OCR in Textformat bringt, lassen sich im Nachgang verschiedenste Natural Language Processing (NLP) Algorithmen darauf anwenden (siehe vorheriger Blogbeitrag).
Objekt- und Gesichtserkennung
Wer schon einmal Services/Apps wie Google Fotos oder Google Lens genutzt hat, kennt vermutlich schon solche Technologien. Google Fotos ermöglicht z. B. Bilder in der Cloud nach Personen oder Tieren zu sortieren. Ein einzelner Klick und mir werden nur noch Fotos angezeigt, auf denen mein Hund zu sehen ist. Mit Google Lens lassen sich live per Kamera Objekte analysieren und klassifizieren. Wie heißt nochmal die Baumart in ihrem Garten? Zu welcher Insektenart gehört dieser Käfer? Google Lens verrät es Ihnen innerhalb von Sekunden und schmeißt dazugehörige Wikipedia Artikel aus. Mittlerweile umfasst der Service mehr als eine Milliarde Objekte.
Natürlich beschränken sich diese Technologien nicht nur auf den privaten Fotobereich, sondern können auf verschiedenste Anwendungen ausgeweitet werden, z. B. auf forensische Analysen. Was früher noch als futuristisch galt und eher in TV-Serien wie „Criminal Minds“ vorkam, ist heute durchaus möglich und real: Algorithmen, die Gesichter von Personen in Kameraaufnahmen mit Datenbanken von Straftätern abgleichen.
Gesundheitswesen
Computer Vision findet auch im Gesundheitswesen großen Einzug, denn die Algorithmen eignen sich, um MRT- oder andere Bildgebungsverfahren auszuwerten und z. B. Tumore oder andere Auffälligkeiten zu identifizieren. Dabei erreichen die Algorithmen hohe Genauigkeit von bis zu 98% und können so Ärzte bei Anamnese und Diagnose unterstützen.
Solche Technologien sind mittlerweile auch niedrigschwellig für Privatpersonen nutzbar. Z. B. kann man mit der „SkinScreener“ App einfach von Zuhause seine Haut scannen und Leberflecken auf Unregelmäßigkeiten und Hautkrebs untersuchen lassen. Dennoch sollte man sich nicht ausschließlich auf die Ergebnisse von Algorithmen verlassen, sondern immer einen Arzt zu Rate ziehen.
Augmented Reality
Die Zukunft wird sich in Virtual Reality und Augmented Reality abspielen. Besonders Augmented Reality profitiert von Computer Vision, denn nur dadurch wird es ermöglicht, Objekte in die reale Welt zu projizieren. So können Wearables wie Google Glass z. B. Maschinen erkennen und Anleitungen und Dokumente zur Bedienung in die Brille projizieren.
In diesem Beitrag wurden nur einige Anwendungsfälle skizziert, doch das Spektrum ist riesig. Von autonom-fahrenden Autos, über Auslesen der Adresse auf Briefumschlägen, bis hin zu Emotionsauswertung im Kundengespräch, überall in der Wirtschaft findet Computer Vision Anwendung.
So vielseitig die Vorteile und Mehrwerte der Technologie auch sind, gibt es auch Watch-outs und Schattenseiten, vor allem in Bezug auf ethische und datenschutzrechtliche Aspekte.
Ethische und rechtliche Aspekte
Insbesondere Bildmaterial von Personen bedarf besonderer Handhabe, denn es beinhaltet sog. „personenbezogene Daten besonderer Kategorien“. Damit sind Merkmale wie ethnische Herkunft, religiöse Überzeugungen oder gesundheitsrelevante Daten gemeint, die eindeutig einer Person zugeordnet werden können. Die Datenschutz-Grundverordnung (DSGVO) untersagt die Verarbeitung solcher Daten ohne konkrete Einwilligung der betroffenen Person.
Die Gründe dafür sind vielseitig und haben oft ethische Hintergründe, wie zum Beispiel die potenzielle Diskriminierung von Personen aufgrund ihrer Ethnie oder Weltanschauung. Insbesondere bei der Verarbeitung von Bildmaterial das Personen abbildet, gilt es genauestens den rechtlichen Rahmen und den Zweck der Verarbeitung abzustecken.
Auch gesamtgesellschaftlich betrachtet birgt Computer Vision Risiken, zum Beispiel bei der staatlichen Überwachung. Durch die präzise Identifikation von Personen und entsprechende Hardware wie Kameras in der Öffentlichkeit ist es möglich nahezu jeden Schritt zu überwachen und folglich tief in die Privatsphäre der Person einzugreifen.
Fazit
Visual Computing nimmt einen immer größeren Stellenwert in unserer Welt ein, die Vorteile liegen auf der Hand. Wichtig ist, sich bei der Verwendung über den rechtlichen Rahmen bewusst zu sein und die Technologie ethisch sinnvoll einzusetzen. Wie immer bei KI, steckt der Teufel im Detail und man sollte sich ein klares Bild über die Datenlage und den Use Case machen, bevor man Visual Computing anwendet. Wenn z. B. die Trainingsdaten für den Algorithmus nicht die geforderte Qualität und Breite haben, wird auch die Maschine nicht präzise performen.
- Vom 12. Mai 2022