EKON 26
The Conference for Delphi & more
November 7 - 9, 2022 | Düsseldorf

Objekte und Texte mit der Cloud-Vision-API in Bilder erkennen

Session
Infos
Tuesday, November 8 2022
15:00 - 16:00

Mit der Cloud-Vision-API stellt Google ein einfach nutzbares Bilderkennungswerkzeug bereit, dass
dank vortrainierten und grossen Maschine-Learning Modellen sehr leistungsfähig ist. Die Texterkennung ermöglicht nicht nur gedruckte, sondern auch handschriftlich verfasste Texte innerhalb von Bildern mit hoher Güte zu erkennen. Für die Objekterkennung wurde das ML-Modell mit mehreren Millionen Objektkategorien trainiert, damit Bilder anhand ihres Inhalts klassifiziert werden. Die Gesichtserkennung ermöglich zwar nicht die Identifizierung von Personen, kann aber Emotionen erkennen und vermisst die erkannten Gesichter. Weitere Funktionen erlauben in Fotos häufig fotografierte Gebäude zu lokalisieren, Logos und Produkte zu erkennen, nach Referenzen im Web zu suchen aber auch anstössige Bilder können entdeckt werden.
Für die Ansteuerung der Cloud-Vision aus einer Delphi Applikation (FMX oder VCL) stellt die OpenSource-Library FB4D seit kurzem ein einfach nutzbares Interface bereit. In dieser Session erklärt der Autor dieser Library deren Anwendung und vergleicht diese Cloud-Lösung mit dem Einsatz eines lokalen ML-Modells.