In unserem letzten Beitrag “Wie findet COPYTRACK geklaute Bilder” aus der Reihe “Ein Blick hinter die Kulissen” haben wir es schon einmal beschrieben: Copytrack sammelt täglich mehrere Millionen Bilder aus dem gesamten Internet mittels individueller Crawler. Ein essentieller Schritt dabei ist die “Abfrage der Bilder gegen den Copytrack-Bildindex”. Diesen Schritt zum Bildvergleich wollen wir uns in unserem aktuellen Artikel einmal genauer anschauen.
Doch bevor es losgeht, ist Folgendes noch gut zu wissen: Der Copytrack-Bildvergleich kommt ohne Wasserzeichen aus. Es ist auch nicht notwendig, zusätzliche Metadaten in die Bilder einzufügen oder irgendwelche Informationen aus den Bildern zu entfernen.
Das reine Bild reicht für den Bildvergleich aus!
Für die Aufnahme in den Copytrack-Bildindex analysieren wir zunächst alle, von unseren Kunden in die App geladenen, Bilder und erstellen für jedes Bild einen individuellen Fingerabdruck. Wie das funktioniert? Das Bild wird dazu in ein Schwarz-Weiß-Bild mit einer spezifischen Größe umgewandelt. Dieses Bild wird dann mittels eines eigens entwickelten Algorithmus auf bestimmte Muster (bestehend aus Millionen von Pixeln) untersucht und zu einem individuellen Fingerabdruck verrechnet. Der Fingerabdruck besteht dabei aus einer ganzen Reihe von Mustern, diese die Pixel des Bildes bilden und so den Fingerabdruck unverwechselbar machen. Jeder individuelle Fingerabdruck wird anschließend im Copytrack-Bildindex gespeichert.
Die im Copytrack-Bildindex enthaltenen Bilder können nun verwendet werden, um sie mit allen durch unsere Crawler eingesammelten Bildern zu vergleichen. Dazu analysieren wird jedes, aus dem Internet gesammelte, Bild und erstellen ebenso einen individuellen Fingerprint. Theoretisch könnte man auch alle eingesammelten Bilder zum Copytrack-Bildindex hinzufügen. Wir beschränken uns aber darauf, die Fingerabdrücke mit denen, die sich im Copytrack-Bildindex befinden, zu vergleichen..
Für die Aufnahme in den Copytrack-Bildindex analysieren wir zunächst alle, von unseren Kunden in die App geladenen, Bilder und erstellen für jedes Bild einen individuellen Fingerabdruck. Wie das funktioniert? Das Bild wird dazu in ein Schwarz-Weiß-Bild mit einer spezifischen Größe umgewandelt. Dieses Bild wird dann mittels eines eigens entwickelten Algorithmus auf bestimmte Muster (bestehend aus Millionen von Pixeln) untersucht und zu einem individuellen Fingerabdruck verrechnet. Der Fingerabdruck besteht dabei aus einer ganzen Reihe von Mustern, diese die Pixel des Bildes bilden und so den Fingerabdruck unverwechselbar machen. Jeder individuelle Fingerabdruck wird anschließend im Copytrack-Bildindex gespeichert.
Die im Copytrack-Bildindex enthaltenen Bilder können nun verwendet werden, um sie mit allen durch unsere Crawler eingesammelten Bildern zu vergleichen. Dazu analysieren wird jedes, aus dem Internet gesammelte, Bild und erstellen ebenso einen individuellen Fingerprint. Theoretisch könnte man auch alle eingesammelten Bilder zum Copytrack-Bildindex hinzufügen. Wir beschränken uns aber darauf, die Fingerabdrücke mit denen, die sich im Copytrack-Bildindex befinden, zu vergleichen.
Das Besondere an dem Bildvergleich mit Copytrack: Da die Fingerabdrücke aus einer ganzen Reihe von Mustern bestehen, können wir auch Teilübereinstimmungen finden. Dieses ermöglicht es uns Bilder auch dann zu identifizieren, wenn Sie stark verändert wurden – also beispielsweise durch Zuschnitte, Skalierungen, Farbveränderungen oder Verzerrungen.
Für die gefundenen Bilder berechnen wir anhand des individuellen Fingerabdruckes ein "Ähnlichkeitsscore", um die besten Übereinstimmungen zu finden.
Damit es für unsere Kunden möglichst einfach ist, extrem ähnliche Bilder zu prüfen, berechnen wir zusätzlich das bekannte Overlay, welches in jeder Fundstelle zu finden ist.
Zu guter Letzt erfolgt die Verfeinerung der Treffer aus dem Bildvergleich. Dazu werden Fundseite und Speicherort des Trefferbildes ermittelt sowie das Veröffentlichungsdatum des Bildes und die Betreiber der Fundseite. Zusätzlich berechnen wir für den Fall, dass die Bilder nicht rechtmäßig lizenziert wurden, bereits vorab den potenziellen Wert, den der Rechteinhaber für eine nachträgliche Lizenz verlangen könnte. Sind dann alle Treffer mit allen Zusatzinformationen angereichert, so werden dem Nutzer alle Funde in der Inbox der COPYTRACK-Kunden-App angezeigt und der Nutzer kann mit Bearbeitung seiner Funde beginnen.
Geschrieben von Stefan Bär, CTO Copytrack