Seminar CBIR

Evaluierungsmethoden für die Bildsuche


1. Wozu Evaluation?

Evaluationsergebnisse können bei der Beantwortung dieser Fragen helfen.


Algorithmus ===(Evaluationssystem)===> „Dieser Algorithmus erkennt zwar Elephanten, aber keine Berge.“

(Dieses Verfahren ist zwar vereinfacht, aber im großen und ganzen möglich.)

Bilder ===(Algorithmus)===> Ergebnis ===(Evaluationssystem)===> Bewertung


Wichtig:


2. Probleme

Liste von Bildern als Evaluierungsmethode

„Early reports of the performance of CBIR systems were often restricted simply to printing the results of one or more example queries (e.g. Flickner et al. (1995)).

It is neither an objective performance measure, nor a means of comparing different systems.“ (aus *a)

Demo


Vorteile

Nachteile


2.1. Bilddatenbanken

Anforderungen an eine Bilddatenbank


Verfügbare Bilddatenbanken (siehe *b)


2.2. „Ground truth“

Wann sind Bilder ähnlich/unterschiedlich?

Welche Definition von „Ähnlichkeit“ soll man verwenden?

Semantische   Lücke


Bei der Wahl der „Definition“ sollte man den Anwendungsbereich berücksichtigen.

Sowohl die Wahl der Datenbank als auch die „Ground truth“-Werte hängen von der Definition ab.

Woher bekommt man die Werte für die Ähnlichkeiten („ground truth“)?

(a), (b) und (c) sind schon drei Verschiedene Werte für die „ground truth“!

Verwendet werden soll (c).


2.3. Evaluationsmethoden/Bewertungsfunktionen

Beispiele (siehe *a, *b, *c, *d)

P(x): Precision nach x Bildern, R(x): Recall nach x Bildern

Es können noch unterschiedliche Gewichte berücksichtigt werden.


Einschub: Standard?

Quasistandard (direkt)


Nicht so gut…

Es gibt Benchmarkinitiativen wie z.B. Benchathlon, die sich aber bisher wohl nicht durchsetzen konnten.

Gründe


Vergleich


3. Anleitung zur Benutzung der Algorithmen

Siehe „Inhalt.txt“.


Copyright © 2004 Hendrik Tessendorf