banner

Nachricht

Oct 16, 2023

Vision Transformers haben das Gebiet der Computer Vision im Sturm erobert, aber was lernen Vision Transformers?

Vision Transformers (ViTs) sind eine Art neuronaler Netzwerkarchitektur, die für Vision-Aufgaben wie Bildklassifizierung, semantische Segmentierung und Objekterkennung enorme Popularität erlangt hat. Der Hauptunterschied zwischen den Vision- und Originaltransformatoren bestand darin, dass die diskreten Texttokens durch kontinuierliche Pixelwerte ersetzt wurden, die aus Bildfeldern extrahiert wurden. ViTs extrahiert Merkmale aus dem Bild, indem es verschiedene Bereiche des Bildes betrachtet und diese kombiniert, um eine Vorhersage zu treffen. Trotz der jüngsten weit verbreiteten Verwendung ist jedoch wenig über die induktiven Vorurteile oder Merkmale bekannt, die ViTs tendenziell lernen. Während Merkmalsvisualisierungen und Bildrekonstruktionen beim Verständnis der Funktionsweise von Convolutional Neural Networks (CNNs) erfolgreich waren, waren diese Methoden beim Verständnis von ViTs, die schwer zu visualisieren sind, nicht so erfolgreich.

Die neueste Arbeit einer Gruppe von Forschern der University of Maryland-College Park und der New York University erweitert die ViTs-Literatur um eine eingehende Studie über ihr Verhalten und ihre inneren Verarbeitungsmechanismen. Die Autoren erstellten ein Visualisierungs-Framework, um Bilder zu synthetisieren, die Neuronen im ViT-Modell maximal aktivieren. Die Methode umfasste insbesondere die Durchführung von Gradientenschritten zur Maximierung der Merkmalsaktivierungen, indem man von zufälligem Rauschen ausging und verschiedene Regularisierungstechniken anwendete, wie z. B. die Bestrafung der Gesamtvariation und die Verwendung von Augmentation ensembling, um die Qualität der erzeugten Bilder zu verbessern.

Die Analyse ergab, dass Patch-Tokens in ViTs räumliche Informationen über alle Schichten hinweg bewahren, mit Ausnahme des letzten Aufmerksamkeitsblocks, der eine Token-Mischoperation erlernt, die der in CNNs weit verbreiteten durchschnittlichen Pooling-Operation ähnelt. Die Autoren stellten fest, dass die Darstellungen auch für einzelne Kanäle in tiefen Schichten des Netzwerks lokal bleiben.

Zu diesem Zweck scheint der CLS-Token im gesamten Netzwerk eine relativ untergeordnete Rolle zu spielen und wird erst auf der letzten Ebene für die Globalisierung verwendet. Die Autoren demonstrierten diese Hypothese, indem sie eine Inferenz auf Bildern ohne Verwendung des CLS-Tokens in den Schichten 1–11 durchführten und dann einen Wert für das CLS-Token in Schicht 12 einfügten. Der resultierende ViT konnte immer noch 78,61 % des ImageNet-Validierungssatzes erfolgreich klassifizieren ursprünglich 84,20 %.

Daher weisen sowohl CNNs als auch ViTs eine fortschreitende Spezialisierung der Merkmale auf, wobei frühe Schichten grundlegende Bildmerkmale wie Farbe und Kanten erkennen, während tiefere Schichten komplexere Strukturen erkennen. Ein wichtiger Unterschied, den die Autoren feststellen, betrifft jedoch die Abhängigkeit von ViTs und CNNs von Hintergrund- und Vordergrundbildmerkmalen. Die Studie ergab, dass ViTs deutlich besser als CNNs die Hintergrundinformationen in einem Bild nutzen können, um die richtige Klasse zu identifizieren, und weniger unter der Entfernung des Hintergrunds leiden. Darüber hinaus sind ViT-Vorhersagen im Vergleich zu ResNet-Modellen widerstandsfähiger gegenüber der Entfernung hochfrequenter Texturinformationen (Ergebnisse sind in Tabelle 2 des Papiers sichtbar).

Abschließend analysiert die Studie auch kurz die Darstellungen, die von ViT-Modellen gelernt wurden, die im CLIP-Framework (Contrastive Language Image Pretraining) trainiert wurden, das Bilder und Text verbindet. Interessanterweise fanden sie heraus, dass CLIP-trainierte ViTs im Gegensatz zu als Klassifikatoren trainierten ViTs Merkmale in tieferen Schichten erzeugen, die durch Objekte in klar erkennbaren konzeptionellen Kategorien aktiviert werden. Dies ist vernünftig und dennoch überraschend, da im Internet verfügbare Texte Angriffspunkte für abstrakte und semantische Konzepte wie „Morbidität“ bieten (Beispiele sind in Abbildung 11 dargestellt).

Besuche diePapierUndGithub. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachenunser 13k+ ML SubReddit,Discord-Kanal, UndE-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

Lorenzo Brigato ist Postdoktorand am ARTORG-Zentrum, einer Forschungseinrichtung der Universität Bern, und beschäftigt sich derzeit mit der Anwendung von KI auf Gesundheit und Ernährung. Er hat einen Ph.D. Abschluss in Informatik an der Universität Sapienza in Rom, Italien. Sein Ph.D. Die Dissertation konzentrierte sich auf Bildklassifizierungsprobleme bei Datenverteilungen mit Stichproben- und Etikettenmangel.

Papier-Github. unser über 13.000 ML SubReddit Discord Channel E-Mail-Newsletter
AKTIE