Die visuelle Erkundung der Maryland U und NYU enthüllt, was Vision Transformers lernen
Im neuen Artikel „What Do Vision Transformers Learn?“ A Visual Exploration, ein Forschungsteam der University of Maryland und der New York University, nutzt groß angelegte Merkmalsvisualisierungen einer Vielzahl von Vision-Transformatoren, um Erkenntnisse darüber zu gewinnen, was sie aus Bildern lernen und wie sie sich von Faltungs-Neuronalen Netzen unterscheiden.
Seit ihrer Einführung im Jahr 2020 haben sich Vision Transformers (ViTs) zu einer führenden Computer-Vision-Architektur entwickelt und erreichen modernste Leistung bei Aufgaben, die von der Objekterkennung und Bilderkennung bis hin zur semantischen Segmentierung reichen. Es bleibt jedoch eine Herausforderung, die internen Mechanismen zu verstehen, die zum Erfolg von ViTs beitragen – was und wie sie tatsächlich aus Bildern lernen.
Im neuen Artikel „What Do Vision Transformers Learn?“ A Visual Exploration, ein Forschungsteam der University of Maryland und der New York University, nutzt groß angelegte Feature-Visualisierungen einer Vielzahl von ViTs, um Erkenntnisse darüber zu gewinnen, was sie aus Bildern lernen und wie sie sich von Convolutional Neural Networks (CNNs) unterscheiden.
Das Team fasst seine wichtigsten Beiträge wie folgt zusammen:
Wie bei herkömmlichen Visualisierungsmethoden verwendet das Team Gradientenschritte, um die Funktionsaktivierung durch zufälliges Rauschen zu maximieren. Um die Bildqualität zu verbessern, bestrafen sie die Gesamtvariation (Mahendran & Vedaldi, 2015) und verwenden Techniken der Jitter-Augmentation (Yin et al., 2020), der ColorShift-Augmentation und der Augmentation Ensembling (Ghiasi et al., 2021).
Um ein tieferes Verständnis des Inhalts einer bestimmten visualisierten Funktion zu ermöglichen, koppelt das Team jede Visualisierung mit Bildern aus dem ImageNet-Validierungs-/Trainingssatz, die den stärksten Aktivierungseffekt in Bezug auf die relevante Funktion haben. Sie zeichnen das Aktivierungsmuster der Funktion auf, indem sie die am stärksten aktivierenden Bilder durch das ViT-Netzwerk leiten und das resultierende Muster der Funktionsaktivierungen anzeigen.
Das Team versucht zunächst, Merkmale der mehrköpfigen Aufmerksamkeitsschicht des ViT – einschließlich Schlüssel, Abfragen und Werte – durch Maximierung der aktivierten Neuronen zu visualisieren. Anschließend untersuchen sie die Bewahrung räumlicher Patch-Informationen aus den Visualisierungen der Feature-Aktivierungsebenen für Patch-Elemente und stellen überraschenderweise fest, dass zwar jedes Patch die Darstellung jedes anderen Patches beeinflussen kann, die Darstellungen jedoch lokal bleiben. Dies weist darauf hin, dass ViTs räumliche Informationen von Grund auf lernen und bewahren.
Das Team entdeckt außerdem, dass diese Bewahrung räumlicher Informationen im letzten Aufmerksamkeitsblock des Netzwerks aufgegeben wird, was ähnlich wie das durchschnittliche Pooling funktioniert. Sie kommen zu dem Schluss, dass das Netzwerk Informationen in der letzten Schicht globalisiert, um sicherzustellen, dass der Klassen-Token (CLS) Zugriff auf das gesamte Bild hat. Daraus schließen sie, dass der CLS-Token im gesamten Netzwerk eine relativ untergeordnete Rolle spielt und erst auf dieser letzten Schicht für die Globalisierung verwendet wird .
In ihrer empirischen Studie stellen die Forscher fest, dass die hochdimensionalen inneren Projektionen der Feed-Forward-Schichten von ViTs zur Erzeugung interpretierbarer Bilder geeignet sind, die Schlüssel-, Abfrage- und Wertmerkmale der Selbstaufmerksamkeit hingegen nicht. Bei Vergleichen zwischen CNN und ViT stellt das Team fest, dass ViTs Hintergrundinformationen besser nutzen und weitaus bessere Vorhersagen treffen können. Es zeigt sich auch, dass mit Sprachmodellüberwachung trainierte ViTs bessere semantische und konzeptionelle Merkmale erhalten.
Insgesamt verwendet diese Arbeit einen effektiven und interpretierbaren Visualisierungsansatz, um wertvolle Einblicke in die Funktionsweise und das, was ViTs lernen, zu liefern.
Der Code ist auf dem GitHub des Projekts verfügbar. Der Artikel What Do Vision Transformers Learn? Eine visuelle Erkundung ist auf arXiv.
Autor: Hekate Er |Editor: Michael Sarazen
Wir wissen, dass Sie keine Neuigkeiten oder Forschungsdurchbrüche verpassen möchten.Abonnieren Sie unseren beliebten Newsletter Synced Global AI Weekly, um wöchentliche KI-Updates zu erhalten.
Maschinenintelligenz | Technologie & Industrie | Information & Analyse
Pingback: Die visuelle Erkundung der Maryland U und NYU enthüllt, was Vision Transformers lernen | Synchronisiert -
Pingback: Top-Social-Media-Trends 2023, um immer einen Schritt voraus zu sein
Danke
Zusammenfassend lässt sich sagen, dass diese Arbeit eine leistungsstarke und verständliche Visualisierungsstrategie verwendet, um das Innenleben von ViTs und die Lektionen, die sie lernen, zu beleuchten.
Vielen Dank für die wertvollen Informationen und Einblicke.
Deine Email-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *
Kommentar *
Name
Webseite
Benachrichtigen Sie mich über nachfolgende Kommentare per E-Mail.
Benachrichtigen Sie mich per E-Mail über neue Beiträge.
D
Autor Herausgeber Abonnieren Sie unseren beliebten Newsletter Synced Global AI Weekly, um wöchentliche KI-Updates zu erhalten.