Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Portability of Targeted Adversarial Attacks
Organization Unit
Authors
  • Rohit Kaushik
Supervisors
  • Manuel Günther
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text In recent years, image classification with neural networks have shown promising results and hence garnered interest of researchers. These networks have been able to perform classification with near human efficiency. However it was later discovered that it is easy to fool neural networks and they are not robust to small non random perturbations. Addition of small non random pertubations which is imperceptible to human eye can cause neural network to misclassify an image which was previously correctly classified. Such a perturbed image is called adversarial image and an approach to generate such image is called adversarial attack. Morever these perturbations are portable to other neural network architecture which means an adversarial image that can fool one network can also be used to fool other networks. This poses a huge security risk for system that rely on image classification such medical analysis and autonomous vehicle. An attacker can modify the input image which could lead to failure of the system. This suggests that there is a need to build systems which are robust against such small perturbations. Portability is another import aspect, since if an adversarial example is only portable to few of the neural networks, an ensemble of network can be used to prevent against such attacks. In this work we propose experiments to evaluate portability of adversarial images across popular neural networks. We perform an in depth portability study by looking into how far the predictions are from true class. Since there has been very few research for targeted attack and it’s portability we include them in our study. We generate adversarial images on 13 neural network model with 3 adversarial attack and different value of perturbation constant epsilon on the subset of ImageNet dataset (ILSVRC 2012). A distance metric was proposed to calculate the distance between any two classes of the dataset. The experiments shows that with untargeted attack and a larger epsilon the portability is high between networks of similar architecture but it drops significantly as we reduce the epsilon. With targeted attack, 3 different approach to choosing target was proposed but we observe low portability with all the targeted attacks and different values of target and perturbation constant.
Zusammenfassung In den letzten Jahren hat die Bildklassifizierung mit neuronalen Netzwerke vielversprechende Ergebnisse gezeigt und haben daher das Interesse der Forscher geweckt. Diese Netze sind in der Lage, die Klassifizierung mit nahezu menschlicher Effizienz durchzuführen. Später wurde jedoch festgestellt, dass neuronale Netze leicht zu täuschen sind und dass sie gegenüber kleinen, nicht zufälligen Störungen nicht robust sind. Die Hinzufügung von kleinen nicht zufälligen Pertungen, die für das menschliche Auge nicht wahrnehmbar sind, können dazu führen, dass ein neuronales Netz ein Bild falsch klassifiziert das zuvor korrekt klassifiziert wurde. Ein solches gestörtes Bild wird als adversariales Bild und ein Ansatz zur Erzeugung eines solchen Bildes wird als gegnerischer Angriff bezeichnet. Darüber hinaus sind diese Störeinflüsse auf andere neuronale Netzarchitekturen übertragbar, d. h. ein Störbild, das ein Netz täuschen kann ein Netzwerk täuschen kann, kann auch für andere Netzwerke verwendet werden. Dies stellt ein großes Sicherheitsrisiko für Systeme dar die auf Bildklassifizierung angewiesen sind, wie medizinische Analysen und autonome Fahrzeuge. Ein Angreifer kann Angreifer kann das Eingabebild verändern, was zu einem Ausfall des Systems führen kann. Dies zeigt, dass es notwendig ist dass es notwendig ist, Systeme zu entwickeln, die gegen solche kleinen Störungen robust sind. Portabilität ist ein weiterer ist ein weiterer wichtiger Aspekt, denn wenn ein gegnerisches Beispiel nur auf wenige neuronale Netze übertragbar ist, kann ein Ensemble von Netzen verwendet werden, um solche Angriffe zu verhindern. In dieser Arbeit schlagen wir Experimente vor In dieser Arbeit schlagen wir Experimente vor, um die Übertragbarkeit von Schadbildern auf gängige neuronale Netze zu bewerten. Wir führen Wir führen eine eingehende Portabilitätsstudie durch, indem wir untersuchen, wie weit die Vorhersagen von der wahren Klasse entfernt sind. Seit Da es nur sehr wenige Untersuchungen zu gezielten Angriffen und deren Übertragbarkeit gibt, beziehen wir diese in unsere Studie ein. Wir generieren gegnerische Bilder auf 13 neuronalen Netzwerkmodellen mit 3 gegnerischen Angriffen und verschiedenen Werten der Störungskonstante epsilon auf einer Teilmenge des ImageNet-Datensatzes (ILSVRC 2012). A Distanzmetrik wurde vorgeschlagen, um den Abstand zwischen zwei beliebigen Klassen des Datensatzes zu berechnen. Die Experimente zeigen, dass bei einem ungezielten Angriff und einem größeren epsilon die Übertragbarkeit zwischen Netzwerken ähnlicher Architektur hoch ist. Netzwerken mit ähnlicher Architektur hoch ist, aber sie sinkt deutlich, wenn wir den Epsilon-Wert verringern. Mit gezieltem Angriff, 3 verschiedene Ansätze zur Auswahl des Ziels vorgeschlagen, aber wir beobachten eine geringe Portabilität bei allen gezielten Angriffen und unterschiedlichen Werten für das Ziel und die Störungskonstante.
PDF File Download
Export BibTeX