Ansichten:

Bewerten Sie die Ergebnisse der Scans Ihrer KI-Modelle.

Die folgende Tabelle zeigt die Informationen, die im KI-Durchsucher nach Abschluss eines Durchsuchens verfügbar sind:
Suchergebnis
Beschreibung
Details zur Suche
Grundlegende Informationen zu Ihrem Ziel-KI-Modell sowie Startzeit und Dauer der Durchsuchung.
Severity breakdown
Ein Überblick über die Schweregrade erfolgreicher Angriffe auf Ihr KI-Modell, organisiert in Kritisch, Hoch, Mittel und Niedrig Schweregrade.
Top attack objectives
Ein Diagramm, das die am häufigsten verwendeten Angriffsziele zeigt, die auf Ihr KI-Modell abzielen.
Ein Angriffsobjektiv ist das Ergebnis, das ein Angriff auf ein KI-Modell zu erzeugen versucht, wie zum Beispiel die Offenlegung sensibler Daten.
Top attack techniques
Ein Diagramm, das die am häufigsten verwendeten Techniken zum Angriff auf Ihr KI-Modell anzeigt, wie z.B. DAN (Do Anything Now)-Eingaben.
Framework compliance
Ein Diagramm des Prozentsatzes der Scans, bei denen Ihr Modell die Einhaltung verschiedener globaler Compliance-Standards, einschließlich der folgenden, gezeigt hat:
  • OWASP-Standard zur Überprüfung der Anwendungssicherheit
  • MITRE
Attack outcome by objective
Ein Diagramm der Ergebnisse von fehlgeschlagenen und erfolgreichen Angriffen auf Ihr Modell, organisiert nach Angriffsziel.
Evaluation results
Eine Tabelle der aggregierten Ergebnisse aller Durchsuchungen Ihres KI-Modells, einschließlich der Durchsuchungseinstellungen, des Schweregrads und des endgültigen Angriffsergebnisses.
Details der individuellen Durchsuchung
Klicken Sie auf Details anzeigen in einer beliebigen Zeile der Tabelle mit den Bewertungsergebnissen, um die Details eines einzelnen Durchsuchens anzuzeigen, einschließlich der folgenden:
  • Original prompt: Die anfängliche Eingabeaufforderung, um den Chat zu beginnen
  • Chat history: Klicken Sie auf View full conversation, um den vollständigen Chat zwischen dem Benutzer und dem KI-Modell anzuzeigen
  • Attack objective und Attack technique: Die für das DURCHSUCHEN ausgewählten Angriffseinstellungen
  • Framework compliance: Der Konformitätsstatus des Modells basierend auf verschiedenen Rahmenwerken
  • Bewertung: Der Grund, warum der Angriff auf das Modell fehlgeschlagen oder erfolgreich war