Wissenschaftswoche 2025

Deepfakes
verstehen

Deepfakes sind KI-generierte oder veränderte Bilder, Videos und Audio, die echte Menschen täuschend echt imitieren und für Unterhaltung, Werbung, aber auch Desinformation, Betrug und Erpressung genutzt werden (q1).

KI-Videos pro Tag (Schätzung)
0
Generierte Videos weltweit mit Modellen wie Sora, Runway, Pika, Luma.
KI-Frames pro Sekunde
0
Geschätzte Anzahl synthetisch erzeugter Videoframes.
KI-Requests pro Tag
0
Text-, Bild- und Video-Anfragen an generative Modelle.

Zwei Hauptarten von Deepfakes im direkten Vergleich: Face-Swap vs. Text-zu-Video.

Im weiteren Verlauf findest du eine Kostenübersicht und Prompting-Beispiele für beide Ansätze.

Face-Swap

DeepFaceLab, FaceSwap

arbeitet auf echtem Zielvideo, Identität wird getauscht (q1)

Text-zu-Video

Sora & Co.

Prompt erzeugt komplette Szene aus dem Nichts (q2)

Visualisierung eines Deepfake-Komposits
Frau seitlich mit Face-Mesh
Face-Swap: Echtes Zielvideo bleibt; KI setzt anderes Gesicht ein (q1).

Desinformation

Gezielte Fake-Interviews oder politische Statements destabilisieren Debatten, bevor Faktenchecks greifen (q1).

Wissenschaftswoche 2025

Selbsttest

Wie gut erkennst du KI-generierte Videos?

Viele Menschen überschätzen ihre Fähigkeit, KI-generierte Videos zu erkennen – gerade, weil sie viel auf Social Media unterwegs sind. In der Praxis ist es jedoch deutlich schwieriger, als man denkt.

Zwei Videos nebeneinander – links echt, rechts Deepfake
Links und rechts siehst du zwei ähnliche Szenen – eine davon ist KI-generiert. Tipp: Achte auf Details wie Licht, Augen und Mundpartie.

Lösung: Links ist echt, rechts ist KI-generiert.

Überblick

Was sind Deepfakes?

Synthetische Gesichter verschmelzen echte Aufnahmen mit KI-Renderings und stellen klassische Beweisführung in Frage.

Deepfakes lernen anhand vieler Portraits typische Mimik, Stimme und Lichtsetzung einer Person, um sich millimetergenau über echte Videos zu legen. Damit werden Grenzen zwischen Authentizität und Simulation gezielt verwischt (q1).

Die Technologie dient Serien, Werbung und Bildung für kreative Storys, wird aber ebenso für Desinformation, Deepfake-Pornos oder Identitätsbetrug missbraucht. Verantwortungsvoller Einsatz entscheidet über Nutzen oder Schaden.

Kontext

Der Einfluss von KI auf unser Leben

Ob Unterhaltung oder DesinformationDeepfakes greifen tief in mediale Ökosysteme ein und beeinflussen Wahrnehmung, Vertrauen und politische Prozesse (q1).

1

Storytelling & Bildung

Serien, Werbung und Unterricht nutzen synthetische Szenen für neue Perspektiven – solange Kennzeichnungen klar bleiben (q1).

2

Desinformation & Betrug

Fake-Interviews, CEO-Fraud oder Drohvideos können Vertrauen erschüttern, bevor Faktenchecks greifen (q1).

3

Identität & Vertrauen

Mit leicht getauschten Gesichtern verlieren biometrische Beweise an Gewicht, was forensische Teams vor neue Aufgaben stellt (q4).

Video

Deep Fakes – Was ist denn das?

Zwei Hauptarten

Face-Swap vs. Text-zu-Video

Beide erzeugen synthetische Realität, folgen aber unterschiedlichen Pipelines.

Zielvideo Encoder Decoder A/B Compositing
Face-Swap-Deepfake Beispiel

Face-Swap (Identitäts-Tausch)

  • Echtes Zielvideo bleibt; KI setzt anderes Gesicht ein.
  • Tools: DeepFaceLab, FaceSwap (Open Source, lokal) (q1).
  • Typische Fakes: Interviews, politische Statements, Deepfake-Pornos, Identitätsbetrug.
  • Benötigt hochwertige Quellbilder & stabile Zielvideos.

Benötigt immer reales Ausgangsmaterial (q1).

Text-zu-Video Deepfake

Text-zu-Video (Prompt-basiert)

  • Input ist ein Prompt, z.B. „Politiker vor Presse“.
  • Modelle wie Sora erzeugen Personen, Hintergründe und Kamerafahrten komplett neu (q2).
  • Eignet sich für Storyboards, Werbespots und Simulationen.
  • Kann Szenen erschaffen, die nie existierten – inklusive fiktiver Zitate.

Braucht kein echtes Video; Fantasie reicht (q2).

Wichtig: Face-Swap braucht reale Basis, Text-zu-Video erzeugt Szenen aus dem Nichts.

Wie funktioniert es?

Modelle im Überblick

Autoencoder

Encoder & Decoder

Ein gemeinsamer Encoder komprimiert Gesichter in Latentvektoren; zwei Decoder rekonstruieren Person A bzw. B. Beim Swap: Video B → Encoder → Decoder A → Gesicht von A folgt Mimik von B (q1).

Kern klassischer Deepfakes

GANs

Generator vs. Discriminator

Generator erzeugt Bilder, Discriminator spürt Fakes auf. Im Wettstreit verbessern sich beide, bis der Generator extrem realistische Haut, Licht und Kanten baut. In Pipelines dienen GANs oft als Upscaler für Details (q1).

Verfeinert Texturen

Diffusion

Sora & moderne Modelle

Beim Training werden echte Frames mit Rauschen überlagert. Das Modell lernt, Rauschen schrittweise zu entfernen und folgt dabei Text-Vektoren. OpenAI beschreibt Sora als Diffusionsmodell mit Transformer, das lange Szenen konsistent generiert (q2).

Text steuert Bildaufbau

GAN Schema
GAN-Diagramm: Generator vs. Discriminator optimieren sich gegenseitig (q1).
GAN Training
GAN-Training & Loss-Kurven zeigen, wie Real- und Fake-Daten gegeneinander antreten.

Modelle, Kosten & Prompts

Face-Swap Hardware trifft Text-zu-Video Abos

Gegenüberstellung von Face-Swap-Hardware und Text-zu-Video-Abomodellen
Face-Swap

DIY-Kosten

  • Software wie DeepFaceLab/FaceSwap ist kostenlos (q1).
  • GPU-Leistung, Speicher und Trainingszeit dominieren das Budget.
  • Strom, Verschleiß und Lernkurve entscheiden über Machbarkeit.

Fazit: Investition steckt in Hardware, nicht in Lizenzen.

Text-zu-Video

Abo-Modelle (Runway Gen-3/4)

  • Free: 0 US$, einmalig 125 Credits à 25 s Gen-4 Turbo (q3).
  • Standard: ca. 12 US$ / Monat für 625 Credits (→ 52 s Gen-4).
  • Pro: ca. 28 US$ / Monat für 2250 Credits (mehrere Minuten Video).
  • Andere Anbieter (Sora, Pika, Luma) nutzen ähnliche Credit-/Abo-Systeme.

Typisch: wenige Dollar pro Videominute bei seriellen Projekten.

Prompting-Guides für Video & Face-Swap

Text-zu-Video

Prompts strukturieren

  1. Wer / was (Hauptfigur)?
  2. Was passiert (Aktion)?
  3. Wo / wann (Ort, Licht, Wetter)?
  4. Wie gefilmt (Kamera, Bewegung)?
  5. Welcher Stil (cinematic, Anime, Found Footage)?

Kurze, präzise Prompts (1–3 Sätze) schlagen Romane. Positive Vorgaben („ruhige Kamera“) sind wertvoller als Negativlisten.

„Steadicam tracking shot einer jungen Frau mit Rucksack, die nachts durch eine regennasse, neonbeleuchtete Straße in Tokio läuft, 4K, cinematischer Filmlook, 24 fps.“

Face-Swap

Datensammlung = Prompt

  • Viele, gut ausgeleuchtete Bilder der Quellperson aus mehreren Winkeln.
  • Hochauflösendes Zielvideo mit ruhiger Kamera und wenig Verdeckung.
  • Passende Parameter (Gesichtsauflösung, Maskenbereich, Trainingsdauer) optimieren das Ergebnis (q1).

Je besser Datenbasis und Einstellungen, desto überzeugender das Ergebnis.

Wie weit kommt man kostenlos?

Free-Tiers liefern Sekunden bis kurze Clips. Für Schulprojekte reichen mehrere Snippets, nicht aber lange Filme (q3).

Umwelt & Zukunft

Fussabdruck verstehen & handeln

KI-Videos verbrauchen Strom und Wasser – aber wir können den Effekt mit bewusstem Einsatz deutlich senken.

Was verursacht den Verbrauch?

Training vs. Nutzung

  • Training: Große Modelle (z.B. GPT-3 oder Sora-ähnliche Videomodelle) laufen auf Tausenden GPUs für Wochen und verbrauchen enorme Mengen Strom (q4).
  • Nutzung: Jede Text- oder Video-Anfrage braucht zusätzliche Energie – Video ist deutlich energieintensiver als Text (q4).
  • Kühlung: Datenzentren setzen Verdunstungskühlung ein; das Training von GPT-3 kann ca. 700.000 Liter Wasser verdunsten, bis 2027 werden 4,2–6,6 Mrd. m³/Jahr erwartet (q4).

Praktische Tipps

Wie Schulen klimafreundlich bleiben

  • Nur die Clips generieren, die für eine Stunde wirklich gebraucht werden – keine endlosen Test-Videos.
  • Möglichst kurze Sequenzen statt minutenlanger 4K-Exports; Auflösung und Framerate passend zur Aufgabe wählen.
  • Wenn möglich, Tools nutzen, die Rechenzentren mit erneuerbaren Energien betreiben (q4).
  • Material wiederverwenden: einmal generierte Beispiele in mehreren Klassen einsetzen statt alles neu zu rendern.
Rechenzentrum mit Naturkontrast

Erwartete Fortschritte

Zunahme an Realismus

  • Bessere Physiksimulationen, stabilere Figuren über mehrere Szenen.
  • Nahezu perfekter Lip-Sync und Kamerasteuerung.
  • Storyboards mit mehreren Shots, Charaktere bleiben konsistent (q2).
  • Spezialisierte KI-Chips und optimierte Algorithmen senken Energie pro Clip (q1).

Offene Probleme

Risiken bleiben

  • Missbrauch: Deepfake-Pornos, politische Manipulation, Betrug (q1).
  • Vertrauenskrise bei Medien: Video/Audio als Beweismittel schwerer einzuordnen.
  • Wettrüsten: bessere Fakes vs. bessere Detektoren ohne Endlösung (q1, q4).
  • Umweltbelastung wächst trotz effizienterer Modelle, wenn die Nutzung explodiert (q4).

Aktuelle Grenzen

Was KI noch nicht souverän kann

Illustration zu typischen Schwächen aktueller KI-Systeme
Visualisierung, wie KI-Modelle trotz beeindruckender Ergebnisse noch mit Physik, Konsistenz und Fairness kämpfen.

Physik & Logik

Objekte verformen sich, Bewegungen wirken unplausibel oder verschwinden plötzlich – Sora nennt diese Schwächen explizit (q2).

Konsistenz

Figuren ändern Accessoires, Gesichtsproportionen oder tauchen aus dem Nichts auf (q1).

Audio-Sync

Lippenbewegungen hinken schneller Sprache hinterher, vor allem bei Kopfbewegungen und seitlichen Ansichten (q1).

Bias & Fairness

Unausgewogene Trainingsdaten verstärken Stereotype (z.B. Führungsrollen männlich) (q1).

Detektion

Detektoren sind auf Benchmarks stark, fallen aber gegen neue Manipulationen ab – ein Wettrüsten zwischen Fakes und Erkennung (q1, q4).

Fazit Forschung: Gute Fakes entwickeln sich schneller als robuste Detektoren (q1).

Forensik & Medien

Wie Profis KI-Deepfakes erkennen

Professionelle Medienhäuser und Forensik-Teams kombinieren mehrere Methoden, um Deepfake-Videos zu entlarven. Die wichtigsten Schritte lassen sich wie eine Checkliste durchgehen:

  • Bild für Bild: Clips werden in Einzelbilder zerlegt; gesucht werden KI-Artefakte wie unnatürliche Haut, flimmernde Ränder, falsches Licht oder springende Accessoires.
  • Tonspur prüfen: Stimmen Lippenbewegung, Stimme und Hintergrundgeräusche überein oder wirkt etwas leicht versetzt?
  • Metadaten & Ursprung: Fact-Checker prüfen Upload-Historie und Rückwärts-Bildersuche: Wo ist das Video zuerst aufgetaucht, gibt es ein unverändertes Original?
  • KI-Detektoren: Modelle, die auf Deepfake-Datensätzen trainiert sind, bewerten jedes Frame – dienen aber nur als ein Baustein (q1, q6, q7).

Entscheidend ist die Kombination: Profis verlassen sich nie auf ein einziges Tool, sondern treffen Entscheidungen erst, wenn Technik, Kontext und redaktionelle Recherche zusammenpassen.

Forensische Analyse eines Deepfake-Videos

Video

Deepfakes – so erkennt man manipulierte Videos

Selbst testen

Welche Tools du selbst nutzen kannst

Auch ohne eigenes Forensik-Labor kannst du verdächtige Videos prüfen. Praktisch ist eine kleine Routine, die du immer wieder anwenden kannst:

  1. Standbild holen: Mit Browser-Plugins wie InVID / WeVerify einzelne Frames extrahieren.
  2. Rückwärts-Suche: Die Standbilder per Bildersuche checken – taucht das Motiv in einem anderen Kontext auf?
  3. Kontext checken: Wer verbreitet den Clip, seit wann gibt es ihn, berichten seriöse Medien darüber?
  4. Detektoren nutzen: Plattformen wie TrueMedia.org oder Reality Defender prüfen Bild, Audio und Video mit eigenen Modellen.

Wichtig bleibt: Verlass dich nie nur auf einen Score oder ein Ampelsymbol. Kombiniere technische Ergebnisse immer mit gesundem Misstrauen, Kontextrecherche und klassischen Fragen: Wer verbreitet das Video, welche Quellen bestätigen es – und passt die Geschichte überhaupt zur Realität?

Ubersicht über Tools zur Erkennung von KI-Inhalten

Video

Deepfakes aufdecken!

Video-Workflows

Von Sora-Demos bis Runway-Tutorials

Clips zeigen am besten, wie Prompts, Kameraangaben und Credits zusammenspielen.

Sora Storyboards

OpenAI zeigt in Demo-Reels, wie Diffusionsmodelle mit Transformer-Steuerung längere Szenen aufbauen (q2). Gute Prompts beschreiben Bewegung von Figur und Kamera.

Sora-Demos ansehen (q2, externe Seite)

Didaktische Nutzung

Kurzvideos mit erklärenden Bild-in-Bild-Overlays machen sichtbar, wie Datensammlung und Parameterwahl Face-Swap-Ergebnisse beeinflussen (q1).

AI in 2023 vs. 2025

Kurzer Überblick, wie schnell sich KI-Modelle in den letzten Jahren entwickelt haben.

Fake News und Deepfakes – so erkennst du sie

logo!-Format für Kinder und Jugendliche, verständlich und kurz.

Deepfakes – Chancen und Risiken

TechUcationschool-Video mit Fokus auf Unterricht, Einsatzmöglichkeiten und Risiken.

Quellen