Text-to-Image-KI liefert 2026 kommerziell-nutzbare Ergebnisse. Der Flaschenhals ist nicht mehr das Modell — sondern dein Prompt. Ein großartiger Prompt im selben Tool macht den Unterschied zwischen einem generischen Stock-Foto-Output und einem echt beeindruckenden Visual das auf eine Werbetafel passt.
Dieser Leitfaden ist die praktische, Hype-freie Anleitung wie du Bild-Prompts schreibst die konsistent den Output produzieren den du willst. Wir decken die vier großen Tools (Stable Diffusion, Midjourney, DALL-E 3, Flux), die strukturellen Formeln die funktionieren, häufige Fehler, und die 15 Techniken die Anfänger von Profis trennen.
Am Ende weißt du genau was in die Prompt-Box kommt — und was nicht.
Die vier großen Tools 2026
Stable Diffusion 3.5 — Open-Source. Läuft lokal oder auf Cloud-GPUs. Am flexibelsten aber erfordert mehr Prompt-Engineering. Am besten für fine-tuned Custom-Checkpoints (Photorealismus, Anime, spezifische Künstler).
Midjourney v7 — Closed, Discord/Web. Bester ästhetischer "Geschmack" out-of-the-box. Minimales Prompting produziert schöne Ergebnisse. Schwächste Instruction-Following-Präzision.
DALL-E 3 — OpenAI. Integriert in ChatGPT. Am besten beim Folgen komplexer Natural-Language-Prompts und beim Hinzufügen von Text in Bilder. Limitierte Anpassung.
Flux.1 — Black Forest Labs. Ende 2024 released, dominant für Photorealismus. Läuft auf Replicate, FAL oder lokal.
Alle teilen eins: dein Prompt ist der gesamte Input. Keine Slider, keine Layer (noch nicht). Nur Text.
Die Anatomie eines professionellen Bild-Prompts
Ein Prompt der zuverlässig großartige Bilder produziert hat sechs Elemente, auch wenn Reihenfolge und Gewichtung je Tool variieren:
1. Motiv — Was im Frame ist
"Eine 40-jährige türkische Frau mit kurzen dunklen Haaren"
2. Aktion / Pose — Was passiert
"liest ein Buch in einem Café"
3. Setting — Wo
"neben einem Regenfenster in Istanbul"
4. Stil / Medium — Visueller Ansatz
"aufgenommen mit Fujifilm X-T5, 35mm Objektiv, natürliches Licht"
5. Stimmung / Atmosphäre — Gefühl
"nachdenklich, warm, Golden-Hour-Licht"
6. Technische Modifiers — Qualität, Seitenverhältnis, etc.
"hyper-detailliert, scharfer Fokus, Tiefenschärfe"
Zusammengesetzt:
A 40-year-old Turkish woman with short dark hair reading a book in a café beside a rainy window in Istanbul, shot on Fujifilm X-T5 with 35mm lens, natural lighting, contemplative and warm, golden-hour glow, hyper-detailed, sharp focus, shallow depth of field
(Bild-Prompts funktionieren am besten in Englisch — auch wenn du deutsch sprichst.)
Das liefert ein konsistent gutes Ergebnis über alle vier Tools, mit kleinen Syntax-Anpassungen.
Tool-spezifische Syntax
Stable Diffusion
Nutzt kommagetrennte Tags mit Weight-Modifiers:
```
(masterpiece:1.2), (best quality:1.3), Turkish woman, short dark hair,
age 40, reading book, cafe, rainy window, Istanbul background,
35mm film, natural lighting, contemplative, golden hour,
hyper-detailed, sharp focus, depth of field
Negative prompt: (worst quality:1.4), blurry, lowres, distorted, ugly
```
Konventionen:
(keyword:1.3)zum Betonen (1.0 = normal, 1.3 = stark, 1.5+ = übertrieben)(keyword:0.7)zum Dämpfen- Immer Negative Prompt nutzen — sagt dem Modell was zu vermeiden ist
- Quality-Modifiers zuerst, Motiv zweitens, Stil zuletzt
- Kommas trennen Konzepte (keine Punkte)
Midjourney v7
Natural Language + Flags:
```
A contemplative 40-year-old Turkish woman with short dark hair reading
a book beside a rainy café window in Istanbul, Fujifilm X-T5, 35mm,
golden-hour light --ar 3:2 --v 7 --style raw --stylize 100
```
Key-Flags:
--ar 3:2— Seitenverhältnis--v 7— Modell-Version--style raw— weniger stilisiert, mehr photographisch--stylize 100— Menge Midjourney-"Geschmack" (0-1000)--chaos 20— Variation in Outputs--no [wort]— ausschließen
DALL-E 3 / ChatGPT
Pure Natural Language, oft ein einziger Satz:
```
Create a photograph of a 40-year-old Turkish woman with short dark hair,
reading a book in a warmly-lit Istanbul café, beside a rainy window at
golden hour. Style: contemplative documentary portrait, 35mm film
aesthetic, shallow depth of field.
```
Notizen:
- Schreib ganze Sätze, DALL-E 3 versteht sie
- Am besten beim Integrieren von Text (Schilder, Wörter in Bildern)
- Keine Weight-Syntax — Betonung kommt durch Wiederholung oder Platzierung
Flux.1
Supportet beides — Natural Language (wie DALL-E) und Tags (wie Stable Diffusion). Flux ist besonders stark mit langen, beschreibenden Natural-Language-Prompts.
Flux handled 100+ Wort-Prompts besser als jedes andere Modell. Nutze den Platz.
15 Techniken die Anfänger von Profis trennen
1. Spezifiziere Kamera, Objektiv und Filmmaterial
Statt "high quality photo" nimm:
- "Shot on Leica M11, 50mm f/1.4, Kodak Portra 400"
- "Sony A7 IV, 85mm portrait lens"
- "Hasselblad H6D medium format"
Das Modell hat gelernt wie jede Kombination aussieht. Du bekommst echte Photography-Sprache zum Arbeiten.
2. Benenne die Lichtbedingung
Generisches Licht = generisches Ergebnis.
- "Rembrandt lighting" — klassisch seitlich belichtetes Portrait
- "Golden hour backlight" — warm, Sunset-Glow
- "Softbox three-point" — Studio-Portrait
- "Blue hour" — Dämmerung
- "Overcast diffused" — natürlich, schmeichelhaft
- "Hard noon sun" — starker Kontrast
3. Referenziere Künstler oder Fotografen (mit Vorsicht)
Profis machen das ständig:
- "In the style of Annie Leibovitz" (Portrait-Drama)
- "Like a Wes Anderson film still" (symmetrisch, pastell)
- "Gregory Crewdson cinematic" (unheimlich, inszeniert)
- "Saul Leiter street color" (atmosphärisch)
Caveat: einige Tools (meist Midjourney) haben Lebende-Künstler-Namen restricted. Stable Diffusion und Flux erlauben sie via Custom-Checkpoints.
4. Spezifiziere demographische Details präzise
"A woman" produziert Durchschnitt. "A 50-year-old South Asian woman with graying hair and laugh lines, wearing a linen shirt" produziert spezifisch. Spezifität schlägt Generalität.
5. Beschreibe was du NICHT willst (Negative Prompt)
In Stable Diffusion/Flux immer Negative Prompt einschließen:
```
Negative: (worst quality:1.4), blurry, lowres, distorted anatomy,
extra fingers, bad hands, watermark, signature, text overlay
```
Das fixt 80% der "warum sieht das komisch aus"-Probleme.
6. Nutze Aspect Ratio mit Absicht
- 16:9 — cinematic, Landschaften
- 9:16 — Phone/Social-Stories
- 3:2 — Standard-Photography
- 1:1 — Instagram/Pinterest
- 4:5 — Instagram-Portrait
Das Modell komponiert für die Aspect Ratio.
7. Iteriere mit kleinen Änderungen
Schreib nicht den ganzen Prompt um wenn was nicht passt. Ändere eine Variable:
- Gleicher Prompt, "overcast" → "golden hour"
- Gleicher Prompt, "35mm" → "85mm"
- Gleicher Prompt, "contemplative" → "joyful"
Drei Variationen schlagen zehn zufällige Umschreibungen.
8. Nutze "photorealistic" sparsam
In 2026 defaulten moderne Modelle auf Photorealismus. "photorealistic" hinzuzufügen kann übercorrrecten in plastik-artige Ergebnisse. Besser: Kamera/Objektiv/Film spezifizieren — das impliziert Realismus.
9. Kontrolliere den Hintergrund
- "Blurred café background" — Shallow DOF
- "Empty white studio background" — Produkt-Foto
- "Blurred bokeh lights" — nächtliches Urban
- "Out-of-focus forest" — Outdoor-Portrait
10. Beschreibe Haut, Augen und Haar-Textur für Portraits
Pro-Portraits sehen pro aus weil die Textur gut gerendert ist:
- "visible skin pores and freckles"
- "natural eye reflections with catchlights"
- "individual hair strands visible"
- "subtle skin imperfections, realistic pores"
Ohne die bekommst du "Instagram-Filter"-glatte Haut die nach KI schreit.
11. Nutze "film still from [decade]" für Epochen-Ästhetik
- "Film still from a 1970s Italian film"
- "Snapshot from 1998 disposable camera"
- "Polaroid from 1985"
Zeitspezifische Ästhetik ist schwer abstrakt zu beschreiben, aber leicht über Film-Ära referenzierbar.
12. Spezifiziere wo das Motiv hinschaut
"Looking directly at camera" vs "looking out the window" vs "eyes closed" ändert die Stimmung fundamental.
13. Schichte atmosphärische Elemente ein
Regen, Nebel, Dampf, Staub, Schnee, Rauch — Atmosphäre verkauft das Bild.
- "Light steam rising from coffee cup"
- "Dust motes in sunbeams"
- "Thin mist over the lake"
- "Soft snow falling"
14. Nutze Seed-Werte für Konsistenz (Stable Diffusion/Flux)
Gleicher Prompt + gleicher Seed = gleiches Bild. Nützlich für:
- Kleine Änderungen bei gleicher Komposition
- A/B-Testing von Prompt-Tweaks
- Serie mit konsistentem Charakter
15. Match den Stil zum Zweck
Social-Post ≠ Print-Ad ≠ Buchcover ≠ Produktfoto. Prompte jeden mit Absicht.
Häufige Fehler
Adjektive statt Spezifika nutzen. "Beautiful" und "stunning" sind Noise. "Golden hour backlight with rim light on her left shoulder" ist Signal.
Alles in einen Riesen-Run-on-Satz packen. Modelle parsen Struktur. Nutze Kommas.
"4K" und "8K" verlangen — funktioniert nicht. Output-Auflösung wird vom Tool gesetzt, nicht vom Prompt. Nutze Quality/Detail-Modifiers stattdessen.
Darauf vertrauen dass das Modell "es schon versteht". Moderne Modelle sind smart, aber nicht hellsichtig. Wenn du ein spezifisches Objektiv willst, sag es.
Negative Prompt vergessen. In SD/Flux sind Negative Prompts 30% der Qualitäts-Gleichung.
Über-prompten. 20 Quality-Modifiers helfen nicht. 5 gut gewählte schon.
Die 5 Bild-Prompts die wir von Promptolis empfehlen
Aus unserer Image & Visual AI Art Kategorie:
- Stable Diffusion Prompt Generator
- Midjourney Prompt Writer
- Cinematic Portrait
- Product Photography
- Concept Art Generator
Welches Tool solltest du nutzen?
Daily Drafting + Social: Midjourney. Am schnellsten zu hübschen Ergebnissen.
Commercial / Client-Work: Flux.1 oder Stable Diffusion (Flux meist einfacher; SD wenn du spezifische Checkpoints brauchst).
Mit Text im Bild (Schilder, Labels, Logos): DALL-E 3 via ChatGPT. Nichts anderes kommt bei Text ran.
Spezifische Charakter-Konsistenz (gleiche Person über viele Shots): Stable Diffusion mit Custom LoRA.
Free / ohne Commitment: DALL-E 3 via Bing Image Creator (gratis, kein Signup). Gemini bietet auch Free Image-Gen.
FAQ
Stable Diffusion: 30-80 Tokens funktioniert am besten. Midjourney: 20-60 Wörter. DALL-E 3 / Flux: kann länger gehen (100+ Wörter) weil sie Natural Language parsen.
Nein. Junk-Modifiers. Erhöhen nicht wirklich Qualität — aktivieren nur das "generic Instagram"-Training des Modells. Skip.
Rechtlich riskant, und die meisten Tools blockieren es ohnehin. Beschreibe visuelle Qualitäten statt IP zu benennen.
Ältere Modelle kämpften mit Händen. 2026 haben Flux und SD 3.5 das größtenteils gefixt. Wenn weiter schlecht: zu Negative Prompt hinzufügen "(extra fingers:1.4), (deformed hands:1.4)".
In Stable Diffusion und Flux: ja, sehr hilfreich. In Midjourney: nur ::weight-Syntax. In DALL-E: nein, versteht keine Weights.
Fazit
Tolle Bild-Prompts 2026 sehen aus wie Photography-Anweisungen, nicht wie Zauberformeln. Wenn dein Prompt sich liest wie das was ein Fotograf einem Assistenten sagt ("Shoot this 40-year-old woman in a café, Fujifilm X-T5, 35mm, golden hour"), bist du auf dem richtigen Weg.
Starte mit einem unserer Image-Prompts als Template. Modifiziere eine Variable pro Iteration. Bau deine eigene Prompt-Library auf für deine Brand oder deinen Stil. In zwei Wochen hast du bessere Image-Outputs als 95% der User.