一、內容描述基本原則
1. 角色描述(Character)
核心要素:
物理特徵:性別、年齡、髮型、體型
服飾細節:服裝款式/材質/色彩(如「亞麻材質藏青色西裝」)
文化標識:明確民族/時代特徵(如「苗族銀飾」、「1920年代flapper風格」)
通用技巧:
用「杏仁眼/高顴骨」替代模糊的「漂亮」
對抗刻板印象:主動添加「南亞膚色/圓臉」等細節
2. 場景構建(Location)
環境要素:
空間結構:室內/室外、建築類型、空間尺度
自然特徵:植被種類、地質形態、水體類型
時間光線:黃金時刻/午夜、直射光/漫射光
進階技巧:
材質聯動:「青苔覆蓋的花崗岩台階」優於單純「石頭台階」
光影敘事:「透過百葉窗的條紋陰影」增強場景氛圍
3. 動態表達(Actions)
動詞精確化:
基礎描述 優化版本
「走路」 「跛行著穿過人群」
「拿東西」 「用指尖捏起古董懷錶」
4. 氛圍營造(Atmosphere)
情感座標法:
X軸:收–放 | 壓抑(陰鬱)–愉悅(快樂)
Y軸:動–靜 | 活躍(緊張)-平靜(鬆弛)
示例:「咖啡館場景」可定位為(愉悅,平靜)象限
5. 鏡頭語言(Camera)
電影化參數:舉例
景深:f/1.4淺景深特寫
運動:Dolly zoom變焦推進
角度:荷蘭式傾斜構圖
:eyes:注意:所有AI工具都存在「描述衰減」現象,建議保留20%描述空間作為測試進化調整
二、提示詞優化策略
- 優先級漏斗:首要層(20%字符):角色+核心場景次要層(30%字符):關鍵動作/光影細節層(50%字符):材質/氛圍/鏡頭
- 關鍵詞矩陣法:[主體][特徵][動作][環境]範例:「[考古學家][磨損的皮靴][挖掘][暴雨中的遺址]」
- 人機理解平衡:
- 人類友好:保持主詞 動詞 受詞結構
- AI友好:每段不超過3個修飾層級
跨時代工作建議
- 基礎層練習(所有時期適用)
- 每日用50字描述現實場景,訓練結構化思維
- 工具層適應(2025年建議)
- 新模型特性
- 兩種模型搭配
- LMA:支持「光影強度+30%」等參數化微調
- MMX:可用「角色DNA」功能繼承特徵
- 文化安全清單(避免種族、性別、職業等刻板印象)
- 每次提示前檢查:
- 是否包含地域特徵細節
- 是否避免職業/性別刻板印象
通用問題解決方案
當AI理解偏差時:
- 定位法:「請將第三段描述的鎧甲反光效果應用到當前圖像」
- 對比法:「比上一版增加更多現代感,參考附件風格圖」
- 分解法:將複雜場景拆分為:背景層 → 主體層 → 互動層
該框架經測試適用於:
- 傳統模型(Stable Diffusion 2.1)
- 新興模型(2025年Photon Flash/Image-01)
- 未來3年可能出現的基礎生成架構
關於「保持主詞-動詞-受詞語法結構」的精確說明
| 語法元素 | 人類自然語言 | AI 最佳化提示詞寫法 | 原因說明 |
|---|---|---|---|
| 主詞 | 常省略(由語境推理) | 必須明確 | AI 缺乏上下文推理能力 |
| 謂語 | 可含糊(如「處理一下」) | 需使用具體動詞 | 避免動作不清,造成理解錯誤 |
| 受詞 | 可抽象(如「那個東西」) | 應使用具象名詞 | 提高特徵識別精度與圖像生成準確性 |
鬆散中文表達:
「畫面裡有個男的,穿得不錯,在公園曬太陽」
問題分析:
- 主詞模糊(是哪個男的?)
- 謂語含糊(「穿得不錯」無法具象化)
- 受詞缺失(什麼公園?場景不明)
AI 友善語法結構:
「[中年亞裔男性] [穿著] [米色亞麻西裝] [坐在] [櫻花樹下的長椅上]。
[陽光] [透過] [樹葉縫隙] [投射] [斑駁光影]。」
當描述包含多個元素或動作關係,建議使用分句編號法:
- 主句:穿紅色連身裙的女性
- 子句 A:左手握著一只復古皮箱
- 子句 B:背景為 1920 年代的火車站
這種方式可協助 AI 逐步理解場景關係與視覺層次。
- 補全代詞與角色身份
- 如「她」應補全為「the female character」或「the young woman」
- 中文習慣描述順序:大小 → 顏色 → 材質 → 名詞
- 例如:「大型棕色皮質沙發」
最新技術特性:
- LMA :已支援中文語序彈性,可接受部分非標準順序描述。
- MMX:對古典文風(如文言文、古詩詞)提示詞有特殊優化效果。
- 每個分句是否有清楚主詞?
- 動詞是否能對應為具體視覺畫面?
- 名詞前是否有足夠修飾語(建議 2~3 個)?
- 是否避免「的」字過度連用(建議不超過 3 個連續)?