文字驱动声音驱动

照片驱动模型

人物照片（单人，清晰，正面）

上传

你想让数字人说的话（0 / 500 字）

发音人：

输出画面分辨率

💡 提供一张照片与音频/文本，让照片中的人物说话或歌唱，并生成视频。