多模态应用

超越文本——视觉、语音与图像生成

学习目标

掌握视觉理解与图像分析
了解语音交互的实现方案
构建多模态 Agent

1. 视觉理解

1.1 图片描述与分析

1.2 OCR 与文档解析

1.3 视频分析

2. 语音交互

2.1 语音转文字（STT）

2.2 文字转语音（TTS）

2.3 实时语音对话

3. 图像生成

3.1 文生图

3.2 图像编辑

3.3 提示词工程

4. 多模态 Agent

4.1 架构设计

4.2 跨模态工作流

4.3 应用场景

练习

构建一个图片分析助手（上传图片 → 描述 → 问答）
实现一个语音对话机器人
构建一个多模态内容创作 Agent

延伸阅读