Appearance
Embedding 与向量搜索
文本语义化表示与高效相似度检索
学习目标
- 理解 Embedding 的原理与应用
- 掌握向量数据库选型与使用
- 了解 ANN 算法与性能优化
1. Embedding 基础
1.1 什么是 Embedding
1.2 嵌入模型原理
2. 主流嵌入模型
2.1 闭源模型
2.2 开源模型
2.3 模型对比与基准
3. 相似度度量
3.1 余弦相似度
3.2 点积
3.3 欧氏距离
4. ANN 算法
4.1 HNSW
4.2 IVF
4.3 PQ(乘积量化)
5. 向量数据库选型
5.1 Pinecone
5.2 Weaviate
5.3 Qdrant
5.4 Milvus
5.5 pgvector
5.6 选型对比
6. 实践优化
6.1 索引策略
6.2 批量写入
6.3 查询优化
练习
- 用 OpenAI Embedding 和 pgvector 构建一个语义搜索服务
- 对比 HNSW 和 IVF 在不同数据规模下的性能
- 实现一个带元数据过滤的向量检索