一句话概览
Azure AI Content Understanding 是微软在 Ignite 2024 发布的多模态内容理解服务,可把文档、图片、音频、视频中的信息按你定义的 schema 提取成结构化结果,适合做自动化流程和多模态 RAG 的数据加工。
前提与限制(先看这两点)
- 需要在支持的区域创建资源。我实践时可用区域包括 West US、Sweden Central、Australia East。官方文档也说明预览 API 的区域支持有限,具体以最新列表为准。
- 语言支持在不同模态上有差异。我体验时文档/图片主要以英文为主,音频/视频支持多语言;官方语言支持列表也提示以 OCR/语音转写的具体支持为准。
最小流程(精简版)
1) 建资源并连到 Foundry
- 在支持区域创建 Azure AI services multi-services 资源。
- 在 Azure AI Foundry 的管理中心添加该资源连接。
2) 创建 Content Understanding 项目
- 进入 Content Understanding 控制台,创建项目并选择 Blob Storage。完成后可在 Foundry 项目列表中管理。
3) 设计 Analyzer(核心价值)
- 上传样本文档,选择模板(例如 PDF 只能用 Document analysis)。
- 自定义字段名、说明、类型与抽取方式;系统会利用预训练模型 + 生成式能力做字段映射。
- 通过 Test analyzer 验证结果,达标后 Build。
4) 用 REST API 集成业务系统
- 调用
analyzers/{id}:analyze发起分析,会返回 202 并在Operation-Location给出结果地址(异步)。 - 之后用结果 ID 拉取 JSON,结构化字段在
fields里。 - 详细的API可以参考如下链接,如果需要,我后续会再写一篇文章详细介绍。
https://learn.microsoft.com/en-us/azure/ai-services/content-understanding/quickstart/use-rest-api?tabs=portal%2Cdocument
典型能力速览(文章中的实测方向)
- 文档:无明确 Key 的人名、无表头表格、列表结构、重复项表格都能通过 schema 进行抽取。
- 图片:支持 Document analysis / Image analysis / Defect detection / Retail inventory management 等模板。
- 音频:语音转写、对话摘要、通话分析(情绪等)。
- 视频:分镜分析、媒体资产管理、广告分析,可按自定义字段输出结构化结果。
适合用在哪里
- 批量票据、合同、表单抽取
- 多模态 RAG 的数据清洗与结构化
- 音频/视频内容的可搜索化和资产管理
小结
这套流程的价值在于:把“非结构化内容”变成“可编排的结构化字段”。如果你正在做自动化流程、内容检索或 RAG,Content Understanding 是一条很直的路径。
参考来源: