用 Azure AI Content Understanding 把非结构化文件变成结构化数据

用最小流程把文档/图片/音频/视频抽成结构化 JSON：从 Foundry 项目、Analyzer 到 REST API。

January 22, 2026

一句话概览

Azure AI Content Understanding 是微软在 Ignite 2024 发布的多模态内容理解服务，可把文档、图片、音频、视频中的信息按你定义的 schema 提取成结构化结果，适合做自动化流程和多模态 RAG 的数据加工。

前提与限制（先看这两点）

需要在支持的区域创建资源。我实践时可用区域包括 West US、Sweden Central、Australia East。官方文档也说明预览 API 的区域支持有限，具体以最新列表为准。
语言支持在不同模态上有差异。我体验时文档/图片主要以英文为主，音频/视频支持多语言；官方语言支持列表也提示以 OCR/语音转写的具体支持为准。

最小流程（精简版）

1) 建资源并连到 Foundry

在支持区域创建 Azure AI services multi-services 资源。
在 Azure AI Foundry 的管理中心添加该资源连接。

2) 创建 Content Understanding 项目

进入 Content Understanding 控制台，创建项目并选择 Blob Storage。完成后可在 Foundry 项目列表中管理。

3) 设计 Analyzer（核心价值）

上传样本文档，选择模板（例如 PDF 只能用 Document analysis）。
自定义字段名、说明、类型与抽取方式；系统会利用预训练模型 + 生成式能力做字段映射。
通过 Test analyzer 验证结果，达标后 Build。

4) 用 REST API 集成业务系统

调用 analyzers/{id}:analyze 发起分析，会返回 202 并在 Operation-Location 给出结果地址（异步）。
之后用结果 ID 拉取 JSON，结构化字段在 fields 里。
详细的API可以参考如下链接，如果需要，我后续会再写一篇文章详细介绍。
https://learn.microsoft.com/en-us/azure/ai-services/content-understanding/quickstart/use-rest-api?tabs=portal%2Cdocument

典型能力速览（文章中的实测方向）

文档：无明确 Key 的人名、无表头表格、列表结构、重复项表格都能通过 schema 进行抽取。
图片：支持 Document analysis / Image analysis / Defect detection / Retail inventory management 等模板。
音频：语音转写、对话摘要、通话分析（情绪等）。
视频：分镜分析、媒体资产管理、广告分析，可按自定义字段输出结构化结果。

适合用在哪里

批量票据、合同、表单抽取
多模态 RAG 的数据清洗与结构化
音频/视频内容的可搜索化和资产管理

小结

这套流程的价值在于：把“非结构化内容”变成“可编排的结构化字段”。如果你正在做自动化流程、内容检索或 RAG，Content Understanding 是一条很直的路径。

参考来源：