用 Azure AI Content Understanding 把非结构化文件变成结构化数据

用最小流程把文档/图片/音频/视频抽成结构化 JSON:从 Foundry 项目、Analyzer 到 REST API。

一句话概览

Azure AI Content Understanding 是微软在 Ignite 2024 发布的多模态内容理解服务,可把文档、图片、音频、视频中的信息按你定义的 schema 提取成结构化结果,适合做自动化流程和多模态 RAG 的数据加工。

前提与限制(先看这两点)

  • 需要在支持的区域创建资源。我实践时可用区域包括 West US、Sweden Central、Australia East。官方文档也说明预览 API 的区域支持有限,具体以最新列表为准。
  • 语言支持在不同模态上有差异。我体验时文档/图片主要以英文为主,音频/视频支持多语言;官方语言支持列表也提示以 OCR/语音转写的具体支持为准。

最小流程(精简版)

1) 建资源并连到 Foundry

  • 在支持区域创建 Azure AI services multi-services 资源。
  • Azure AI Foundry 的管理中心添加该资源连接。

2) 创建 Content Understanding 项目

  • 进入 Content Understanding 控制台,创建项目并选择 Blob Storage。完成后可在 Foundry 项目列表中管理。

3) 设计 Analyzer(核心价值)

  • 上传样本文档,选择模板(例如 PDF 只能用 Document analysis)。
  • 自定义字段名、说明、类型与抽取方式;系统会利用预训练模型 + 生成式能力做字段映射。
  • 通过 Test analyzer 验证结果,达标后 Build。

4) 用 REST API 集成业务系统

典型能力速览(文章中的实测方向)

  • 文档:无明确 Key 的人名、无表头表格、列表结构、重复项表格都能通过 schema 进行抽取。
  • 图片:支持 Document analysis / Image analysis / Defect detection / Retail inventory management 等模板。
  • 音频:语音转写、对话摘要、通话分析(情绪等)。
  • 视频:分镜分析、媒体资产管理、广告分析,可按自定义字段输出结构化结果。

适合用在哪里

  • 批量票据、合同、表单抽取
  • 多模态 RAG 的数据清洗与结构化
  • 音频/视频内容的可搜索化和资产管理

小结

这套流程的价值在于:把“非结构化内容”变成“可编排的结构化字段”。如果你正在做自动化流程、内容检索或 RAG,Content Understanding 是一条很直的路径。

参考来源: