用 Azure AI Content Understanding 把非结构化文件变成结构化数据

一句话概览 Azure AI Content Understanding 是微软在 Ignite 2024 发布的多模态内容理解服务,可把文档、图片、音频、视频中的信息按你定义的 schema 提取成结构化结果,适合做自动化流程和多模态 RAG 的数据加工。 前提与限制(先看这两点) 需要在支持的区域创建资源。我实践时可用区域包括 West US、Sweden Central、Australia East。官方文档也说明预览 API 的区域支持有限,具体以最新列表为准。 语言支持在不同模态上有差异。我体验时文档/图片主要以英文为主,音频/视频支持多语言;官方语言支持列表也提示以 OCR/语音转写的具体支持为准。 最小流程(精简版) 1) 建资源并连到 Foundry 在支持区域创建 Azure AI services multi-services 资源。 在 Azure AI Foundry 的管理中心添加该资源连接。 2) 创建 Content Understanding 项目 进入 Content Understanding 控制台,创建项目并选择 Blob Storage。完成后可在 Foundry 项目列表中管理。 3) 设计 Analyzer(核心价值) 上传样本文档,选择模板(例如 PDF 只能用 Document analysis)。 自定义字段名、说明、类型与抽取方式;系统会利用预训练模型 + 生成式能力做字段映射。 通过 Test analyzer 验证结果,达标后 Build。 4) 用 REST API 集成业务系统 调用 analyzers/{id}:analyze 发起分析,会返回 202 并在 Operation-Location 给出结果地址(异步)。 之后用结果 ID 拉取 JSON,结构化字段在 fields 里。 详细的API可以参考如下链接,如果需要,我后续会再写一篇文章详细介绍。 https://learn.microsoft.com/en-us/azure/ai-services/content-understanding/quickstart/use-rest-api?tabs=portal%2Cdocument 典型能力速览(文章中的实测方向) 文档:无明确 Key 的人名、无表头表格、列表结构、重复项表格都能通过 schema 进行抽取。 图片:支持 Document analysis / Image analysis / Defect detection / Retail inventory management 等模板。 音频:语音转写、对话摘要、通话分析(情绪等)。 视频:分镜分析、媒体资产管理、广告分析,可按自定义字段输出结构化结果。 适合用在哪里 批量票据、合同、表单抽取 多模态 RAG 的数据清洗与结构化 音频/视频内容的可搜索化和资产管理 小结 这套流程的价值在于:把“非结构化内容”变成“可编排的结构化字段”。如果你正在做自动化流程、内容检索或 RAG,Content Understanding 是一条很直的路径。 ...