Foundry

一句话概览 Azure AI Content Understanding 是微软在 Ignite 2024 发布的多模态内容理解服务，可把文档、图片、音频、视频中的信息按你定义的 schema 提取成结构化结果，适合做自动化流程和多模态 RAG 的数据加工。前提与限制（先看这两点）需要在支持的区域创建资源。我实践时可用区域包括 West US、Sweden Central、Australia East。官方文档也说明预览 API 的区域支持有限，具体以最新列表为准。语言支持在不同模态上有差异。我体验时文档/图片主要以英文为主，音频/视频支持多语言；官方语言支持列表也提示以 OCR/语音转写的具体支持为准。最小流程（精简版） 1) 建资源并连到 Foundry 在支持区域创建 Azure AI services multi-services 资源。在 Azure AI Foundry 的管理中心添加该资源连接。 2) 创建 Content Understanding 项目进入 Content Understanding 控制台，创建项目并选择 Blob Storage。完成后可在 Foundry 项目列表中管理。 3) 设计 Analyzer（核心价值）上传样本文档，选择模板（例如 PDF 只能用 Document analysis）。自定义字段名、说明、类型与抽取方式；系统会利用预训练模型 + 生成式能力做字段映射。通过 Test analyzer 验证结果，达标后 Build。 4) 用 REST API 集成业务系统调用 analyzers/{id}:analyze 发起分析，会返回 202 并在 Operation-Location 给出结果地址（异步）。之后用结果 ID 拉取 JSON，结构化字段在 fields 里。详细的API可以参考如下链接，如果需要，我后续会再写一篇文章详细介绍。 https://learn.microsoft.com/en-us/azure/ai-services/content-understanding/quickstart/use-rest-api?tabs=portal%2Cdocument 典型能力速览（文章中的实测方向）文档：无明确 Key 的人名、无表头表格、列表结构、重复项表格都能通过 schema 进行抽取。图片：支持 Document analysis / Image analysis / Defect detection / Retail inventory management 等模板。音频：语音转写、对话摘要、通话分析（情绪等）。视频：分镜分析、媒体资产管理、广告分析，可按自定义字段输出结构化结果。适合用在哪里批量票据、合同、表单抽取多模态 RAG 的数据清洗与结构化音频/视频内容的可搜索化和资产管理小结这套流程的价值在于：把“非结构化内容”变成“可编排的结构化字段”。如果你正在做自动化流程、内容检索或 RAG，Content Understanding 是一条很直的路径。 ...