
介绍
是一款专为生成人工智能 (GenAI) 设计的文档解析器。其主要目标是解析和清理各种文档数据并确保数据质量,然后再将其传递给下游大语言模型(LLM)。

添加 Azure 端点()
此次集成后,微软可以允许用户调用Azure的GPT-4o系列模型来提取非结构化数据并转换文档。这种集成充分发挥了双方的优势,负责高效解析,而Azure则提供强大的语言模型能力,最终实现更加准确、智能的文档处理。

IT之家援引媒体报道并附上本次更新内容如下:
直接连接到 Azure 的 GPT-4o 和 GPT-4o-mini 等型号
通过 Azure 中的多模式支持进行多模式文档解析
LLM 优化输出以增强检索和语义搜索
无缝引入 Azure AI 的矢量存储库
适用于敏感工作负载的企业级安全性和合规性
用户可以使用Azure AI和Azure构建完整的RAG工作流程。具体步骤包括:
解析和丰富:使用 Azure 和 Azure 进行高级文档提取,以多种格式生成 LLM 优化的输出,包括 LaTeX 和图表。
分块和嵌入:使用 Azure AI 作为矢量存储,并利用 Azure AI 模型目录中的嵌入模型对解析的内容进行分块、嵌入和索引。
搜索和生成:利用 Azure AI 的查询重写和语义重新排序功能提高搜索质量。最后,通过编排 Azure AI 和 Azure 来构建生成式 AI 应用程序。


