baidu-doc-vlm-parser 百度文档解析(PaddleOCR-VL)

调用百度PaddleOCR-VL大模型API解析文档。基于PaddleOCR-VL-1.5多模态大模型,支持PDF、Word、PPT、图片等格式,精准识别印刷文本、手写文本、表格、公式、图表、印章等复杂元素,支持111种语言,可处理不规则布局和长文档跨页解析。触发词:文档解析、VLM解析、大模型OCR、PaddleOCR、多模态文档、手写识别、公式识别、复杂版面。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "baidu-doc-vlm-parser 百度文档解析(PaddleOCR-VL)" with this command: npx skills add maglanyulan/baidu-doc-vlm-parser

百度文档解析(PaddleOCR-VL)Skill

基于 PaddleOCR-VL-1.5 多模态大模型,提供开箱即用的文档智能解析能力。

功能概述

PaddleOCR-VL-1.5-0.9B 是多模态文档解析领域的 SOTA 方案,具备:

  • 全要素精准解析:高效识别印刷文本、手写文本、表格、公式、图表、印章等复杂文档元素
  • 智能阅读顺序:基于人类阅读习惯推断内容排列顺序,将零散页面信息转化为有序带标签的结构化元素序列
  • 行级别坐标:支持精准的行级别坐标输出
  • 111 种语言:覆盖中、英、日、韩、拉丁文等全球化多语种文档
  • 不规则布局定位:攻克复杂版面解析难点
  • 长文档跨页解析:支持跨页表格合并等企业级场景
  • 直接 Markdown/JSON 输出:无需额外处理

与文档解析(标准版)的区别

特性PaddleOCR-VL(本 Skill)标准版(pipeline-parser)
底层模型多模态大模型 VLM传统 Pipeline
语言支持111 种20+ 种
公式/图片识别默认开启,无需配置需手动开启参数
语种识别自动识别,无需指定需指定 language_type
版面类型24 种细粒度类型8 种基础类型
行坐标支持不支持
多边形坐标支持(polygon)仅矩形框
文件大小版式 ≤100M,PDF ≤500 页PDF ≤300M,≤2000 页

适用场景

当用户需要:

  • 解析复杂版面文档(多栏、不规则布局)
  • 精准识别手写文本、数学公式、图表
  • 处理多语种混合文档
  • 获取行级别坐标信息
  • 长文档跨页表格合并
  • 免配置自动识别文档内容

API 配置

环境变量(必须)

百度智能文档分析平台 领取免费测试资源

使用前请设置以下环境变量:

export BAIDU_DOC_AI_API_KEY="your_api_key"
export BAIDU_DOC_AI_SECRET_KEY="your_secret_key"

认证方式

通过 API Key 和 Secret Key 获取 access_token,有效期 30 天。

支持格式

版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd(图片最长边不大于 4096px)

流式文档:doc, docx, txt, wps, ppt, pptx

支持语言

111 种语言,包括中文、英文、日文、韩文、拉丁文等,无需手动指定,大模型自动识别

使用方式

python3 scripts/baidu_doc_vlm_parser.py --file_data <文件的base64编码> --file_name "test.pdf"
python3 scripts/baidu_doc_vlm_parser.py --file_url <文件公网URL> --file_name "test.pdf"

API 接口

文档解析(PaddleOCR-VL)API 服务为异步接口,需要先调用提交请求接口获取 task_id,然后调用获取结果接口进行结果轮询。

提交请求接口

  • HTTP 方法:POST
  • 请求 URLhttps://aip.baidubce.com/rest/2.0/brain/online/v2/paddle-vl-parser/task?access_token={token}
  • Content-Typeapplication/x-www-form-urlencoded

获取结果接口

  • HTTP 方法:POST
  • 请求 URLhttps://aip.baidubce.com/rest/2.0/brain/online/v2/paddle-vl-parser/task/query?access_token={token}
  • Content-Typeapplication/x-www-form-urlencoded
  • 请求参数task_id(必填,提交请求时返回的 task_id)

请求参数

文件参数(必选,二选一)

参数必选类型说明
file_data和 file_url 二选一string文件 Base64 编码数据。版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd(图片最长边不大于 4096px);流式文档:doc, docx, txt, wps, ppt, pptx。图片不超过 10M,版式文档不超过 100M,流式文档不超过 50M,PDF 最大 500 页。超过 50M 须使用 file_url。优先级:file_data > file_url
file_url和 file_data 二选一string文件数据 URL,长度不超过 1024 字节。PDF 文档不超过 100M,最大 500 页。请注意关闭 URL 防盗链
file_namestring文件名,请保证文件名后缀正确,例如 "1.pdf"

功能参数

参数必选类型说明
recognize_formula-bool无需开启,大模型默认对版式类型文档进行公式识别
analysis_chartbool是否对统计图表进行解析
parse_image_layout-bool无需开启,大模型默认解析文档中的所有图片
language_type-string无需开启,大模型默认识别语种类型
merge_tablesbool是否将跨页表格合并输出,开启后 tables 内返回跨页表格合并标识
relevel_titlesbool是否对段落标题(paragraph_title)进行分级,开启后在 sub_type 中输出标题级别
recognize_sealbool是否识别印章内容
return_span_boxesbool是否返回行坐标

文档分块参数

return_doc_chunks 为字典类型:

参数必选类型默认值说明
switchboolFalse是否进行文档内容切分
chunk_sizeint-1切分块的大小,-1 表示按照语义自动切分

返回结构

提交请求返回

字段类型说明
log_iduint64唯一的 log id,用于问题定位
error_codeint错误码
error_msgstring错误描述信息
result.task_idstring该请求生成的 task_id

获取结果返回

字段类型说明
result.task_idstring任务 ID
result.statusstring任务状态:pending(排队中)、processing(运行中)、success(成功)、failed(失败)
result.task_errorstring解析报错信息
result.markdown_urlstringMarkdown 格式结果链接,有效期 30 天
result.parse_result_urlstringJSON 格式结果 BOS 链接,有效期 30 天

解析结果 JSON 结构(parse_result_url)

页面对象(pages[])

字段类型说明
page_idstring页码 ID
page_numint页码数
textstring当前页所有纯文字内容
layoutslist版式分析结果
tableslist表格解析结果
imageslist图片解析结果
metadict页面元信息(page_width, page_height)

版面元素(layouts[])

字段类型说明
layout_idstring唯一标志,格式 "xxxxx-layout-{global_layout_index}"
textstring文本内容(type 为 table/image 时为空)
positionlist位置 [x, y, w, h]
polygonlist顶点坐标列表,可围合成多边形
span_boxeslist行信息(开启 return_span_boxes 后生效),含 text 和 location
typestring版面元素类型(见下表)
sub_typestring标题层级(开启 relevel_titles 后生效)

版面类型(type)— 24 种细粒度类型

类型说明类型说明
text文本table表格
image图片chart图表
doc_title文档标题paragraph_title段落标题
figure_title图片标题display_formula公式
inline_formula行内公式formula_number公式编号
header页眉footer页脚
header_image页眉图片footer_image页脚图片
number页码abstract摘要
algorithm算法aside_text旁注文本
content目录footnote脚注
reference参考文献reference_content参考文献内容
seal印章vertical_text竖排文本

表格对象(tables[])

字段类型说明
layout_idstring对应 layouts 中 type 为 table 的 layout ID
markdownstring表格 Markdown 形式
positionlist边框数据 [x, y, w, h]
cellslist单元格内版面信息
matrixlist单元格索引矩阵
merge_tablestring合并标识(开启 merge_tables 后):begin(开始)、end(结束)

图片对象(images[])

字段类型说明
layout_idstring对应 layouts 中 type 为 image 的 layout ID
positionlist边框数据 [x, y, w, h]
data_urlstring图片存储链接
image_descriptionstring统计图表内容解析(JSON 字符串)

API 特性

异步处理流程

  1. 调用提交请求接口 → 获取 task_id
  2. 通过 task_id 调用获取结果接口轮询

轮询建议

  • 提交请求后 5~10 秒开始轮询
  • 轮询间隔:5 秒
  • 最大轮询时间:300 秒

QPS 限制

  • 提交请求接口:2 QPS
  • 获取结果接口:10 QPS

文件限制

限制项说明
图片大小≤ 10M,最长边 ≤ 4096px
版式文档大小≤ 100M
流式文档大小≤ 50M
PDF 页数≤ 500 页
URL 长度≤ 1024 字节
优先级file_data > file_url

错误处理

常见错误码参见 references/error_codes.md

脚本

  • scripts/baidu_doc_vlm_parser.py:文档解析主程序,支持命令行快速调用

参考文档

  • references/parameters.md:完整 API 参数与返回结构详解
  • references/error_codes.md:完整错误码参考
  • references/apikey-fetch.md:API Key 配置指南

相关链接

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

1688 Multi Shop Compare

1688 多店经营对比分析 skill。通过获取多店铺绑定关系及各店铺经营数据,按"店铺层→类目层→商品层"三层结构做横向对比分析,输出多维排名、商品分层诊断、异常归因、机会识别和落到单品的行动建议。

Registry SourceRecently Updated
General

100 Grand

提供关于100 Grand脆米焦糖巧克力棒的发展历史与品牌命名文化的深入分析与研究资料。

Registry SourceRecently Updated
General

Amsterdam Netherlands

Amsterdam is a historic trading and financial hub known for its tech startups, port logistics, progressive culture, and high English proficiency.

Registry SourceRecently Updated
General

Airheads

Airheads is a US fruit-flavored aerated candy brand known for its soft, stretchable texture and affordable $1-2 price, popular since the 1980s.

Registry SourceRecently Updated