车险保单提取 v5.0.4
支持:太平洋/大地/浙商/亚太/人保/华海,5家险企,14字段,50条PDF。
使用
python scripts/run_extract.py
输出:C:\Users\Administrator\Desktop\车险保单提取结果_v5.xlsx
v5.0.4 新增(相比 v5.0.3)
- 司乘险 365天 格式:修复 pattern(
365天,而非365天起,),支持"从"字可选 - 司乘险商业险格式:
保险期间:自 2026年04月24日00:00 起至 2027年04月23日24:00 止(含司乘险专用合并逻辑) - 大地司乘险 parse_dadi_anyang:司乘险合并逻辑移到 _m_sc2 判断之后(顺序修复)
v5.0.3 新增(相比 v5.0.2)
- 保险起期新增
\xa0(nbsp) 分隔符支持,处理太平洋交强险/非车险新格式 PDF - 浙商交强险新增
保险期间起 2026年04月23日12:00 起至 2027年04月23日12:00 止格式(plumber 文本 U+81F3→至) - 浙商商业险新增
保险期间起: 2026年04月24日00:00 至 2027年04月23日24:00 止格式
v5.0.2 新增(相比 v5.0.1)
- 签单时间新增
确认时间/签单日期/保单生成时间标签,支持更多日期格式
v5.0.0 新增(相比 v3/v4)
- 车辆使用性质加入组内多数服从多数纠正
- PDAA/PDZA 使用性质表格兜底(文本层乱码时从 extract_tables 读取)
- NATURE_LIST 新增:非营业用车、企业非营业客车、非营业客车
- Excel写入改用 openpyxl Workbook(解决中文列名乱码)
- 所有 return clean_data 调用支持 pdf_path 传参
字段(14个)
Filename, 签单时间, 保险公司名称, 保单号, 保险起期, 保险止期, 车架号, 车辆型号名称, 被保险人姓名, 被保险人证件号, 被保险人手机号, 车牌号码, 险种名称原始, 实收保费, 车船税, 车辆使用性质
支持的保险公司和险种
| 保险公司 | 险种 |
|---|---|
| 中国太平洋财产保险股份有限公司 | 交强险、商业险、驾意险 |
| 中国人民财产保险股份有限公司 | 交强险、商业险 |
| 亚太财产保险有限公司 | 交强险、商业险、非车险 |
| 中国大地财产保险股份有限公司 | 交强险、商业险、意外险(安行如意保) |
| 浙商财产保险股份有限公司 | 交强险、商业险、驾意险 |
| 华海财产保险股份有限公司 | 交强险、商业险、非车险 |
更新日志
v5.0.1 (2026-04-25)
- 签单时间新增
确认时间/签单日期/保单生成时间标签,支持更多日期格式
v5.0.0 (2026-04-24)
- 车辆使用性质加入组内多数服从多数纠正(fix_by_majority_vote)
- PDAA/PDZA 使用性质表格兜底(文本层乱码时从 extract_tables 读取)
- NATURE_LIST 新增:非营业用车、企业非营业客车、非营业客车
- Excel 写入改用 openpyxl Workbook(解决中文列名乱码)
- 所有 return clean_data 调用支持 pdf_path 传参
v3.0.1 (2026-04-22)
- 签单时间新增
出单时间标签 - 修复 Row18 签单时间空白