官网信息提取
从指定官网执行原文信息提取,并将结果以 Excel 扁平化视图进行保存。
核心工作流
- 初始化:读取 EXTRACTION_FIELDS.md 明确字段与提取逻辑。
- 官网识别:给定初始 URL 后,先识别并确认目标官网域名(Official Domain)与官网首页地址。
- 首轮访问(低成本模式):使用 Playwright MCP 访问官网,优先拦截无关资源(
stylesheet、image、media、font)以减少上下文和 token 消耗。 - 递归寻址与页面发现(Level 1):
- 若站点提供
sitemap.xml或可访问的“网页指南/网站地图”页面,优先使用 sitemap 建立站内 URL 索引并按字段相关性排序。 - 从首页导航、页脚、站点地图、About/Contact/IR/Leadership 等高相关入口开始。
- 递归访问所有高概率内部页面,直到字段覆盖率不再提升。
- 若发现页面内容依赖动态渲染(延迟加载、前端注入、交互后出现),可放开资源拦截并重新访问,优先保证信息完整提取。
- 若站点提供
- 字段提取与证据记录:
- 对每个字段记录官网原文与披露 URL。
- 优先记录精确 XPath;若页面为动态加载且 XPath 无法稳定获取,可将 XPath 留空,并改用可复核定位器(如 CSS 选择器、文本锚点、区块标题)进行追溯。
- 优先建立“字段 -> 最佳来源页面”映射,再回填模板。
- 搜索补救(Level 2,仅用于发现官网内部链接):
- 对仍缺失字段,使用
site:<official-domain> <关键词>的 Google 搜索补充官网内部页面线索。 - 仅允许进入并提取目标官网域名下的页面;禁止从第三方域名提取数据。
- 对仍缺失字段,使用
- 缺失字段留空:经过官网路径分析与站内搜索补救后仍找不到的字段,提取文本与“XPath/定位器”保持留空(且无文本时 URL 也留空)。
- 多官网批处理:
- 多个官网时逐个处理。
- 每完成一个官网立即生成一个结果文件。
- 处理下一个官网前,清理当前任务上下文(仅保留必要规则与模板)。
- 输出结果与备注:按模板输出,并在“提取备注与未解决困难”中记录关键障碍与边界判断。
操作流程图
flowchart TD
A[输入初始 URL] --> B[识别并确认 Official Domain / 官网首页]
B --> C[读取字段定义 EXTRACTION_FIELDS]
C --> D[Playwright 低成本访问<br/>拦截 CSS/图片/媒体/字体]
D --> E[递归访问高概率内部页面]
E --> F{页面是否依赖动态加载?}
F -- 是 --> G[放开资源拦截并重访]
F -- 否 --> H[继续提取]
G --> H[提取原文 + URL + XPath/定位器]
H --> I{字段是否全部覆盖?}
I -- 否 --> J[site:official-domain 关键词搜索补救]
J --> K[仅访问官网域名结果]
K --> H
I -- 是 --> L[按模板生成结果文件]
J --> M{仍有缺失字段?}
M -- 是 --> N[对应字段留空]
M -- 否 --> L
N --> L
L --> O{是否还有下一个官网?}
O -- 是 --> P[清理上下文后处理下一个]
P --> A
O -- 否 --> Q[结束]
输出与归档要求
- 存储路径:
<工程根目录>/results/<YYYYMMDD>/homepage-info-extractor/。 - 命名规范:
<目标官网域名>.md。 - 独立性:一个官网一个文件。
资源参考
- 字段逻辑定义:详见 references/EXTRACTION_FIELDS.md。
- 输出模板:详见 assets/templates/template-table.md。