官网信息提取

从指定官网执行原文信息提取，并将结果以 Excel 扁平化视图进行保存。

核心工作流

初始化：读取 EXTRACTION_FIELDS.md 明确字段与提取逻辑。
官网识别：给定初始 URL 后，先识别并确认目标官网域名（Official Domain）与官网首页地址。
首轮访问（低成本模式）：使用 Playwright MCP 访问官网，优先拦截无关资源（stylesheet、image、media、font）以减少上下文和 token 消耗。
递归寻址与页面发现（Level 1）：
- 若站点提供 sitemap.xml 或可访问的“网页指南/网站地图”页面，优先使用 sitemap 建立站内 URL 索引并按字段相关性排序。
- 从首页导航、页脚、站点地图、About/Contact/IR/Leadership 等高相关入口开始。
- 递归访问所有高概率内部页面，直到字段覆盖率不再提升。
- 若发现页面内容依赖动态渲染（延迟加载、前端注入、交互后出现），可放开资源拦截并重新访问，优先保证信息完整提取。
字段提取与证据记录：
- 对每个字段记录官网原文与披露 URL。
- 优先记录精确 XPath；若页面为动态加载且 XPath 无法稳定获取，可将 XPath 留空，并改用可复核定位器（如 CSS 选择器、文本锚点、区块标题）进行追溯。
- 优先建立“字段 -> 最佳来源页面”映射，再回填模板。
搜索补救（Level 2，仅用于发现官网内部链接）：
- 对仍缺失字段，使用 site:<official-domain> <关键词> 的 Google 搜索补充官网内部页面线索。
- 仅允许进入并提取目标官网域名下的页面；禁止从第三方域名提取数据。
缺失字段留空：经过官网路径分析与站内搜索补救后仍找不到的字段，提取文本与“XPath/定位器”保持留空（且无文本时 URL 也留空）。
多官网批处理：
- 多个官网时逐个处理。
- 每完成一个官网立即生成一个结果文件。
- 处理下一个官网前，清理当前任务上下文（仅保留必要规则与模板）。
输出结果与备注：按模板输出，并在“提取备注与未解决困难”中记录关键障碍与边界判断。

操作流程图

flowchart TD
    A[输入初始 URL] --> B[识别并确认 Official Domain / 官网首页]
    B --> C[读取字段定义 EXTRACTION_FIELDS]
    C --> D[Playwright 低成本访问<br/>拦截 CSS/图片/媒体/字体]
    D --> E[递归访问高概率内部页面]
    E --> F{页面是否依赖动态加载?}
    F -- 是 --> G[放开资源拦截并重访]
    F -- 否 --> H[继续提取]
    G --> H[提取原文 + URL + XPath/定位器]
    H --> I{字段是否全部覆盖?}
    I -- 否 --> J[site:official-domain 关键词搜索补救]
    J --> K[仅访问官网域名结果]
    K --> H
    I -- 是 --> L[按模板生成结果文件]
    J --> M{仍有缺失字段?}
    M -- 是 --> N[对应字段留空]
    M -- 否 --> L
    N --> L
    L --> O{是否还有下一个官网?}
    O -- 是 --> P[清理上下文后处理下一个]
    P --> A
    O -- 否 --> Q[结束]

输出与归档要求

存储路径：<工程根目录>/results/<YYYYMMDD>/homepage-info-extractor/。
命名规范：<目标官网域名>.md。
独立性：一个官网一个文件。

资源参考

字段逻辑定义：详见 references/EXTRACTION_FIELDS.md。
输出模板：详见 assets/templates/template-table.md。

homepage-info-extractor

Safety Notice

Copy this and send it to your AI assistant to learn

官网信息提取

核心工作流

操作流程图

输出与归档要求

资源参考

Source Transparency

Related Skills

overseas-registry-source-research

OpenClaw Skill Growth

Find Skills for ClawHub

Skill Listing Polisher