extract-to-md

将网页导出内容或 PDF 报告重构为可编辑 Markdown。适用于「先改 Markdown 再出 PDF」、修复错误断行、恢复段落结构、补齐图片并按原文位置插入、处理摘要编号与标点风格一致化等任务。

Safety Notice

This listing is imported from skills.sh public index metadata. Review upstream SKILL.md and repository scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "extract-to-md" with this command: npx skills add kanlac/agent-steroids/kanlac-agent-steroids-extract-to-md

提取为 Markdown

适用场景

  • 用户要求将网页或 PDF 内容整理成 Markdown 草稿。
  • 文档存在错行、断段、乱码符号或摘要序号混乱。
  • 需要先完成 Markdown 校对,再二次导出 PDF。
  • 需要尽量贴近原 PDF 的图片位置与章节结构。

工作流程

1. 输入与提取

  • 识别来源类型:网页导出 PDF、原生 PDF、复制文本。
  • 提取正文文本、页面顺序、图片资源与坐标信息(若可用)。
  • 记录源页码,供后续定位与核对。

2. 先清洗噪声

  • 在做标点转换前,先去掉页面噪声,包括页眉页脚、时间戳、导航栏文本、孤立 URL、页码计数(如 x/y)。
  • 这样可避免 URL 被误改或正文被误判。

3. 恢复段落

  • 以版面间距为主依据,合并同段内错误换行。
  • 段落之间通常保留空行,避免把相邻段误并成一段。
  • 跨页首行若明显是续句则合并;若是标题样式则保持分段。

4. 构建 Markdown 结构

  • 统一输出结构:报告标题页信息、摘要、正文。
  • 摘要条目必须使用 1.2.3. 的编号形式。
  • 同一条摘要的换行内容应合并为一条,避免拆成两点。

5. 图片处理

  • 将图片导出到独立目录(例如 xxx-assets/)。
  • 图片按源文档页序与阅读顺序插入到 Markdown 对应位置。

6. 表格处理策略

  • 表格结构清晰时,优先转为 Markdown 表格。
  • 表格识别不稳时,改为「关键数据列表 + 原图」方案。
  • 保留单位、数值与来源位置,确保可复核。

7. 套用风格偏好

  • 结构修复后再处理标点和样式。
  • 与风格相关的具体规则,按 references/style-profile-zh.md 执行。
  • 注意 URL、邮箱、代码片段中的半角符号不要被误替换。

8. 交付前检查

  • 摘要条目数与原文一致,且无误拆分。
  • 小数点、编号句点与中英文混排格式正确。
  • 加粗范围符合用户要求,不多加、不漏加。
  • 图片链接可用,关键图表无缺失。
  • 最终交付为一个可编辑 .md 文件和一个图片目录。

交付规范

  • 生成的脚本、临时中间文件、调试产物统一放在一个临时目录下(例如 tmp/)。
  • 临时目录应与最终交付物分离,便于工作完成后整体清理删除。

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Automation

opinionated-skill-writer

No summary provided by upstream source.

Repository SourceNeeds Review
Automation

clinic-visit-prep

帮助患者整理就诊前问题、既往记录、检查清单与时间线,不提供诊断。;use for healthcare, intake, prep workflows;do not use for 给诊断结论, 替代医生意见.

Archived SourceRecently Updated
Automation

changelog-curator

从变更记录、提交摘要或发布说明中整理对外 changelog,并区分用户价值与内部改动。;use for changelog, release-notes, docs workflows;do not use for 捏造未发布功能, 替代正式合规审批.

Archived SourceRecently Updated
Automation

klaviyo

Klaviyo API integration with managed OAuth. Access profiles, lists, segments, campaigns, flows, events, metrics, templates, catalogs, and webhooks. Use this skill when users want to manage email marketing, customer data, or integrate with Klaviyo workflows. For other third party apps, use the api-gateway skill (https://clawhub.ai/byungkyu/api-gateway).

Archived SourceRecently Updated