微信公众号文章抓取助手
本技能专门用于突破微信公众号文章的访问限制,将其转化为结构良好的 Markdown 文件,并自动处理图片资源的本地化。
使用场景
-
当用户提供以 https://mp.weixin.qq.com/s/ 开头的链接时。
-
需要将公众号内容保存为本地 Markdown 文档时。
-
需要对公众号长文进行结构化总结或提取图片资源时。
核心功能
-
全文抓取: 自动处理标准文章流和特殊的“图片页”格式。
-
图文混排: 保持原有的段落和图片位置关系。
-
图片本地化: 自动下载远程图片到 images/ 目录,并更新 Markdown 引用路径。
-
结构化输出: 自动识别标题层级(H1-H6),生成易于阅读的文档。
-
概要生成: 自动提取文章核心观点、关键洞见及作者信息。
-
flomo 集成: 支持将生成的文章概要推送到 flomo 笔记平台。
目录结构说明
-
bin/main.py : 主执行脚本,支持可选的 flomo API URL 参数。
-
utils/downloader.py : 负责 HTML 和图片下载。
-
utils/parser.py : 负责内容解析、清洗和结构化。
-
utils/flomo.py : 负责向 flomo 发送 POST 请求。
-
images/ : (运行后生成) 存放本地化后的图片资源。
使用示例
-
仅本地抓取: 直接提供公众号链接。
-
推送至 flomo: 提供链接的同时,告知 flomo 秘钥(API URL),脚本将自动完成推送。