article-fetcher

抓取微信公众号、小红书、豆瓣、知乎文章,自动上传 OSS 图片,LLM 智能提取关键词,一键存档到 Notion

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "article-fetcher" with this command: npx skills add ajayhao/article-fetcher

Article Fetcher v1.0.1

抓取微信公众号、小红书、豆瓣、知乎文章,自动上传 OSS 图床,LLM 智能关键词提取,一键存档到 Notion。

快速开始

1. 安装依赖

pip install -r requirements.txt

2. 配置环境变量(~/.openclaw/.env

# 必需:OSS 图床
ALIYUN_OSS_AK=your_ak
ALIYUN_OSS_SK=your_sk
ALIYUN_OSS_BUCKET_ID=your_bucket
ALIYUN_OSS_ENDPOINT=oss-cn-shanghai.aliyuncs.com

# 必需:Notion 存档
NOTION_API_KEY=secret_xxx
NOTION_ARTICLE_DATABASE_ID=database_id

# 可选:LLM 关键词提取(DashScope)
DASHSCOPE_API_KEY=sk-xxx
DASHSCOPE_MODEL=qwen3.5-plus

# 可选:Cookies(反爬,Netscape 格式)
WECHAT_COOKIES_FILE=~/.cookies/wechat_cookies.txt
ZHIHU_COOKIES_FILE=~/.cookies/zhihu_cookies.txt

3. 使用

cd <skill-dir>
python3 main.py "文章 URL" [标签1] [标签2]

支持平台:微信公众号 (mp.weixin.qq.com)、小红书 (xiaohongshu.com / xhslink.com)、豆瓣 (douban.com)、知乎 (zhihu.com)

处理流程

URL → 平台识别 → 内容抓取 → 图片上传 OSS → 关键词提取 (LLM → 词频降级) → Notion 存档

Notion 数据库字段

字段类型说明
Titletitle文章标题(≤200 字符)
Sourcerich_text来源平台
Authorrich_text作者
Linkurl原文链接
Tagsmulti_select自动提取关键词 + 手动标签
PubDatedate发布时间
Wordsnumber字数统计(剔除 HTML)
tsdate存档时间(东八区)

关键说明

  • Cookies:知乎/微信反爬需配置(Netscape 格式),小红书/豆瓣无需登录
  • 关键词:LLM 优先(DashScope),未配置或失败自动降级本地词频
  • 图片:上传失败不阻断,成功多少记录多少
  • 时间:统一 YYYY-MM-DD HH:MM:SS,缺失时留空(不伪造)
  • 模块main.py 可作 Python 模块调用:from main import fetch_and_archive_article

安全与隐私

  • URL 校验:严格白名单匹配 hostname,拒绝路径拼接攻击
  • Cookie 隔离:Netscape Cookies 按域名过滤,仅附加到匹配的请求
  • LLM 数据外发:配置 DASHSCOPE_API_KEY 时,文章内容会发送至 DashScope API(仅用于关键词提取)
  • 敏感信息:AK/SK/Key 等仅存储于本地,skill 不会外泄
  • 权限最小化:OSS Bucket 建议仅授予 PutObject/GetObject,Notion Integration 仅授予目标数据库读写权限
  • 依赖锁定:requirements.txt 使用精确版本号,避免供应链风险

扩展平台

  1. fetchers/ 下创建 xxx_fetcher.py,继承 BaseFetcher 实现 fetch_article()
  2. detector/platform_detector.pyALLOWED_HOSTS 添加平台域名
  3. main.pyFETCHER_REGISTRY 注册

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

权威采招政策与标讯指南-元博网

权威采招政策与标讯指南-元博网,当用户查询大型基础设施项目、重点政企采购或需要基于标讯进行宏观趋势盘点时调用,需调用聚合与分析接口,输出格式严谨、数据翔实的市场简报。

Registry SourceRecently Updated
1300pkuycl
General

全国采招大数据中心-采招网

全国采招大数据中心-采招网,当用户需要跨省份、跨行业的全盘数据检索或综合企业画像分析时调用,需综合运用检索与企业画像接口,提供全景式的数据展现。

Registry SourceRecently Updated
1210pkuycl
General

海量标讯智搜助手-标800

海量标讯智搜助手-标800,当用户提供复杂的搜索条件(多个关键词、排除特定词汇、指定金额区间)时调用,需精确组合查询条件,过滤无效信息,提供高准确率的数据反馈。

Registry SourceRecently Updated
1250pkuycl
General

工程建设招投标分析-建设通

工程建设招投标分析-建设通,当搜索词包含工程、施工、建筑、市政、监理、设计等建筑业专属词汇时触发,聚焦工程项目金额、中标单位资质背景,重点提取建筑类项目核心字段并进行业绩汇总。

Registry SourceRecently Updated
1510pkuycl