douyin-scraper

抖音图文笔记采集工具。支持自然语言搜索请求(如"搜索一下海鲜视频"、"帮我找韩国医美笔记"),自动提取关键词 → 搜索 → 筛选「图文·一周内」→ Playwright 截图(绕过反爬虫)→ Baidu OCR 识别图片文字 → 输出 Markdown 报告(含热度评分)。当用户提到"抖音图文采集"、"抖音笔记抓取"、"抖音爬虫"、"抖音内容采集"、"搜索一下xxx"、"帮我找xxx"等场景时加载此技能。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "douyin-scraper" with this command: npx skills add terrycarter1985/douyin-scraper-nl

douyin-scraper

抖音图文笔记采集工具 —— 一条命令完成:搜索 → 筛选图文 → 截图 → OCR → Markdown 报告。

⚠️ 前置配置

1. 安装依赖

pip install playwright requests python-dotenv
python -m playwright install chromium

2. 配置 Baidu PaddleOCR Token

在技能目录创建 .env

BAIDU_PADDLEOCR_TOKEN=你的token

获取 Token:访问 百度 AI Studio,免费注册,每天 1 万次免费调用。

3. 登录抖音(只需一次)

python <skill_path>/scripts/login.py

浏览器打开抖音,扫码登录后关闭。登录状态自动保存,后续无需重复操作。


自然语言搜索(AI Agent 协议)

用户可能用自然语言发起搜索请求,例如:

  • "搜索一下海鲜视频" → keyword = 海鲜
  • "帮我找韩国医美笔记" → keyword = 韩国医美
  • "看看最近一周的减肥餐图文" → keyword = 减肥餐
  • "抖音上关于咖啡的内容" → keyword = 咖啡
  • "我想看宠物猫的图文笔记" → keyword = 宠物猫

关键词提取规则

  1. 去掉搜索意图词:去掉"搜索"、"找"、"看看"、"帮我"、"我想看"、"视频"、"内容"、"笔记"、"图文"等非内容词
  2. 保留核心主题:提取用户真正想搜的主题词(通常 2-6 个字)
  3. 不要加后缀:不要自动加"视频"、"图文"等后缀,脚本会自动筛选图文类型
  4. 不确定时问用户:如果自然语言中无法明确提取关键词,简短询问用户想搜什么关键词

执行方式

提取关键词后,直接调用脚本:

python <skill_path>/scripts/full_workflow.py --keyword "提取的关键词"

CLI 使用

# 采集 10 篇图文笔记(含 OCR)
python <skill_path>/scripts/full_workflow.py --keyword "韩国医美"

# 指定数量
python <skill_path>/scripts/full_workflow.py --keyword "减肥餐" --count 5

# 跳过 OCR(仅截图)
python <skill_path>/scripts/full_workflow.py --keyword "咖啡" --no-ocr
参数说明默认值
--keyword搜索关键词必填
--count采集笔记数量5
--no-ocr跳过 OCR关闭

输出

报告保存至 output/notes_{keyword}_{timestamp}.md,图片保存至 data/images/

每篇笔记包含:

  • 🔥 热度分数(点赞数 / 发布天数)及计算公式
  • 👍 点赞数、发布时间、作者、原文链接
  • 📝 原文描述
  • 🔍 OCR 识别的图片文字(支持多图)
  • 🖼️ 本地截图路径

技术特点

  • Playwright 截图:通过 element.screenshot() 截取内容图,绕过抖音图片 URL 反爬虫
  • 图文过滤:自动识别并跳过视频,只采集「图文」类型笔记
  • OCR 噪音过滤:自动去除截图中的抖音导航栏文字(精选/推荐/关注 等)
  • 多图支持:一篇图文多张图片逐张截图 + OCR,合并识别结果
  • 反检测:有头浏览器(headless=False)+ 拟人操作节奏,避免触发验证码
  • 热度公式likes / days_ago,越新越热排越前

目录结构

douyin-scraper/
├── scripts/
│   ├── full_workflow.py   # 主流水线
│   └── login.py           # 登录脚本
├── data/
│   └── images/            # 截图
├── output/                # Markdown 报告
├── profile/               # 浏览器登录状态
└── .env                   # Token 配置

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

全网招中标数据平台-知了标讯

全网招中标数据查询与分析助手。当用户涉及以下任何场景时,必须使用此SKILL:查询招标/中标公告、搜索标讯、查找临期/即将到期项目、商机预测、推荐潜在投标供应商、分析公司主营业务/历史中标、查询公司上下游合作客户与供应商、分析竞争对手/竞对企业、查询Top采购单位/Top中标单位/Top中标品牌、招中标数据统计分...

Registry SourceRecently Updated
General

ia-debugging

Systematic root-cause debugging with verification. Use for errors, stack traces, broken tests, flaky tests, regressions, or anything not working as expected....

Registry SourceRecently Updated
4760iliaal
General

招中标信息&招标雷达-剑鱼

招投标数据查询雷达 - 剑鱼。作为招投标数据追踪雷达,当用户询问最新商机、临期项目预测、特定品牌/型号历史价格、或潜在投标供应商推荐时必须调用此技能。擅长处理类似千里马平台的海量数据挖掘需求,必须以图表或Markdown表格形式输出清晰的数据统计和市场趋势洞察。

Registry SourceRecently Updated
General

招标中标查询&数据分析-乙方宝

全网招中标分析助手 - 乙方宝。作为全网招中标分析助手,当用户需要查询招投标公告、分析中标结果或提炼企业画像时必须调用此技能。能够处理类似乙方宝平台的常见查询需求,重点输出结构化的标讯摘要和竞对关系分析,帮助用户简化投标前期的调研工作流。

Registry SourceRecently Updated