小红书违禁词检测

需要执行完整流程（字数分界、分批询问、输出模板、文件写入与卡片发送等）时，必须先读取并严格遵守 references/core_workflow.md；本页为提纲与入口说明，不可替代该文档中的全部约束。

简介

面向在小红书发布种草笔记、活动海报、商品详情与私域话术的创作者、品牌运营与营销同学，在投稿前快速发现平台侧敏感/违禁表述，并拿到可执行的改稿建议。

通过本 Skill，你可以：

定向审核：针对小红书规则做违禁词与敏感表达检测，区别于泛化的「广告法」套话
多源输入：直接粘贴文案、上传 TXT/DOC/DOCX、给网页链接；图片需由对话侧先提取文字再送检
可交付改稿：除标红与替换表格外，按规范输出建议优化文案，并生成可下载的纯文本文件

运行依赖见 frontmatter 中的 dependency；具体脚本参数、输出铁律与异常处理以 references/core_workflow.md 为准。

功能特性

核心功能

多路送检：--content 直传文案、--file 读本地文本类文件、--url 拉取网页正文（Playwright 优先，失败回退 urllib 静态 HTML）
篇幅控制：脚本单次检测上限 3000 字符；超长内容须按核心文档暂停询问或分批，>10000 字符按文档直接中止检测流程
结构化结果：违禁词数量与类型、标红 HTML、逐词替换建议表、建议优化文案（富文本规则见核心文档）
交付物：检出违禁词时须写入 ./小红书_优化文案_{随机6位数字}.txt 并以卡片发送（详见核心文档，含分批汇总要求）

特色亮点

英文误匹配过滤：脚本侧对已知的英文子串误判做过滤，减轻「单词内含敏感片段」类噪声（详见核心文档说明）
网络容错：脚本对 5xx、超时等具备自动重试（次数见核心文档），主 Agent 无需重复手动重试请求

使用指南

执行前（必读）

加载核心工作流

打开 references/core_workflow.md，对其中的任务目标、操作步骤、输出模板、格式铁律与注意事项全文生效，不得以「只读过 SKILL.md」为由省略分批追问、三板块格式或文件卡片发送。

基础使用（3 步）

第 1 步：识别输入类型并提取字数

判断用户给的是纯文本、文件路径、URL 还是图片。文件 / URL 先用 --extract-only 取正文与 length（命令见下表）；图片先用对话工具提取文字，再按字数规则决定是否追问分批。PDF 不支持，引导用户转为图片或文本。

第 2 步：按字数规则调用脚本

≤3000 字符：直接检测。
3000～10000：必须先按核心文档原文暂停询问，根据用户选择单次截断或分批（每批 ≤3000，自然断句）。
>10000：按核心文档提示并中断，不执行检测。

第 3 步：解析 JSON 并按模板输出

严格使用核心文档中的三板块模板呈现；word_count=0 时仅输出第一板块且不写文件。有违禁词时完成优化文案文件写入与卡片发送。

对话示例

用户：帮我看下这段笔记有没有违禁词：「这款美白神器真的太有效了……」助手：已统计字数（≤3000），调用 check_sensitive_words.py --content="..."；随后仅输出三板块结果，并在有需要时写入 txt 并以卡片发送。

用户：这是我的稿子文件 /path/note.docx，检查一下。助手：先 --file=... --extract-only 查看 length，再按核心文档决定是直接检测还是暂停询问分批。

常用命令速查

命令示例	功能
`python scripts/check_sensitive_words.py --content="文案"`	直接检测（单次 ≤3000 字符由脚本侧校验）
`python scripts/check_sensitive_words.py --file=/path/a.txt --extract-only`	仅从文件提取全文与字数
`python scripts/check_sensitive_words.py --url=https://example.com --extract-only`	仅从网页提取正文与字数
`python scripts/check_sensitive_words.py --file=/path/a.docx`	从文件读入并检测（通常建议仍先 extract-only 再走字数流程）

--content、--file、--url 三者互斥；平台固定为小红书，无需也不支持切换平台。更多说明见核心文档「资源索引」。

使用场景

场景	角色	需求描述	使用方式
笔记发布前自检	创作者	担心文案触发审核或限流，需要具体词级提示	粘贴正文或上传 DOCX；按字数规则调用脚本；输出标红与替换表
营销物料合规	品牌运营	活动页、海报字多且来源杂，需统一过一遍	文件或 URL 提取 → 字数判断 → 分批或单次检测；汇总优化文案文件
投放脚本批量改稿	效果投放	多条卖点话术需快速扫雷并给可替换说法	分批 `--content`；每批三板块；最终合并一份 txt 随卡片下发
网页落地页抽查	增长 / 运营	需检查线上 H5/文章纯文本是否含敏感表述	`--url --extract-only` 再检测；动态页依赖 Playwright，失败则静态 HTML 回退

注意事项与边界

结果来源：检出结论以脚本返回 JSON 为准；脚本报错或网络失败时，向用户说明原因并禁止编造违禁词列表或替换词。
合规与免责：输出中的数据说明语须按核心文档保留；本工具为辅助参考，不替代法务或平台最终判定。
隐私：不要在无关场合复述用户全文；按平台要求最小化展示必要片段。
能力边界：不支持 PDF；图片必经 OCR；网页极端反爬或脚本环境缺依赖时，提取可能失败——应如实告知并建议换输入方式。
正文约束：所有字数分界、输出铁律、文件命名与「必须发送文件卡片」等细节，一律以 references/core_workflow.md 为最终依据。

xhs-prohibited-word

Safety Notice

Copy this and send it to your AI assistant to learn