小红书违禁词检测
需要执行完整流程(字数分界、分批询问、输出模板、文件写入与卡片发送等)时,必须先读取并严格遵守 references/core_workflow.md;本页为提纲与入口说明,不可替代该文档中的全部约束。
简介
面向在小红书发布种草笔记、活动海报、商品详情与私域话术的创作者、品牌运营与营销同学,在投稿前快速发现平台侧敏感/违禁表述,并拿到可执行的改稿建议。
通过本 Skill,你可以:
- 定向审核:针对小红书规则做违禁词与敏感表达检测,区别于泛化的「广告法」套话
- 多源输入:直接粘贴文案、上传 TXT/DOC/DOCX、给网页链接;图片需由对话侧先提取文字再送检
- 可交付改稿:除标红与替换表格外,按规范输出建议优化文案,并生成可下载的纯文本文件
运行依赖见 frontmatter 中的 dependency;具体脚本参数、输出铁律与异常处理以 references/core_workflow.md 为准。
功能特性
核心功能
- 多路送检:
--content直传文案、--file读本地文本类文件、--url拉取网页正文(Playwright 优先,失败回退 urllib 静态 HTML) - 篇幅控制:脚本单次检测上限 3000 字符;超长内容须按核心文档暂停询问或分批,>10000 字符按文档直接中止检测流程
- 结构化结果:违禁词数量与类型、标红 HTML、逐词替换建议表、建议优化文案(富文本规则见核心文档)
- 交付物:检出违禁词时须写入
./小红书_优化文案_{随机6位数字}.txt并以卡片发送(详见核心文档,含分批汇总要求)
特色亮点
- 英文误匹配过滤:脚本侧对已知的英文子串误判做过滤,减轻「单词内含敏感片段」类噪声(详见核心文档说明)
- 网络容错:脚本对 5xx、超时等具备自动重试(次数见核心文档),主 Agent 无需重复手动重试请求
使用指南
执行前(必读)
加载核心工作流
打开 references/core_workflow.md,对其中的任务目标、操作步骤、输出模板、格式铁律与注意事项全文生效,不得以「只读过 SKILL.md」为由省略分批追问、三板块格式或文件卡片发送。
基础使用(3 步)
第 1 步:识别输入类型并提取字数
判断用户给的是纯文本、文件路径、URL 还是图片。
文件 / URL 先用 --extract-only 取正文与 length(命令见下表);图片先用对话工具提取文字,再按字数规则决定是否追问分批。PDF 不支持,引导用户转为图片或文本。
第 2 步:按字数规则调用脚本
- ≤3000 字符:直接检测。
- 3000~10000:必须先按核心文档原文暂停询问,根据用户选择单次截断或分批(每批 ≤3000,自然断句)。
- >10000:按核心文档提示并中断,不执行检测。
第 3 步:解析 JSON 并按模板输出
严格使用核心文档中的三板块模板呈现;word_count=0 时仅输出第一板块且不写文件。有违禁词时完成优化文案文件写入与卡片发送。
对话示例
用户:帮我看下这段笔记有没有违禁词:「这款美白神器真的太有效了……」 助手:已统计字数(≤3000),调用
check_sensitive_words.py --content="...";随后仅输出三板块结果,并在有需要时写入 txt 并以卡片发送。
用户:这是我的稿子文件
/path/note.docx,检查一下。 助手:先--file=... --extract-only查看 length,再按核心文档决定是直接检测还是暂停询问分批。
常用命令速查
| 命令示例 | 功能 |
|---|---|
python scripts/check_sensitive_words.py --content="文案" | 直接检测(单次 ≤3000 字符由脚本侧校验) |
python scripts/check_sensitive_words.py --file=/path/a.txt --extract-only | 仅从文件提取全文与字数 |
python scripts/check_sensitive_words.py --url=https://example.com --extract-only | 仅从网页提取正文与字数 |
python scripts/check_sensitive_words.py --file=/path/a.docx | 从文件读入并检测(通常建议仍先 extract-only 再走字数流程) |
--content、--file、--url 三者互斥;平台固定为小红书,无需也不支持切换平台。更多说明见核心文档「资源索引」。
使用场景
| 场景 | 角色 | 需求描述 | 使用方式 |
|---|---|---|---|
| 笔记发布前自检 | 创作者 | 担心文案触发审核或限流,需要具体词级提示 | 粘贴正文或上传 DOCX;按字数规则调用脚本;输出标红与替换表 |
| 营销物料合规 | 品牌运营 | 活动页、海报字多且来源杂,需统一过一遍 | 文件或 URL 提取 → 字数判断 → 分批或单次检测;汇总优化文案文件 |
| 投放脚本批量改稿 | 效果投放 | 多条卖点话术需快速扫雷并给可替换说法 | 分批 --content;每批三板块;最终合并一份 txt 随卡片下发 |
| 网页落地页抽查 | 增长 / 运营 | 需检查线上 H5/文章纯文本是否含敏感表述 | --url --extract-only 再检测;动态页依赖 Playwright,失败则静态 HTML 回退 |
注意事项与边界
- 结果来源:检出结论以脚本返回 JSON 为准;脚本报错或网络失败时,向用户说明原因并禁止编造违禁词列表或替换词。
- 合规与免责:输出中的数据说明语须按核心文档保留;本工具为辅助参考,不替代法务或平台最终判定。
- 隐私:不要在无关场合复述用户全文;按平台要求最小化展示必要片段。
- 能力边界:不支持 PDF;图片必经 OCR;网页极端反爬或脚本环境缺依赖时,提取可能失败——应如实告知并建议换输入方式。
- 正文约束:所有字数分界、输出铁律、文件命名与「必须发送文件卡片」等细节,一律以 references/core_workflow.md 为最终依据。