ai-news-brief

自动抓取 AI/算力/大模型/GPU 相关最新资讯简报,使用 Chrome 浏览器自动化绕过反爬,支持多个科技媒体来源,支持PDF生成和邮件推送

Safety Notice

This item is sourced from the public archived skills repository. Treat as untrusted until reviewed.

Copy this and send it to your AI assistant to learn

Install skill "ai-news-brief" with this command: npx skills add 17oko/ai-news-brief

AI 资讯简报

自动抓取国内外 AI/算力/大模型/GPU/芯片相关最新资讯,生成简报


📊 网站配置管理

本 Skill 使用配置文件管理各网站的获取方式,文件位于 scripts/sites_config.json

获取方式优先级

方式说明速度
rssRSS订阅,最快最稳定⚡⚡⚡
httpHTTP直接请求⚡⚡
chromeChrome CDP自动化

状态说明

  • working: 正常工作
  • failed: 之前失败,暂不尝试
  • unreachable: 网站无法访问

自动调度逻辑

1. 读取 sites_config.json 配置文件
2. 对每个网站,按 priority 顺序尝试:
   - 首选:优先级最高且状态为 working 的方式
   - 备选:如果首选失败,尝试其他可用的方式
3. 抓取完成后,自动更新各方式的状态到配置文件
4. 下次运行时,使用更新后的配置

手动更新配置

如需手动更新网站配置,可编辑 scripts/sites_config.json

{
  "sites": {
    "网站key": {
      "name": "网站名",
      "url": "主页面URL",
      "rss": "RSS地址",
      "http": "HTTP地址",
      "chrome": "Chrome地址",
      "priority": ["rss", "http", "chrome"],
      "status": {
        "rss": "working/failed/unreachable",
        "http": "working/failed/unreachable", 
        "chrome": "working/failed/unreachable"
      }
    }
  }
}

🎯 用户反馈和关键词优化

本 Skill 支持根据用户反馈调整获取的资讯内容。

用户反馈方式

当用户给出以下反馈时,系统会自动调整:

用户输入系统行为
"我喜欢GPU/显卡相关"添加关键词 gpu, 显卡, nvidia
"不喜欢自动驾驶"排除关键词 自动驾驶, 智驾
"想看华为昇腾"添加关键词 华为, 昇腾
"不要抖音字节"屏蔽来源 字节, 抖音

配置文件

用户配置保存在 scripts/user_config.json

{
  "user_preferences": {
    "liked_keywords": ["gpu", "华为"],
    "disliked_keywords": ["自动驾驶"],
    "liked_sources": [],
    "disliked_sources": []
  },
  "default_keywords": {
    "AI基础": ["ai", "人工智能", "大模型", "gpt", ...],
    "GPU硬件": ["gpu", "nvidia", "amd", "cuda", ...],
    ...
  }
}

关键词分类

分类关键词示例
AI基础ai, 人工智能, 大模型, gpt, llm, openai
GPU硬件gpu, nvidia, amd, intel, cuda, h100
算力芯片算力, 芯片, 半导体, 处理器, cpu, npu
自动驾驶自动驾驶, 智能驾驶, 特斯拉, fsd
大厂动态华为, 昇腾, 阿里, 百度, 字节, 腾讯

🔍 内容可信度验证

每条资讯都会经过可信度评估,帮助用户判断信息质量。

可信度等级

等级分数说明来源示例
A级90+权威来源,可信度最高TechCrunch, The Verge, 政府官网
B级70-89专业媒体,可信度较高36kr, 量子位, 虎嗅, 爱范儿
C级50-69一般来源,需核实HackerNews, 综合新闻
D级<50较低可信,仅供参考论坛, 自媒体

验证规则

  1. 来源可信度 - 根据来源类型给基础分
  2. 内容长度 - 超过200字 +10分
  3. 敏感词检测 - 含"谣言""震惊"等词 -15分
  4. 时效性 - 有日期标注 +5分

使用可信度过滤

# 至少B级可信度
python fetch_ai_news.py --min-credibility B

# 至少70分
python fetch_ai_news.py --min-score 70

输出示例

{
  "title": "OpenAI新模型曝光",
  "source": "量子位",
  "credibility": {
    "score": 80,
    "level": "B",
    "reasons": ["权威来源", "内容详细"]
  }
}

🔥 热点排序

资讯按热点程度排序,GPU相关资讯权重最高:

关键词热度权重

类别关键词权重
🟢 GPU/显卡gpu, nvidia, amd, h100, 4090, 5090, RTX15 (最高)
🔵 大模型大模型, llm, gpt, openai, claude, deepseek, moE12
🟡 AI基础ai, 人工智能, 模型, 训练, 推理10
🟠 芯片/算力算力, 芯片, 半导体, npu, 华为, 昇腾10
🔴 自动驾驶自动驾驶, 智驾, 特斯拉, fsd8

排序规则

  1. 关键词热度 - 匹配热门关键词越多,分数越高
  2. 可信度等级 - A级来源 +10分,B级 +8分
  3. 内容详细度 - 摘要超过100字 +3分
  4. 关键点数量 - 有2个以上关键点 +2分

🔄 智能重试机制

当某个获取方式失败时:

失败次数处理方式
第1-2次继续重试(最多2次)
3次以上自动降低该方式优先级
后续跳过该方式,尝试其他方式

失败记录

失败记录保存在 scripts/failure_log.json

  • 记录每个网站每种方式的失败次数
  • 每天自动重置
  • 影响排序优先级

🧹 智能去重

使用标题相似度算法去除重复文章:

相似度处理
≥0.6视为重复,保留可信度高的
<0.6视为不同文章

相似度检测基于:

  • 共同关键词(中文词组、英文单词)
  • 核心词匹配(GPT、RTX、AI等)
  • 字符重叠率

📊 政策资讯

Skill 支持抓取政府官网的政策通知:

来源列表

来源类别说明
中国政府网中央政策国务院、部委重要政策
工信部部委政策工业和信息化相关
科技部部委政策科技创新、项目申报
网信办部委政策网络安全、AI监管
发改委部委政策项目批复、产业政策
教育部部委政策AI教育相关
财政部部委政策补贴、专项资金
国家数据局新机构数据、AI政策

使用方式

在获取AI资讯时,可选择是否同时获取政策资讯:

  • 自动获取:每天定时任务会同时抓取AI资讯和政策

📈 增量抓取与数据持久化

增量抓取

  • 首次运行:获取全部内容
  • 后续运行:只获取新增内容
  • 自动去重:已抓取的文章不会重复

数据保存

类型文件位置
AI资讯历史news_history.jsonscripts/data/
政策资讯历史policy_history.jsonscripts/data/

查询历史

# 查询最近3天的资讯
python scripts/incremental_fetch.py --days 3

# 查看统计
python scripts/incremental_fetch.py --stats

🤖 AI摘要生成(可选)

使用大模型为文章生成更好的摘要:

配置

文件:scripts/llm_config.json

{
  "config": {
    "enabled": true,
    "provider": "deepseek",  // deepseek / qwen / openai
    "deepseek": {
      "api_key": "your_api_key"
    }
  }
}

支持的模型

服务商模型特点
DeepSeekdeepseek-chat便宜量大
阿里Qwenqwen-plus有免费额度
OpenAIgpt-3.5-turbo稳定性好

使用

python scripts/llm_summarizer.py

📄 自动报告生成

每天自动生成资讯报告:

支持格式

  • HTML报告 - 可在浏览器查看,包含样式
  • Markdown报告 - 便于分享和编辑
  • PDF报告 - 支持中文,样式整洁(新增)

输出位置

scripts/reports/
├── ai_news_20260406.html
├── ai_news_20260406.md
└── ai_news_20260406.pdf

PDF 生成

需要安装 fpdf2:

pip install fpdf2

pdf_config.json 中启用:

{
  "config": {
    "enabled": true,
    "output_dir": "./reports"
  }
}

生成报告

python scripts/report_generator.py

🌐 多语言翻译(预留接口)

翻译英文AI资讯为中文:

配置

文件:scripts/translator_config.json

{
  "config": {
    "enabled": true,
    "provider": "baidu"  // baidu / deep
  }
}

注意

  • 需要配置翻译API才能使用
  • 目前是预留接口,需要开发者自行接入

📧 邮件推送(可选)

Skill 支持将简报发送到邮箱,需要使用者自行配置。

⚠️ 重要:配置存放位置

为防止项目更新时覆盖用户配置,请按以下步骤配置:

  1. 创建配置目录(如果不存在):

    • Windows: C:\Users\你的用户名\.openclaw\config\
    • macOS/Linux: ~/.openclaw/config/
  2. 复制配置模板:将 scripts/email_config.json.default 复制到上述目录,并重命名为 ai-news-email.json

  3. 填写配置:编辑 ai-news-email.json,填写你的邮箱信息

配置步骤

  1. 创建目录:~/.openclaw/config/
  2. 复制模板:
    # Windows
    copy scripts\email_config.json.default %USERPROFILE%\.openclaw\config\ai-news-email.json
    
    # macOS/Linux
    cp scripts/email_config.json.default ~/.openclaw/config/ai-news-email.json
    
  3. 编辑 ai-news-email.json,设置 smtp_config.enabled: true,填写发件人邮箱和授权码
  4. 设置 recipient_config.enabled: true,添加收件人邮箱

配置示例

{
  "smtp_config": {
    "enabled": true,
    "smtp_server": "smtp.qq.com",
    "smtp_port": 465,
    "use_ssl": true,
    "sender_email": "your_email@qq.com",
    "sender_password": "your_auth_code",
    "sender_name": "AI资讯小助手"
  },
  "recipient_config": {
    "enabled": true,
    "recipients": ["your_email@example.com"]
  }
}

支持的邮箱

邮箱SMTP服务器端口授权码获取
QQ邮箱smtp.qq.com465邮箱设置→账户→开启IMAP
163邮箱smtp.163.com465邮箱设置→POP3/SMTP
Gmailsmtp.gmail.com465Google账户→安全→应用密码

测试邮件

python scripts/email_sender.py

⏰ 定时发送(手动添加)

定时任务需要在 OpenClaw 中手动添加,步骤如下:

1. 添加早间任务(每天 7:00)

openclaw cron add --name "AI资讯简报-早间版" \
  --schedule "0 7 * * *" \
  --agent main \
  --message "请运行 AI 资讯简报技能,获取昨日7点至今日7点的AI/算力/GPU/政策资讯,生成简报,并自动生成 PDF 附件发送到配置好的邮箱" \
  --delivery wechat

2. 添加午间任务(每天 14:00)

openclaw cron add --name "AI资讯简报-午间版" \
  --schedule "0 14 * * *" \
  --agent main \
  --message "请运行 AI 资讯简报技能,获取今日最新的AI/算力/GPU/政策资讯,生成简报,并自动生成 PDF 附件发送到配置好的邮箱" \
  --delivery wechat

3. 查看和管理定时任务

# 查看所有定时任务
openclaw cron list

# 删除定时任务
openclaw cron rm <任务ID>

# 立即运行定时任务(测试)
openclaw cron run <任务ID>

注意:定时任务由 OpenClaw 管理,不是 Skill 代码的一部分。如果需要修改或删除定时任务,请使用上述命令。


📁 项目结构

ai-news-brief/
├── SKILL.md                    # Skill 定义文件
├── scripts/                    # 代码文件(更新时会被覆盖)
│   ├── *.py                   # 功能代码
│   └── *.json.default         # 默认配置模板(只读,不要修改)
├── user_config/               # ⚠️ 已弃用,请使用外部配置
│   └── *.json                 # 历史配置(不再使用)
└── data/                      # 数据缓存(不会被覆盖)

# 👇 用户配置存放位置(项目外,更新时不会被覆盖)
~/.openclaw/config/
├── ai-news-email.json         # 邮件配置
├── ai-news-llm.json           # LLM API 配置
├── ai-news-pdf.json           # PDF 配置
├── ai-news-user.json          # 用户偏好
└── ai-news-sites.json         # 网站配置

⚠️ 重要:为什么配置放项目外?

  • 项目更新时会覆盖 scripts/ 目录下的所有文件
  • 如果配置放在项目内,更新后会被覆盖
  • 因此,用户配置必须放在 ~/.openclaw/config/ 目录

配置流程

  1. 首次使用:从 scripts/*.json.default 复制模板到 ~/.openclaw/config/
  2. 编辑配置:填写自己的邮箱、API密钥等
  3. 后续更新:项目代码会更新,但你的配置不会受影响

方式一:自动安装(推荐)

首次使用前,可选择自动安装依赖。AI 会询问你是否安装

我需要安装一些依赖才能运行:
- requests, beautifulsoup4, websocket-client (Python 包)

是否现在安装?请回复"是"或"安装"

方式二:手动安装

在终端运行:

pip install requests beautifulsoup4 websocket-client

环境要求

  • Python 3.8+
  • Chrome 浏览器(已安装在系统中)
  • Windows/macOS/Linux 均可

📋 功能说明

核心能力

  1. Chrome 自动化抓取 - 使用 Chrome DevTools Protocol (CDP) 绕过反爬
  2. 多源资讯聚合 - 同时抓取 20+ 个科技媒体网站
  3. 智能关键词过滤 - 仅保留 AI/算力/GPU/大模型 相关内容
  4. 自动摘要提取 - 从文章页面提取关键信息
  5. 来源多样化 - 国内+国外,确保资讯全面

抓取来源

国内

  • 36kr、量子位、机器之心、虎嗅、爱范儿、极客公园
  • 网易科技、新浪科技、搜狐科技、腾讯科技、凤凰网科技
  • 驱动之家、超能网、中关村在线、快科技

国外

  • TechCrunch、The Verge、VentureBeat、HackerNews

🎯 触发方式

当用户说出以下关键词时激活:

  • "最新AI资讯"
  • "AI新闻"
  • "算力新闻"
  • "GPU资讯"
  • "大模型动态"
  • "AI简报"
  • "科技资讯"

📊 输出格式

标准简报

# 🤖 AI/算力/GPU 资讯简报

**查询日期**: 2026年4月6日
**数据范围**: 2026年4月5日

---

### 🔥 重点新闻

| 来源 | 标题 | 概要 |
|------|------|------|
| 36kr | 标题 | 概要... |
| 量子位 | 标题 | 概要... |

---

### 📊 来源分布

| 来源 | 数量 |
|------|------|
| 36kr | 10条 |
| 搜狐科技 | 8条 |

---

### 💡 趋势总结

1. 趋势1...
2. 趋势2...

---

🔧 工作流程

Phase 1: 启动 Chrome
  └─ 检查 Chrome 是否已运行,若无则启动
      ↓
Phase 2: 多源抓取
  └─ 依次访问20+网站,获取文章标题和链接
      ↓
Phase 3: 内容过滤
  └─ 过滤保留 AI/算力/GPU 相关内容
      ↓
Phase 4: 摘要提取
  └─ 打开每篇文章,获取内容摘要(仅处理前15条)
      ↓
Phase 5: 整理输出
  └─ 分类、去重、生成简报

⚡ 使用示例

示例1:用户查询

用户: "最新AI资讯"

AI: [自动执行以下操作]

  1. 启动/连接 Chrome
  2. 抓取各网站资讯
  3. 提取文章摘要
  4. 生成简报输出

⚠️ 注意事项

  1. 首次使用需安装依赖 - AI 会询问是否安装
  2. 首次会打开 Chrome - 首次运行时 Chrome 窗口会打开
  3. 运行时间 - 完整抓取约需 2-3 分钟
  4. 网络要求 - 需能访问国内科技网站
  5. Chrome 保持打开 - 运行后 Chrome 会保持打开状态,便于后续快速运行

🔄 更新日志

2026-04-06 (v1.0)

  • 初始版本
  • 支持 Chrome 自动化抓取
  • 支持 20+ 科技媒体来源
  • 自动提取文章摘要
  • 提供来源分布统计

📞 支持

如遇问题,请检查:

  1. Python 3.8+ 已安装
  2. Chrome 浏览器已安装
  3. 依赖包已安装(requests, beautifulsoup4, websocket-client)
  4. 网络可以访问目标网站

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

1coos-calendar-cn

查询中国传统日历/黄历信息。TRIGGER when user asks about Chinese calendar, lunar date, 农历, 黄历, 万年历, 节气, 五行, 宜忌, 干支,佛历,道历等。

Archived SourceRecently Updated
General

scrapebadger

Web scraping platform — Twitter/X data, Vinted marketplace, and general web scraping API

Archived SourceRecently Updated
General

Paylock

# PayLock — Solana Escrow Integration

Archived SourceRecently Updated
General

nvidia-model-config

Add the NVIDIA provider to OpenClaw with SecretRef apiKey (no plaintext in openclaw.json). Documents shell vs systemd gateway env so the key actually resolves. Includes Mixtral, Kimi, Nemotron Super, Nemotron Ultra, and MiniMax M2.5 model entries.

Archived SourceRecently Updated