AI 资讯简报

自动抓取国内外 AI/算力/大模型/GPU/芯片相关最新资讯，生成简报

📊 网站配置管理

本 Skill 使用配置文件管理各网站的获取方式，文件位于 scripts/sites_config.json。

获取方式优先级

方式	说明	速度
rss	RSS订阅，最快最稳定	⚡⚡⚡
http	HTTP直接请求	⚡⚡
chrome	Chrome CDP自动化	⚡

状态说明

working: 正常工作
failed: 之前失败，暂不尝试
unreachable: 网站无法访问

自动调度逻辑

1. 读取 sites_config.json 配置文件
2. 对每个网站，按 priority 顺序尝试：
   - 首选：优先级最高且状态为 working 的方式
   - 备选：如果首选失败，尝试其他可用的方式
3. 抓取完成后，自动更新各方式的状态到配置文件
4. 下次运行时，使用更新后的配置

手动更新配置

如需手动更新网站配置，可编辑 scripts/sites_config.json：

{
  "sites": {
    "网站key": {
      "name": "网站名",
      "url": "主页面URL",
      "rss": "RSS地址",
      "http": "HTTP地址",
      "chrome": "Chrome地址",
      "priority": ["rss", "http", "chrome"],
      "status": {
        "rss": "working/failed/unreachable",
        "http": "working/failed/unreachable", 
        "chrome": "working/failed/unreachable"
      }
    }
  }
}

🎯 用户反馈和关键词优化

本 Skill 支持根据用户反馈调整获取的资讯内容。

用户反馈方式

当用户给出以下反馈时，系统会自动调整：

用户输入	系统行为
"我喜欢GPU/显卡相关"	添加关键词 `gpu`, `显卡`, `nvidia`
"不喜欢自动驾驶"	排除关键词 `自动驾驶`, `智驾`
"想看华为昇腾"	添加关键词 `华为`, `昇腾`
"不要抖音字节"	屏蔽来源 `字节`, `抖音`

配置文件

用户配置保存在 scripts/user_config.json：

{
  "user_preferences": {
    "liked_keywords": ["gpu", "华为"],
    "disliked_keywords": ["自动驾驶"],
    "liked_sources": [],
    "disliked_sources": []
  },
  "default_keywords": {
    "AI基础": ["ai", "人工智能", "大模型", "gpt", ...],
    "GPU硬件": ["gpu", "nvidia", "amd", "cuda", ...],
    ...
  }
}

关键词分类

分类	关键词示例
AI基础	ai, 人工智能, 大模型, gpt, llm, openai
GPU硬件	gpu, nvidia, amd, intel, cuda, h100
算力芯片	算力, 芯片, 半导体, 处理器, cpu, npu
自动驾驶	自动驾驶, 智能驾驶, 特斯拉, fsd
大厂动态	华为, 昇腾, 阿里, 百度, 字节, 腾讯

🔍 内容可信度验证

每条资讯都会经过可信度评估，帮助用户判断信息质量。

可信度等级

等级	分数	说明	来源示例
A级	90+	权威来源，可信度最高	TechCrunch, The Verge, 政府官网
B级	70-89	专业媒体，可信度较高	36kr, 量子位, 虎嗅, 爱范儿
C级	50-69	一般来源，需核实	HackerNews, 综合新闻
D级	<50	较低可信，仅供参考	论坛, 自媒体

验证规则

来源可信度 - 根据来源类型给基础分
内容长度 - 超过200字 +10分
敏感词检测 - 含"谣言""震惊"等词 -15分
时效性 - 有日期标注 +5分

使用可信度过滤

# 至少B级可信度
python fetch_ai_news.py --min-credibility B

# 至少70分
python fetch_ai_news.py --min-score 70

输出示例

{
  "title": "OpenAI新模型曝光",
  "source": "量子位",
  "credibility": {
    "score": 80,
    "level": "B",
    "reasons": ["权威来源", "内容详细"]
  }
}

🔥 热点排序

资讯按热点程度排序，GPU相关资讯权重最高：

关键词热度权重

类别	关键词	权重
🟢 GPU/显卡	gpu, nvidia, amd, h100, 4090, 5090, RTX	15 (最高)
🔵 大模型	大模型, llm, gpt, openai, claude, deepseek, moE	12
🟡 AI基础	ai, 人工智能, 模型, 训练, 推理	10
🟠 芯片/算力	算力, 芯片, 半导体, npu, 华为, 昇腾	10
🔴 自动驾驶	自动驾驶, 智驾, 特斯拉, fsd	8

排序规则

关键词热度 - 匹配热门关键词越多，分数越高
可信度等级 - A级来源 +10分，B级 +8分
内容详细度 - 摘要超过100字 +3分
关键点数量 - 有2个以上关键点 +2分

🔄 智能重试机制

当某个获取方式失败时：

失败次数	处理方式
第1-2次	继续重试（最多2次）
3次以上	自动降低该方式优先级
后续	跳过该方式，尝试其他方式

失败记录

失败记录保存在 scripts/failure_log.json：

记录每个网站每种方式的失败次数
每天自动重置
影响排序优先级

🧹 智能去重

使用标题相似度算法去除重复文章：

相似度	处理
≥0.6	视为重复，保留可信度高的
<0.6	视为不同文章

相似度检测基于：

共同关键词（中文词组、英文单词）
核心词匹配（GPT、RTX、AI等）
字符重叠率

📊 政策资讯

Skill 支持抓取政府官网的政策通知：

来源列表

来源	类别	说明
中国政府网	中央政策	国务院、部委重要政策
工信部	部委政策	工业和信息化相关
科技部	部委政策	科技创新、项目申报
网信办	部委政策	网络安全、AI监管
发改委	部委政策	项目批复、产业政策
教育部	部委政策	AI教育相关
财政部	部委政策	补贴、专项资金
国家数据局	新机构	数据、AI政策

使用方式

在获取AI资讯时，可选择是否同时获取政策资讯：

自动获取：每天定时任务会同时抓取AI资讯和政策

📈 增量抓取与数据持久化

增量抓取

首次运行：获取全部内容
后续运行：只获取新增内容
自动去重：已抓取的文章不会重复

数据保存

类型	文件	位置
AI资讯历史	`news_history.json`	`scripts/data/`
政策资讯历史	`policy_history.json`	`scripts/data/`

查询历史

# 查询最近3天的资讯
python scripts/incremental_fetch.py --days 3

# 查看统计
python scripts/incremental_fetch.py --stats

🤖 AI摘要生成（可选）

使用大模型为文章生成更好的摘要：

配置

文件：scripts/llm_config.json

{
  "config": {
    "enabled": true,
    "provider": "deepseek",  // deepseek / qwen / openai
    "deepseek": {
      "api_key": "your_api_key"
    }
  }
}

支持的模型

服务商	模型	特点
DeepSeek	deepseek-chat	便宜量大
阿里Qwen	qwen-plus	有免费额度
OpenAI	gpt-3.5-turbo	稳定性好

使用

python scripts/llm_summarizer.py

📄 自动报告生成

每天自动生成资讯报告：

支持格式

HTML报告 - 可在浏览器查看，包含样式
Markdown报告 - 便于分享和编辑
PDF报告 - 支持中文，样式整洁（新增）

输出位置

scripts/reports/
├── ai_news_20260406.html
├── ai_news_20260406.md
└── ai_news_20260406.pdf

PDF 生成

需要安装 fpdf2：

pip install fpdf2

在 pdf_config.json 中启用：

{
  "config": {
    "enabled": true,
    "output_dir": "./reports"
  }
}

生成报告

python scripts/report_generator.py

🌐 多语言翻译（预留接口）

翻译英文AI资讯为中文：

配置

文件：scripts/translator_config.json

{
  "config": {
    "enabled": true,
    "provider": "baidu"  // baidu / deep
  }
}

注意

需要配置翻译API才能使用
目前是预留接口，需要开发者自行接入

📧 邮件推送（可选）

Skill 支持将简报发送到邮箱，需要使用者自行配置。

⚠️ 重要：配置存放位置

为防止项目更新时覆盖用户配置，请按以下步骤配置：

创建配置目录（如果不存在）：
- Windows: C:\Users\你的用户名\.openclaw\config\
- macOS/Linux: ~/.openclaw/config/
复制配置模板：将 scripts/email_config.json.default 复制到上述目录，并重命名为 ai-news-email.json
填写配置：编辑 ai-news-email.json，填写你的邮箱信息

配置步骤

创建目录：~/.openclaw/config/

复制模板：

# Windows
copy scripts\email_config.json.default %USERPROFILE%\.openclaw\config\ai-news-email.json

# macOS/Linux
cp scripts/email_config.json.default ~/.openclaw/config/ai-news-email.json

编辑 ai-news-email.json，设置 smtp_config.enabled: true，填写发件人邮箱和授权码
设置 recipient_config.enabled: true，添加收件人邮箱

配置示例

{
  "smtp_config": {
    "enabled": true,
    "smtp_server": "smtp.qq.com",
    "smtp_port": 465,
    "use_ssl": true,
    "sender_email": "your_email@qq.com",
    "sender_password": "your_auth_code",
    "sender_name": "AI资讯小助手"
  },
  "recipient_config": {
    "enabled": true,
    "recipients": ["your_email@example.com"]
  }
}

支持的邮箱

邮箱	SMTP服务器	端口	授权码获取
QQ邮箱	smtp.qq.com	465	邮箱设置→账户→开启IMAP
163邮箱	smtp.163.com	465	邮箱设置→POP3/SMTP
Gmail	smtp.gmail.com	465	Google账户→安全→应用密码

测试邮件

python scripts/email_sender.py

⏰ 定时发送（手动添加）

定时任务需要在 OpenClaw 中手动添加，步骤如下：

1. 添加早间任务（每天 7:00）

openclaw cron add --name "AI资讯简报-早间版" \
  --schedule "0 7 * * *" \
  --agent main \
  --message "请运行 AI 资讯简报技能，获取昨日7点至今日7点的AI/算力/GPU/政策资讯，生成简报，并自动生成 PDF 附件发送到配置好的邮箱" \
  --delivery wechat

2. 添加午间任务（每天 14:00）

openclaw cron add --name "AI资讯简报-午间版" \
  --schedule "0 14 * * *" \
  --agent main \
  --message "请运行 AI 资讯简报技能，获取今日最新的AI/算力/GPU/政策资讯，生成简报，并自动生成 PDF 附件发送到配置好的邮箱" \
  --delivery wechat

3. 查看和管理定时任务

# 查看所有定时任务
openclaw cron list

# 删除定时任务
openclaw cron rm <任务ID>

# 立即运行定时任务（测试）
openclaw cron run <任务ID>

注意：定时任务由 OpenClaw 管理，不是 Skill 代码的一部分。如果需要修改或删除定时任务，请使用上述命令。

📁 项目结构

ai-news-brief/
├── SKILL.md                    # Skill 定义文件
├── scripts/                    # 代码文件（更新时会被覆盖）
│   ├── *.py                   # 功能代码
│   └── *.json.default         # 默认配置模板（只读，不要修改）
├── user_config/               # ⚠️ 已弃用，请使用外部配置
│   └── *.json                 # 历史配置（不再使用）
└── data/                      # 数据缓存（不会被覆盖）

# 👇 用户配置存放位置（项目外，更新时不会被覆盖）
~/.openclaw/config/
├── ai-news-email.json         # 邮件配置
├── ai-news-llm.json           # LLM API 配置
├── ai-news-pdf.json           # PDF 配置
├── ai-news-user.json          # 用户偏好
└── ai-news-sites.json         # 网站配置

⚠️ 重要：为什么配置放项目外？

项目更新时会覆盖 scripts/ 目录下的所有文件
如果配置放在项目内，更新后会被覆盖
因此，用户配置必须放在 ~/.openclaw/config/ 目录

配置流程

首次使用：从 scripts/*.json.default 复制模板到 ~/.openclaw/config/
编辑配置：填写自己的邮箱、API密钥等
后续更新：项目代码会更新，但你的配置不会受影响

方式一：自动安装（推荐）

首次使用前，可选择自动安装依赖。AI 会询问你是否安装：

我需要安装一些依赖才能运行：
- requests, beautifulsoup4, websocket-client (Python 包)

是否现在安装？请回复"是"或"安装"

方式二：手动安装

在终端运行：

pip install requests beautifulsoup4 websocket-client

环境要求

Python 3.8+
Chrome 浏览器（已安装在系统中）
Windows/macOS/Linux 均可

📋 功能说明

核心能力

Chrome 自动化抓取 - 使用 Chrome DevTools Protocol (CDP) 绕过反爬
多源资讯聚合 - 同时抓取 20+ 个科技媒体网站
智能关键词过滤 - 仅保留 AI/算力/GPU/大模型相关内容
自动摘要提取 - 从文章页面提取关键信息
来源多样化 - 国内+国外，确保资讯全面

抓取来源

国内

36kr、量子位、机器之心、虎嗅、爱范儿、极客公园
网易科技、新浪科技、搜狐科技、腾讯科技、凤凰网科技
驱动之家、超能网、中关村在线、快科技

国外

TechCrunch、The Verge、VentureBeat、HackerNews

🎯 触发方式

当用户说出以下关键词时激活：

"最新AI资讯"
"AI新闻"
"算力新闻"
"GPU资讯"
"大模型动态"
"AI简报"
"科技资讯"

📊 输出格式

标准简报

# 🤖 AI/算力/GPU 资讯简报

**查询日期**: 2026年4月6日
**数据范围**: 2026年4月5日

---

### 🔥 重点新闻

| 来源 | 标题 | 概要 |
|------|------|------|
| 36kr | 标题 | 概要... |
| 量子位 | 标题 | 概要... |

---

### 📊 来源分布

| 来源 | 数量 |
|------|------|
| 36kr | 10条 |
| 搜狐科技 | 8条 |

---

### 💡 趋势总结

1. 趋势1...
2. 趋势2...

---

🔧 工作流程

Phase 1: 启动 Chrome
  └─ 检查 Chrome 是否已运行，若无则启动
      ↓
Phase 2: 多源抓取
  └─ 依次访问20+网站，获取文章标题和链接
      ↓
Phase 3: 内容过滤
  └─ 过滤保留 AI/算力/GPU 相关内容
      ↓
Phase 4: 摘要提取
  └─ 打开每篇文章，获取内容摘要（仅处理前15条）
      ↓
Phase 5: 整理输出
  └─ 分类、去重、生成简报

⚡ 使用示例

示例1：用户查询

用户: "最新AI资讯"

AI: [自动执行以下操作]

启动/连接 Chrome
抓取各网站资讯
提取文章摘要
生成简报输出

⚠️ 注意事项

首次使用需安装依赖 - AI 会询问是否安装
首次会打开 Chrome - 首次运行时 Chrome 窗口会打开
运行时间 - 完整抓取约需 2-3 分钟
网络要求 - 需能访问国内科技网站
Chrome 保持打开 - 运行后 Chrome 会保持打开状态，便于后续快速运行

🔄 更新日志

2026-04-06 (v1.0)

初始版本
支持 Chrome 自动化抓取
支持 20+ 科技媒体来源
自动提取文章摘要
提供来源分布统计

📞 支持

如遇问题，请检查：

Python 3.8+ 已安装
Chrome 浏览器已安装
依赖包已安装（requests, beautifulsoup4, websocket-client）
网络可以访问目标网站