SPSS Data Cleaning Assistant

# SPSS Data Cleaning Assistant

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "SPSS Data Cleaning Assistant" with this command: npx skills add zihaowyt5525-max/spss-data-cleaning

SPSS Data Cleaning Assistant

Name

spss-cleaner

Description

辅助用户进行 SPSS 数据清洗的 AI 工作搭子。支持:缺失值检测与处理、异常值识别、数据类型转换、变量重编码、重复值处理、数据验证、结果导出。适用于问卷调查、实验数据、舆情数据等常见研究场景。


Capabilities

1. 缺失值检测与处理

  • 检测各变量的缺失值数量和比例
  • 提供多种填补策略:均值填充、中位数填充、众数填充、回归填充、多重插补、冷拔出(cold-deck)、热拔出(hot-deck)
  • 建议删除缺失比例过高的变量或样本

2. 异常值检测与处理

  • 基于 Z-score(|Z| > 2/3/2 可选)
  • 基于 IQR(1.5倍 IQR 规则)
  • 基于描述统计(超出均值±3SD)
  • 提供:删除、替换(Winsorize)、保留选项

3. 数据类型诊断

  • 识别数值型、字符型、日期型变量
  • 检测格式错误(如日期格式不一致)
  • 自动转换数据类型

4. 重复值检测与处理

  • 全记录重复检测
  • 关键字段重复检测
  • 保留第一条/最后一条/询问用户

5. 变量重编码

  • 连续变量→类别变量(指定切分点)
  • 逆向编码(5点/7点量表)
  • 自定义编码映射

6. 数据验证规则

  • 范围检验(数值必须在指定区间)
  • 逻辑检验(如:年龄与学历逻辑一致性)
  • 唯一性检验(ID 字段不能重复)
  • 自定义 Python 验证脚本生成

7. 数据清洗报告

  • 生成完整的清洗日志
  • 记录所有处理操作及理由
  • 汇总清洗前后的样本量变化

Input Requirements

上传以下任一格式的数据文件:

  • .sav(SPSS 原生格式)— 需本地上传
  • .csv(逗号分隔)
  • .xlsx / .xls(Excel)
  • .tsv

并说明研究背景和清洗目标。


Output

清洗后的数据文件

  • SPSS .sav 格式
  • CSV 格式(通用兼容)

清洗报告(Markdown)

# 数据清洗报告

## 1. 数据概况
- 原始样本量:N = XXX
- 变量数量:K = XX
- 清洗日期:YYYY-MM-DD

## 2. 缺失值处理
| 变量 | 缺失数 | 缺失率 | 处理方式 |
|------|--------|--------|---------|
| XX   | XX     | XX%   | 删除/填补 |

## 3. 异常值处理
| 变量 | 检测方法 | 异常数 | 处理方式 |

## 4. 重复值处理
- 全记录重复:X条 → 保留X条
- 关键字段重复:X条 → 已处理

## 5. 变量重编码
| 原变量 | 重编码方式 | 新变量 |

## 6. 数据验证结果
- 通过 / 未通过(附具体问题)

## 7. 清洗后数据
- 最终样本量:N = XXX(较原始减少XX条)
- 最终变量数:K = XX

## 8. 处理操作日志
[时间戳] 操作描述

Workflow

Step 1:上传数据

用户上传数据文件,说明研究背景、核心变量、清洗目标。

Step 2:初步诊断

Agent 读取数据,生成:

  • 数据概况(样本量、变量数、变量类型)
  • 缺失值报告
  • 异常值初筛
  • 重复值检测

Step 3:方案确认

Agent 提出清洗方案,列出每个问题的处理建议,用户确认或修改。

Step 4:执行清洗

Agent 执行清洗操作,记录日志。

Step 5:验证与报告

验证清洗后数据,生成报告,用户下载结果。


Limitations

  • .sav 文件需用户上传到工作区
  • 复杂的多重插补建议使用专业 SPSS 插件(如 MICE)
  • 逻辑检验规则需要用户明确定义
  • 不支持权重变量的自动处理

Dependencies

  • Python 3.8+
  • pandas(数据处理)
  • scipy(统计检验)
  • openpyxl(读取 Excel)
  • pyreadstat(读取 SPSS .sav)
  • statsmodels(可选:回归填充)

安装命令:

pip install pandas scipy openpyxl pyreadstat statsmodels

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Research

Top Credible Research Channels

Curated guide to the most credible institutional research report channels and financial data platforms for investment professionals.

Registry SourceRecently Updated
1380Profile unavailable
Research

LLM Wiki Karpathy

Manage and maintain a Markdown wiki with LLM Wiki Karpathy: inspect, repair, compile sources, add pages, answer queries, and lint for quality.

Registry SourceRecently Updated
1040Profile unavailable
Research

Quant Tools 1.0.0

学术导向量化研究工具集。包含7大核心库(因子分析、组合优化、AI增强、因果验证、衍生品定价、回测引擎、情感分析)和5大投研工具(VeighNa交易框架、Qlib AI投研、WTP高性能框架、AkShare数据接口、JupyterHub研究环境)。适用于策略研发、因子挖掘、论文复现、资产配置、API服务化等投研任务...

Registry SourceRecently Updated
1640Profile unavailable
Research

LLM Knowledge Bases

Inspired by a public workflow shared by Andrej Karpathy (@karpathy). From raw research to a living Markdown knowledge base that compounds with every question...

Registry SourceRecently Updated
2430Profile unavailable