保姆级教程：用R语言自动化处理FAERS季度数据（从文件合并到删除废弃Case）

张

张建站

2026/6/27 23:10:26

10分钟阅读

保姆级教程用R语言自动化处理FAERS季度数据从文件合并到删除废弃Case在药物安全监测领域FAERSFDA不良事件报告系统数据是研究人员不可或缺的宝贵资源。然而面对分散存储的季度数据文件如何高效地进行预处理往往成为数据分析师的第一道门槛。本文将手把手教你用R语言构建一个健壮的自动化处理流程特别适合那些刚接触FAERS数据或需要优化现有工作流的R用户。1. 环境准备与项目架构在开始编码前合理的项目结构能避免后续90%的路径问题。建议采用以下目录布局FAERS_Project/ ├── raw_data/ # 存放原始季度数据 │ ├── 2021Q1/ │ ├── 2021Q2/ │ └── ... ├── merged_data/ # 合并后的文件 ├── cleaned_data/ # 清洗后的输出 └── scripts/ # R脚本关键R包准备install.packages(c(tidyverse, fs, purrr, readr, stringr))提示使用fs包处理文件路径能自动适配不同操作系统Windows/macOS/Linux比基础R函数更可靠2. 智能合并多季度数据2.1 动态文件路径处理使用fs::path()创建跨平台兼容的路径配合here::here()实现项目根目录定位library(fs) library(purrr) # 动态获取项目根目录 project_root - path_home()/FAERS_Project # 根据实际情况调整 # 定义关键路径 raw_dir - path(project_root, raw_data) merged_dir - path(project_root, merged_data) dir_create(merged_dir) # 自动创建不存在的目录2.2 多文件类型并行处理FAERS包含7种核心文件类型我们可以用函数式编程实现优雅的批量处理file_types - c(DEMO, DRUG, REAC, OUTC, RPSR, THER, INDI) merge_files - function(file_type) { # 使用正则表达式匹配目标文件不区分大小写 target_files - dir_ls( raw_dir, regexp sprintf((?i)^%s.*\\.txt$, file_type), recurse TRUE, type file ) if (length(target_files) 0) { message(sprintf(警告未找到%s类型文件, file_type)) return(NULL) } # 并行读取并合并大文件建议使用data.table::fread merged_data - map_dfr(target_files, ~read_tsv(.x, show_col_types FALSE)) # 保存合并结果 output_path - path(merged_dir, sprintf(Merged_%s.tsv, file_type)) write_tsv(merged_data, output_path) return(nrow(merged_data)) } # 执行合并并打印结果 results - map(file_types, safely(merge_files)) walk2(file_types, results, ~cat(.x, 合并完成记录数, .y$result, \n))性能优化技巧对于超过1GB的大文件替换readr::read_tsv()为data.table::fread()使用future::plan()开启多核并行处理3. 精准删除废弃Case3.1 删除逻辑深度解析FAERS从2019Q1开始引入Delete文件其核心机制是每个季度文件夹包含Delete.txt文件文件内列明需要删除的caseid这些case可能因数据质量问题被FDA撤回3.2 健壮的删除实现library(stringr) # 收集所有Delete文件中的caseid delete_files - dir_ls( raw_dir, regexp (?i)delete.*\\.txt$, recurse TRUE, type file ) extract_caseids - function(file) { read_lines(file) %% str_subset(^\\d$) %% # 只保留纯数字行 str_trim() } deleted_ids - map(delete_files, extract_caseids) %% reduce(union) %% unique() cat(待删除Case总数, length(deleted_ids), \n) # 保存删除ID清单便于审计 write_tsv( tibble(caseid deleted_ids), path(merged_dir, Deleted_Caseids_Audit.tsv) )3.3 安全删除流程采用事务处理模式确保操作可回滚clean_data - function(file_type) { input_file - path(merged_dir, sprintf(Merged_%s.tsv, file_type)) if (!file_exists(input_file)) return(NULL) original_data - read_tsv(input_file, show_col_types FALSE) if (!caseid %in% names(original_data)) { message(sprintf(%s文件缺少caseid字段, file_type)) return(NULL) } # 执行删除保留未出现在删除列表的记录 cleaned - anti_join(original_data, tibble(caseid deleted_ids), by caseid) # 写入新文件添加_cleaned后缀 output_file - path(project_root, cleaned_data, sprintf(%s_cleaned.tsv, file_type)) write_tsv(cleaned, output_file) return(tibble( file_type file_type, original_rows nrow(original_data), remaining_rows nrow(cleaned), deleted original_rows - remaining_rows )) } # 执行清洗并生成报告 cleaning_report - map_dfr(file_types, safely(clean_data)) %% filter(!map_lgl(result, is.null)) %% pull(result) %% bind_rows() print(cleaning_report)4. 错误处理与日志记录4.1 健壮性增强方案with_error_logging - function(expr, context ) { tryCatch( expr, error function(e) { timestamp - format(Sys.time(), %Y-%m-%d %H:%M:%S) msg - sprintf([%s] Error in %s: %s\n, timestamp, context, e$message) cat(msg, file faers_processing.log, append TRUE) NULL }, warning function(w) { timestamp - format(Sys.time(), %Y-%m-%d %H:%M:%S) msg - sprintf([%s] Warning in %s: %s\n, timestamp, context, w$message) cat(msg, file faers_processing.log, append TRUE) invokeRestart(muffleWarning) } ) } # 使用示例 with_error_logging({ merge_files(DEMO) }, context DEMO文件合并)4.2 内存管理技巧处理大型FAERS数据集时内存管理至关重要# 分块处理大文件示例 process_large_file - function(input_path, chunk_size 1e6) { con - file(input_path, open r) on.exit(close(con)) # 读取列名 header - readLines(con, n 1) %% str_split(\t) %% pluck(1) # 分块处理 results - list() while (length(chunk - readLines(con, n chunk_size)) 0) { df - chunk %% paste(collapse \n) %% read_tsv(col_names header, show_col_types FALSE) # 在此处添加处理逻辑 processed - df %% filter(...) results - append(results, list(processed)) rm(df, processed); gc() } bind_rows(results) }5. 自动化脚本整合将上述模块整合为可复用的R脚本#!/usr/bin/env Rscript # faers_processor.R suppressPackageStartupMessages({ library(tidyverse) library(fs) library(purrr) }) main - function(raw_data_path raw_data) { # 初始化环境 project_root - dir_create(unique(dirname(dir_ls(raw_data_path, recurse TRUE)))) merged_dir - dir_create(path(project_root, merged_data)) cleaned_dir - dir_create(path(project_root, cleaned_data)) # 执行合并 message(开始合并FAERS季度文件...) merge_results - safely_merge_all(raw_data_path, merged_dir) # 执行清洗 message(\n开始删除废弃Case...) cleaning_results - safely_clean_all(merged_dir, cleaned_dir) # 生成报告 generate_report(merge_results, cleaning_results) } # 实际函数实现参考前文示例... # 添加命令行支持 if (!interactive()) { args - commandArgs(trailingOnly TRUE) main(args[1] %||% raw_data) }使用方式Rscript faers_processor.R /path/to/your/faers_data

零基础玩转GLM-4-9B-Chat-1M：手把手教你用vLLM快速部署智能助手

零基础玩转GLM-4-9B-Chat-1M：手把手教你用vLLM快速部署智能助手想体验一个能记住超长对话、支持26种语言、还能调用工具的开源大模型吗？今天，我们就来一起部署GLM-4-9B-Chat-1M，这个模型最厉害的地方是支持1M上下文长度&#xf…...

2026/5/8 15:52:12 阅读更多 →

MogFace-large多场景应用：直播美颜预处理、AI考勤系统集成案例

MogFace-large多场景应用：直播美颜预处理、AI考勤系统集成案例 1. 引言你有没有遇到过这样的场景？在直播时，美颜滤镜总是识别不准你的脸，导致效果时好时坏；或者公司用的人脸考勤机，在光线稍暗或角度偏一…...

2026/5/8 15:52:13 阅读更多 →

告别网络调试助手：手把手教你用STM32+FreeRTOS+LWIP实现一个简易TCP回显服务器/客户端

STM32FreeRTOSLWIP实战：从零构建TCP双向通信系统在嵌入式网络开发中，验证协议栈的稳定性和功能性往往是最令人头疼的环节。很多开发者习惯依赖网络调试助手这类外部工具，但真正的工程实践需要系统具备自检能力。本文将带你用STM32CubeMX配置…...

2026/6/12 1:08:51 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/27 11:13:53 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/26 6:36:21 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/26 6:27:25 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/26 6:36:19 阅读更多 →