2025年6月R CRAN新包精选40款:AI与数据工具领衔

Feedburner

2025年6月,CRAN(综合R归档网络)新增了123个软件包。从中精选出40个值得关注的软件包,涵盖21个不同类别,包括AI、国际象棋、计算方法、数据、决策分析、生态学、流行病学、金融、基因组学、语言学、机器学习、数学、医学统计、音乐理论、网络、编程、统计学、时间序列、实用工具和可视化。

AI

  • statlingua v0.1.0: 旨在使用大型语言模型(LLM)将复杂的统计结果转化为清晰、上下文感知的自然语言描述。它集成了OpenAI、Google AI Studio和Anthropic等流行的LLM提供商。

  • vitals v0.1.0: 提供了Inspect的R语言版本,Inspect是一个广泛采用的用于评估大型语言模型的Python框架。此包支持提示工程、工具使用、多轮对话和模型评级的评估,专为ellmer用户评估其基于LLM的产品而设计。

国际象棋

  • chess2plyrs v0.3.0: 实现了一个基于Minimax国际象棋引擎的国际象棋程序,允许用户创建游戏并管理FEN(Forsyth-Edwards Notation)数据。

计算方法

  • tvdenoising v1.0.0: 实现了总变分去噪,这是一种用分段常数函数近似噪声数据序列的方法,这些函数具有自适应选择的断点(Johnson, 2013)。

  • wideRhino v1.0.2: 提供函数,用于使用广义奇异值分解构建典型变量分析双标图。当样本数量小于变量数量时,这尤其有用(Gower et al., 2011; Edelman & Wang, 2020)。

数据

  • avilistr v0.0.1: 提供方便的全球鸟类清单AviList的访问,这是一个统一的全球鸟类分类法,协调了主要鸟类学清单(国际鸟类学委员会、Clements和BirdLife)之间的差异。

  • ecoteach v0.1.0: 收集了用于生态学和农业概念教学的精选教育数据集。它包括来自已发表的野生动物监测、植物处理和生态观测科学研究的文档化数据。

  • jpinfect v0.1.2: 提供函数,用于从日本健康安全研究所下载和后处理传染病病例数据。

  • LBDiscover v0.1.0: 一套用于生物医学研究中基于文献发现的工具。它包括从PubMed和其他NCBI数据库检索科学文章、提取生物医学实体、构建共现网络以及应用各种发现模型的函数。

  • Rdatasets v0.0.1: 提供函数,用于搜索、下载和查看Rdatasets存档中包含的R包的数千个数据集的文档,这些数据集提供CSV和Parquet格式。

决策分析

  • RMCDA v0.3: 实现了多种支持多准则决策(MCDM)的方法,包括AHP、TOPSIS、PROMETHEE、VIKOR、分层MCDM和分层最佳-最差方法(Najafi & Mirzaei, 2025)。

生态学

  • climodr v1.0.0: 提供工具,用于使用气候站数据自动化预测气候映射工作流程,并创建可重现的气候模型(Meyer, 2019; Meyer, 2022)。

  • movedesign v0.3.1: 提供了一个工具箱和Shiny应用程序,以协助研究人员设计运动生态学研究。它侧重于估算动物活动范围面积和精细尺度运动行为,如速度和行进距离(Silva et al., 2023)。

流行病学

  • infectiousR v0.1.0: 提供函数,用于访问disease.sh API的实时传染病数据,包括全球COVID-19数据、疫苗接种覆盖率以及CDC的流感样疾病数据。它还包括各种传染病的精选数据集。

  • rifttable v0.7.1: 自动化生成可重现的、可用于演示的流行病学表格。用户可以指定表格设计,其中行和列由暴露、效应修正因子和估计量定义(Rothman, 2017)。

金融

  • fEGarch v1.01: 提供函数,用于实现和拟合广泛的指数广义自回归条件异方差(EGARCH)模型家族中的各种短记忆和长记忆模型,包括MEGARCH、FIEGARCH和FIMLog-GARCH。

基因组学

  • multiDEGGs 1.0.0: 提供函数,用于执行多组学差异网络分析,识别跨所提供组学数据集(基因、蛋白质、转录因子)的分子实体之间的差异相互作用(Sciacca et al., 2023)。它为每个数据集构建差异网络的综合可视化。

  • rsynthbio v2.0.0: 实现了Synthesize Bio API的包装器,使用户能够根据指定的生物条件生成真实的基因表达数据。研究人员可以访问各种模式的AI生成转录组数据,包括批量RNA-seq、单细胞RNA-seq和微阵列数据。

语言学

  • tidynorm v0.3.0: 实现了整洁的说话人元音归一化,提供了用于定义点、格式轨迹和离散余弦变换系数的新归一化方法的通用函数,以及用于现有方法的便利函数(Johnson, 2020; Lobanov, 1971; Watt & Fabricius, 2002)。

机器学习

  • midr v0.5.0: 实现了最大解释分解,这是一种函数分解技术,通过创建全局可解释的替代模型,为解释黑盒预测模型提供了一种模型无关的方法(Asashiba et al., 2025)。

数学

  • polarzonoid v0.1-2: 实现了极带体的应用,它是3D中极带形体(polar zonohedron)的推广,并包括一个三角多项式的根求解器。

医学统计

  • bbssr v1.0.2: 为具有二元终点的两臂临床试验中盲法样本量再估计提供了全面的工具,允许自适应样本量调整,同时保持统计完整性和研究盲法。它实现了五种精确统计检验:Pearson卡方检验、Fisher精确检验、Fisher中位p值检验、Z-pooled精确无条件检验和Boschloo精确无条件检验(Mehrotra et al., 2003; Kieser, 2020)。

  • causens v0.0.3: 实现了因果敏感性分析方法,用于在处理观测数据时调整潜在的未测量混杂因素。方法包括Brumback et al. (2004)、Li et al. (2011)开发的方法,以及McCandless et al. (2017)的贝叶斯和蒙特卡洛方法。

  • door v0.0.2: 提供函数,用于基于以患者为中心的收益-风险评估来设计、分析和解释临床试验及其他研究(Hamasaki & Evans, 2025)。

音乐理论

  • musicMCT v0.2.0: 提供函数,用于使用调式色彩理论分析音阶(Sherrill, 2025),处理Callender et al. (2008)的传统音乐音高理论和连续几何,并识别音阶的结构特性。

网络

  • INetTool v0.1.1: 实现了将复杂系统建模为共识网络的方法,其中节点代表统计单元或观测变量,边代表单元之间的距离度量或相关性(Policastro et al., 2024)。

编程

  • putior v0.1.0: 提供工具,用于从R和Python源文件中提取和处理结构化注释,以促进工作流可视化。它扫描文件以查找定义数据处理工作流中节点、连接和元数据的注释,生成跨多语言软件环境的数据流可视化表示(Knuth, 1984)。

  • quickr v0.1.0: 提供带有类型和形状声明的编译R函数,以实现快速性能和强大的运行时类型检查。它通过将R代码降级到FORTRAN来支持即时(JIT)和预先(AOT)编译。

统计学

  • aamatch v0.3.7: 实现了使用倾向得分、近乎精确匹配、近乎精细平衡和鲁棒马氏距离匹配的简化版多变量匹配(Rosenbaum, 2020)。

  • bayesmsm v1.0.0: 实现了贝叶斯边际结构模型,用于估计随时间变化的治疗和混杂因素的因果效应,包括对信息性右删失的扩展(Saarela, 2015)。

  • BCD v0.1.1: 实现了基于条件规范的双变量二项式、几何和泊松分布。它包括用于这三种分布家族的数据生成和拟合优度检验的工具(Ghosh et al., 2025; Ghosh et al., 2023; Ghosh et al., 202?)。

  • lognGPD v0.1.0: 提供函数,用于通过期望最大化算法估计对数正态-广义帕累托混合模型,以及用于随机数模拟和密度评估的函数(Bee & Santi, 2025)。

  • QuantilePeer v0.0.1: 提供函数,用于模拟和估计同伴效应模型,包括基于分位数规范(Houndetoungan, 2025)和基于恒定替代弹性(CES)社会规范的模型(Boucher et al., 2024)。

  • riskdiff v0.2.1: 提供函数,用于使用广义线性模型和自动链接函数选择来计算风险差异(或横截面数据的患病率差异)(Austin, 2011; Donoghoe & Marschner, 2018)。

  • survextrap v1.0: 提供函数,用于使用贝叶斯模型对个体水平右删失数据进行生存分析。危险函数使用M-样条建模,并且可以自定义先验分布。后验分布使用Stan估计(Jackson, 2023)。

  • unsum v0.2.0: 重构可能导致报告汇总统计数据的所有原始数据,为CLOSURE算法的Rust实现提供了一个包装器。

时间序列

  • gseries v3.0.2: 提供函数,用于使用Dagum & Cholette (2006)描述的方法改进时间序列数据的一致性。

实用工具

  • blocking v1.0.1: 提供用于记录链接和去重阻塞方法,使用近似最近邻算法。它包括从字符串生成瓦片(shingles)、用于记录比较的相似性向量以及评估阻塞性能的评估指标的函数(Papadakis et al., 2020; Steorts et al., 2014; Dasylva and Goussanou, 2021; Dasylva and Goussanou, 2022)。

  • flir v0.5.0: 提供函数,用于识别和纠正R代码中的“lints”(低效代码模式)。

可视化

  • fractalforest v1.0.1: 提供函数,用于基于Lindenmayer系统(L-system)创建和可视化分形树和分形森林(Lindenmayer, 1968a; Lindenmayer, 1968b)。

  • ggtime v0.1.0: 扩展了ggplot2,实现了时间图形语法和辅助函数,用于可视化时间序列图形、时间图、季节图和季节子序列图中的时间模式。