Google AI 发布 TabFM:零样本表格分类与回归的基础模型,无需训练即可预测
Google Research 推出 TabFM,一个针对表格数据的基础模型,通过上下文学习实现零样本分类和回归。无需每数据集训练、超参数调优或特征工程,单次前向传播即可预测。已开源在 Hugging Face 和 GitHub,即将集成 BigQuery。
一句话看懂
Google 发布 TabFM,一个表格基础模型,能在未见过的表格上直接做分类和回归,无需任何训练或调参。
详细发生了什么
Google Research 正式发布了 TabFM,一个专门为表格数据设计的基础模型。它通过上下文学习(in-context learning)完成分类和回归任务,每次预测只需一次前向传播,无需针对每个数据集进行训练、超参数调优或特征工程。
TabFM 的核心思路是将表格预测重新定义为上下文学习问题。它把整个数据集(包括训练样本和待预测样本)作为一个统一的 prompt 输入模型,模型在推理时自动理解行列关系并输出预测。架构上,TabFM 融合了 TabPFN 的行列交替注意力和 TabICL 的上下文学习机制,通过行压缩和专用 Transformer 高效处理大规模表格。
训练数据方面,TabFM 完全使用数亿个由结构因果模型(SCM)动态生成的合成数据集。研究团队报告,模型在未见过的真实数据上泛化良好。在 TabArena 基准上,TabFM 在 38 个分类和 13 个回归数据集上持续优于经过精细调优的传统监督算法(如 XGBoost)。
TabFM 已开源在 Hugging Face 和 GitHub,支持 CPU 和 GPU 运行。Google 还计划通过 BigQuery 的 AI.PREDICT SQL 命令暴露 TabFM 功能。
中文圈视角
TabFM 对中文用户意味着什么?首先,它直接降低了表格数据建模的门槛。国内大量中小企业缺乏专业数据科学家,传统上需要数小时的特征工程和调参才能用 XGBoost 跑出一个模型,现在 TabFM 一行代码就能出结果。
但需要注意:TabFM 目前是英文模型,对中文列名和分类标签的支持可能有限。国内用户可能需要预处理数据(如将中文列名翻译为英文)。另外,模型权重托管在 Hugging Face,国内访问可能需要代理或镜像。
国产替代方面,目前国内没有直接对标 TabFM 的零样本表格模型。类似产品如阿里云的 PAI、百度的 BML 主要提供 AutoML 服务,仍需少量训练数据。TabFM 的零样本能力在快速原型验证场景有独特优势,但生产环境下的稳定性和可解释性还需观察。
一个值得关注的盲点:TabFM 的训练数据全部来自合成数据,虽然泛化性不错,但在金融、医疗等对数据分布敏感的领域,合成数据与真实数据的偏差可能导致风险。国内用户若用于信贷评分等场景,需谨慎验证。
几条值得记住的细节
- TabFM 无需每数据集训练、超参数调优或特征工程,单次前向传播即可预测。
- 架构融合 TabPFN 的行列交替注意力和 TabICL 的上下文学习,通过行压缩降低计算成本。
- 训练使用数亿个由结构因果模型生成的合成数据集,在 TabArena 基准上优于 XGBoost 等传统算法。
- 已开源在 Hugging Face 和 GitHub,支持 Python 3.11+,CPU 和 GPU 均可运行。
- Google 计划通过 BigQuery 的 AI.PREDICT SQL 命令集成 TabFM,方便企业用户直接查询。
一句话总结
TabFM 让表格预测像调用 API 一样简单,零样本、零调参,但国内用户需注意数据预处理和网络访问限制。