Google AI 发布 TabFM：零样本表格分类与回归的基础模型，无需训练即可预测

一句话看懂

Google 发布 TabFM，一个表格基础模型，能在未见过的表格上直接做分类和回归，无需任何训练或调参。

详细发生了什么

Google Research 正式发布了 TabFM，一个专门为表格数据设计的基础模型。它通过上下文学习（in-context learning）完成分类和回归任务，每次预测只需一次前向传播，无需针对每个数据集进行训练、超参数调优或特征工程。

TabFM 的核心思路是将表格预测重新定义为上下文学习问题。它把整个数据集（包括训练样本和待预测样本）作为一个统一的 prompt 输入模型，模型在推理时自动理解行列关系并输出预测。架构上，TabFM 融合了 TabPFN 的行列交替注意力和 TabICL 的上下文学习机制，通过行压缩和专用 Transformer 高效处理大规模表格。

训练数据方面，TabFM 完全使用数亿个由结构因果模型（SCM）动态生成的合成数据集。研究团队报告，模型在未见过的真实数据上泛化良好。在 TabArena 基准上，TabFM 在 38 个分类和 13 个回归数据集上持续优于经过精细调优的传统监督算法（如 XGBoost）。

TabFM 已开源在 Hugging Face 和 GitHub，支持 CPU 和 GPU 运行。Google 还计划通过 BigQuery 的 AI.PREDICT SQL 命令暴露 TabFM 功能。

中文圈视角

TabFM 对中文用户意味着什么？首先，它直接降低了表格数据建模的门槛。国内大量中小企业缺乏专业数据科学家，传统上需要数小时的特征工程和调参才能用 XGBoost 跑出一个模型，现在 TabFM 一行代码就能出结果。

但需要注意：TabFM 目前是英文模型，对中文列名和分类标签的支持可能有限。国内用户可能需要预处理数据（如将中文列名翻译为英文）。另外，模型权重托管在 Hugging Face，国内访问可能需要代理或镜像。

国产替代方面，目前国内没有直接对标 TabFM 的零样本表格模型。类似产品如阿里云的 PAI、百度的 BML 主要提供 AutoML 服务，仍需少量训练数据。TabFM 的零样本能力在快速原型验证场景有独特优势，但生产环境下的稳定性和可解释性还需观察。

一个值得关注的盲点：TabFM 的训练数据全部来自合成数据，虽然泛化性不错，但在金融、医疗等对数据分布敏感的领域，合成数据与真实数据的偏差可能导致风险。国内用户若用于信贷评分等场景，需谨慎验证。

几条值得记住的细节

TabFM 无需每数据集训练、超参数调优或特征工程，单次前向传播即可预测。
架构融合 TabPFN 的行列交替注意力和 TabICL 的上下文学习，通过行压缩降低计算成本。
训练使用数亿个由结构因果模型生成的合成数据集，在 TabArena 基准上优于 XGBoost 等传统算法。
已开源在 Hugging Face 和 GitHub，支持 Python 3.11+，CPU 和 GPU 均可运行。
Google 计划通过 BigQuery 的 AI.PREDICT SQL 命令集成 TabFM，方便企业用户直接查询。

一句话总结

TabFM 让表格预测像调用 API 一样简单，零样本、零调参，但国内用户需注意数据预处理和网络访问限制。