(机器学习/统计)留出集:从原始数据中预先划分并保留的一部分数据,在训练模型时不参与训练,用于评估模型在未见数据上的表现(常用于验证或测试)。有时也泛指“held-out data”。
/ˈhoʊlˌdaʊt sɛt/
We reserved 20% of the data as a holdout set.
我们把 20% 的数据留作留出集。
After tuning hyperparameters on the validation data, we reported final accuracy on a separate holdout set to avoid optimistic bias.
在验证数据上调参后,我们在一个独立的留出集上报告最终准确率,以避免过于乐观的偏差。
holdout 原意是“保留、不交出”或“坚持不让步的人/事物”,由 hold(握住、保持)+ out(在外、拒绝让出)构成;在数据科学语境中引申为“把一部分数据留在外面(不用于训练)”。set 表示“集合/一组”,因此 holdout set 即“被保留在外的一组数据”。