数据类

翻完近几个赛季的对阵记录，一些容易被忽略的规律开始浮现。在足球预测中，预测目标通常为类别型数据，如胜、平、负，且历史类别已知。通过对大量历史样本的统计分析，我们可以发现不同条件下各类别的出现概率，从而为预测提供依据。以下从多个维度展开数据分析。

历史交锋数据中的类别分布规律

基于近5个赛季的20次交锋样本，主队获胜11次（55%），客队获胜5次（25%），平局4次（20%）。这一分布显示主队在历史交锋中占据明显优势，类别倾向于主胜。

在连续交锋中，平局出现的平均间隔为4.2场，而主胜最长连续出现次数为5场。类别稳定性不高，但主胜的延续性较强，可作为预测参考。

样本统计显示，主队主场胜率为62%，客队客场胜率仅28%，平局占比10%。主客场差异对类别预测具有显著影响，主场类别偏向胜，客场类别偏向负或平。

主队主场场均净胜球为+0.8，客队客场场均净胜球为-0.5。净胜球的区间分布与类别决策边界高度相关，主队净胜球>0时胜率高达78%。

平均预期进球（xG）为1.4时，实际胜出的概率为60%；xG低于1.0时，负率升至45%。预期进球作为连续变量可有效映射到类别预测。

射正次数每增加2次，获胜概率提升约15%。当射正比大于1.5时，样本中胜率高达72%，平局和负局分别占15%和13%。

对近10场主队的胜率进行滚动计算，发现胜率在40%-70%之间波动，类别预测的置信区间随样本量增大而收窄。当胜率高于55%时，未来一场主胜概率提升至63%。

主队处于连胜状态时，下一场胜率提升至68%；连败时胜率降至35%。状态序列对类别预测有显著滞后影响，样本量为30时统计显著。

主客队xG差值大于0.5时，主胜概率达到70%；差值在-0.2至0.2之间时，平局概率升至35%。xG差值是分类预测的强特征。

控球率超过55%且xG高于1.5时，主胜概率高达82%。控球率单独作为类别预测因子的准确率约60%，与xG结合后提升至75%。

当历史交锋样本少于10场时，胜率波动标准差超过15%，类别预测的可靠性下降。建议使用不少于20场样本以保证统计效力。

5年前的交锋数据对当前类别预测的相关系数仅为0.2，而最近2个赛季的数据相关系数为0.6。历史数据存在时间衰减效应，需加权处理。

在足球预测中，类别型预测数据指比赛结果（胜、平、负）这一类离散值，且历史类别已知，通常用于分类模型训练。

建议至少20场以确保统计稳定性，少于10场时偏差较大，不宜直接用于类别预测。

主客场差异是重要因素，主场胜率通常比客场高20-30个百分点，因此需在模型中加入主客场权重。

数据来源：ky.cn 历史数据库