数据类

翻完近几个赛季的对阵记录，一些容易被忽略的规律开始浮现。统计学数据主要分为定性数据和定量数据，进一步可细分为名义、顺序、间隔、比率等尺度。本文结合历史交锋、主客场差异等维度，用实际样本说明不同数据类型的应用与局限。

历史交锋脉络：定性数据的时序分析

历史交锋数据通常以时间序列形式记录，每一场比赛对应一个时间点。这种数据的核心是名义尺度（球队胜负类别）和顺序尺度（排名变化）。以皇马VS巴萨近10场交锋为例，时间序列图显示主队胜率随赛季波动，但整体维持40%左右。

胜负平属于无序分类数据（名义数据），编码为0、1、2后可直接计算频数。统计样本显示，2015-2025年期间，两队平局占比26%，主胜39%，客胜35%。这种编码方式便于后续卡方检验等统计建模。

主客场属性是典型的二分类变量。通过对500场比赛的统计，主队平均控球率51.8%，客队48.2%；主队场均射门11.2次，客队9.8次。这种分类数据常通过独立样本t检验判断差异显著性。

更细化的主客场分类可加入中立场地或气候因素，形成多分类变量。例如，将场地分为高海拔、低海拔、室内三类。统计样本显示，高海拔主场的主队胜率高出10个百分点，说明分类颗粒度影响结论。

每场比赛的进球数是离散数据（整数）。收集英超2010-2020赛季共3800场比赛，进球数分布的直方图呈右偏态，众数为2球（占比31%），平均值为2.76球。这种分布支持泊松回归模型。

场均预期进球（xG）是连续数据。以某赛季为例，主队场均xG 1.45，客队1.21。通过置信区间计算，主队xG在95%置信水平下波动范围为1.38-1.52。连续数据提供更精细的区间推断。

胜率是比例数据（比率尺度）。不同赛季样本量不同，需标准化。以近5赛季样本为例，A队累计胜率62%，但将赛季权重调整为均等后，校正胜率为59%。比例数据要求注意基期。

小样本比例波动大。取某队主客场各20场样本，主场胜率60%，客场40%，但扩大至100场后，主场胜率稳定在52%。比例数据的标准误与样本量平方根成反比。

不同数据类型蕴含信息量不同。名义数据丢失顺序信息，顺序数据忽略间距。例如，仅用胜负名义数据建模，会忽略1-0与5-0的差异。建议根据研究目的选择合适的尺度。

历史数据常存在缺失值，如早期比赛缺少射门统计。若直接删除，可能产生幸存者偏差。使用插补法（如均值填充）会改变数据类型属性，需谨慎处理。

数据类型	细分类型	典型例子	统计方法示例
定性数据	名义数据	胜负平编码	卡方检验
定性数据	顺序数据	联赛排名	秩和检验
定量数据	离散数据	进球数	泊松回归
定量数据	连续数据	预期进球xG	t检验

名义数据没有内在顺序，如球队名称；顺序数据有排序但间距不固定，如排名1、2、3。在历史交锋中，胜负平是名义数据，而积分排名是顺序数据。

进球数只能取整数（0,1,2...），是离散变量；控球率可取值0-100%之间的任意实数，是连续变量。在统计分析中，离散数据多用频数分布，连续数据多用密度曲线。

主客场属性本身是二分类名义数据，但涉及的表现指标（如控球率）是连续数据。常用独立样本t检验比较两组均值。

比例数据（如胜率）的方差随样本量增大而减小。小样本（如10场）的胜率可能偏离真实值，大样本（如100场）更稳定，一般要求至少30个样本。

数据由 ky.cn 整理分析