什么是西储大学数据集

西储大学数据集(Wine Quality Dataset)是一个广泛用于机器学习和数据分析的开放数据集之一。该数据集是由西储大学(Case Western Reserve University)的一位研究者提供的。

该数据集包含了红葡萄酒和白葡萄酒的化学特征信息以及相应的质量评分。这些化学特征包括酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精含量等。

数据集中的每个样本都有一个质量评分,评分范围从0到10。质量评分是基于专家品酒师对葡萄酒的感官评价而得出的。

这个数据集被广泛用于葡萄酒品质预测的机器学习任务。研究人员和数据科学家可以使用这个数据集来构建模型、预测葡萄酒的质量,或者进行特征分析和数据可视化。

需要注意的是,西储大学数据集存在两个版本,分别是红葡萄酒数据集和白葡萄酒数据集。这两个数据集在特征和样本数量上略有不同,但都可以用于类似的任务和分析。