机器学习工具箱:scikit-learn

scikit-learn是一个开源机器学习库,建立在NumPy、SciPy和Matplotlib上。scikit-learn为用户提供了葛总机器学习算法的接口,可以让用户简单高效的进行数据挖掘和数据分析。

安装scikit-learn直接使用pip就可以完成,但是最新版的scikit-learn要求运行在Python 3.5及以上版本上。

scikit-learn主要能够完成以下六大功能:

  • 分类,识别物体所属类别。
  • 回归,根据物体的连续值特性进行预测。
  • 聚类,自动归类相似的物体。
  • 降维,减少需求的随机变量。
  • 模型选型,针对机器学习模型设计进行对比、验证和参数选择。
  • 预处理,提取特征和正则化数据。

分类算法、回归算法、聚类算法、降维算法在scikit-learn中都是已经完全定义好的现成模型,所以在使用起来并不困难。在日常使用中一定要牢记,scikit-learn是一个内置了众多算法模型的机器学习库,相比Keras、PyTorch、TensorFlow等更加实用,实现也更加低级,使用CPU运算的效率也更高。在不需要进行复杂模型构建的数据分析用途下,采用scikit-learn将会更加有效率。

本章将主要以使用scikit-learn进行模型超参数调整和模型评估为主进行介绍。