scikit-learn开篇

引言:

scikit-learn(sklearn)是机器学习中经典的专用库,涵盖了几乎所有主流机器学习算法,包括分类(Classfication)、聚类(Clustering)、回归(Regression)、降维(Dimensionality Reduction)等,还包括了特征提取,数据处理和模型评估者三大模块。 scikit-learn支持跨平台,功能强大。该项目于2007年作为Google的Code of Code夏季项目,并于2010年2月1日进行了首次公开发布。此后,经过约3个月的时间,在国际市场蓬勃发展,出现了多个繁荣的社区版本。 sklearn官方提供的文档 https://scikit-learn.org/stable/preface.html,其内容全面、简单易懂,使得初学者能够快速上手使用。

2019年@那伊抹微笑@片刻@mahaoyang等人已翻译过scikit-learn0.21.3,但如今scikit-learn0.22.1版本中的许多函数和内容已经有所更新,因此有必要对该官方文档再进行一次翻译。翻译过程中难免有所疏漏,如发现错误,希望大家指出,谢谢支持。

目录

第一章 scikit-learn 简介与安装

1.1 欢迎来到 scikit-learn

1.2 安装 scikit-learn

1.3 特定平台上安装sklearn的Cython扩展的说明

1.4 常见问题

第二章 scikit-learn 指南

2.1 scikit-learn 机器学习简介

2.2 科学数据处理统计学习指南

  • 统计学习:scikit-learn 中的设置与估计器对象
  • 监督学习:从高维数据中预测输出变量
  • 模型选择:选择估计器及其参数
  • 无监督学习:寻求数据的表示形式
  • 把所有的东西集中在一起
  • 寻求帮助

2.3 处理文本数据

2.4 选择合适的估计器

2.5 外部资源,视频和讲座

第三章 用户指南

3.1 监督学习

  • 线性模型

  • 线性和二次判别分析

  • 核岭回归

  • 支持向量机

  • 随机梯度下降法

  • 最近邻

  • 高斯过程

  • 交叉分解

  • 朴素贝叶斯

  • 决策树

  • 集成方法

  • 多类和多标签算法

  • 特征选择

  • 半监督学习

  • 等式回归

  • 概率校准

  • 神经网络模型(有监督)

3.2 无监督学习

  • 高斯混合模型

  • 流形学习

  • 聚类

  • 双聚集

  • 分解成分中的信号(矩阵分解问题)

  • 协方差估计

  • 新奇和异常点检测

  • 密度估计

  • 神经网络模型(无监督)

3.3 模型选择与评价

  • 交叉验证:评估估计器性能

  • t调整估计器的超参数

  • 指标和评分:量化预测的质量

  • 模型持久化

  • 验证曲线:绘制分数以评估模型

3.4 检查

  • 部分相关图

  • 排列特征的重要性

3.5 可视化效果

  • 可用的绘图工具

3.6 数据集转换

  • 管道和复合估计器

  • 特征提取

  • 数据预处理

  • 缺失值的估算

  • 无监督降维

  • 随机投影

  • 核近似

  • 成对度量、仿射和核

  • 转换预测目标(y)

3.7 数据集加载实用程序

  • 通用数据集API

  • Toy 数据集

  • 真实世界中的数据集

  • 生成的数据集

  • 加载其他数据集

3.8 使用scikit learn进行计算

  • 计算扩展策略:大数据

  • 计算性能

  • 并行性、资源管理和配置

第四章 通用术语和API元素词汇表

第五章 示例

第六章 API参考

第七章 开发人员指南

人工智能电子书下载

书单包括:《Deep Learning with PyTorch》;《TensorFlow2.0深度学习》;清华李航《统计学习方法(第二版)》课件等。

http://pytorchchina.com

磐创其他教程

OpenCV 中文官方文档

PyTorch官方教程中文版

PythonOK