scikit-learn开篇
引言:
scikit-learn(sklearn)是机器学习中经典的专用库,涵盖了几乎所有主流机器学习算法,包括分类(Classfication)、聚类(Clustering)、回归(Regression)、降维(Dimensionality Reduction)等,还包括了特征提取,数据处理和模型评估者三大模块。 scikit-learn支持跨平台,功能强大。该项目于2007年作为Google的Code of Code夏季项目,并于2010年2月1日进行了首次公开发布。此后,经过约3个月的时间,在国际市场蓬勃发展,出现了多个繁荣的社区版本。 sklearn官方提供的文档 https://scikit-learn.org/stable/preface.html,其内容全面、简单易懂,使得初学者能够快速上手使用。
2019年@那伊抹微笑@片刻@mahaoyang等人已翻译过scikit-learn0.21.3,但如今scikit-learn0.22.1版本中的许多函数和内容已经有所更新,因此有必要对该官方文档再进行一次翻译。翻译过程中难免有所疏漏,如发现错误,希望大家指出,谢谢支持。
目录
第一章 scikit-learn 简介与安装
1.1 欢迎来到 scikit-learn
1.2 安装 scikit-learn
1.3 特定平台上安装sklearn的Cython扩展的说明
1.4 常见问题
第二章 scikit-learn 指南
2.1 scikit-learn 机器学习简介
2.2 科学数据处理统计学习指南
- 统计学习:scikit-learn 中的设置与估计器对象
- 监督学习:从高维数据中预测输出变量
- 模型选择:选择估计器及其参数
- 无监督学习:寻求数据的表示形式
- 把所有的东西集中在一起
- 寻求帮助
2.3 处理文本数据
2.4 选择合适的估计器
2.5 外部资源,视频和讲座
第三章 用户指南
3.1 监督学习
-
线性模型
-
线性和二次判别分析
-
核岭回归
-
支持向量机
-
随机梯度下降法
-
最近邻
-
高斯过程
-
交叉分解
-
朴素贝叶斯
-
决策树
-
集成方法
-
多类和多标签算法
-
特征选择
-
半监督学习
-
等式回归
-
概率校准
-
神经网络模型(有监督)
3.2 无监督学习
-
高斯混合模型
-
流形学习
-
聚类
-
双聚集
-
分解成分中的信号(矩阵分解问题)
-
协方差估计
-
新奇和异常点检测
-
密度估计
-
神经网络模型(无监督)
3.3 模型选择与评价
-
交叉验证:评估估计器性能
-
t调整估计器的超参数
-
指标和评分:量化预测的质量
-
模型持久化
-
验证曲线:绘制分数以评估模型
3.4 检查
-
部分相关图
-
排列特征的重要性
3.5 可视化效果
- 可用的绘图工具
3.6 数据集转换
-
管道和复合估计器
-
特征提取
-
数据预处理
-
缺失值的估算
-
无监督降维
-
随机投影
-
核近似
-
成对度量、仿射和核
-
转换预测目标(y)
3.7 数据集加载实用程序
-
通用数据集API
-
Toy 数据集
-
真实世界中的数据集
-
生成的数据集
-
加载其他数据集
3.8 使用scikit learn进行计算
-
计算扩展策略:大数据
-
计算性能
-
并行性、资源管理和配置
第四章 通用术语和API元素词汇表
第五章 示例
第六章 API参考
第七章 开发人员指南
人工智能电子书下载
书单包括:《Deep Learning with PyTorch》;《TensorFlow2.0深度学习》;清华李航《统计学习方法(第二版)》课件等。