概要
决策树(decision tree
)是一种基本的分类和回归方法。其主要呈现为树状结构,在分类问题中,表示基于特征对实例进行分类的过程,可以被认为是 if-then
的规则集合,也可以被认为是定义在特征空间与类空间上的条件概率分布。
其优点主要有分类速度快、模型具有可读性,在学习时利用训练数据根据损失函数最小化的原则建立决策树模型;而在预测时对新的数据利用决策树模型进行分类。
决策树模型主要包含以下步骤:
- 特征选择
- 决策树的生成
- 决策树的修剪
该数据集最初来自糖尿病/消化/肾脏疾病研究所,此数据集的目标是基于数据集中包含的某些身体指标来诊断性的预测患者是否患有糖尿病。
数据集由多个医学指标和一个目标变量 Outcome
组成,医学指标包含患者的怀孕次数、BMI
指数、胰岛素水平、年龄、血压等。
Jupyter Notebook
是一个开源的 Web
应用程序,允许用户创建和共享包含代码、方程式、可视化和文本的文档。主要用于 数据清理和转换、数值模拟、统计建模、数据可视化、机器学习 等等。
具有以下优势:
40
种编程语言,包括 Python
、R
、Julia
、Scala
等。Dropbox
、GitHub
和 Jupyter Notebook Viewer
与他人共享。HTML
、图像、视频、LaTeX
等等。Python
、R
、Scala
编程语言使用 Apache Spark
等大数据框架工具。支持使用 pandas
、scikit-learn
、ggplot2
、TensorFlow
来探索同一份数据。今天是 2023
年 5
月 15
日,距离我第一次来北京工作的时间刚好跨过了整整三年,关于这个时间我也是在跟朋友的闲聊中才发现原来我已经来北京北漂三年了。
Spark
是用于处理大数据的集群计算框架 ,与其他大多数数据处理框架不同之处在于 Spark
没有以 MapReduce
作为执行引擎,而是使用它自己的分布式运行环境在集群上执行工作。另外 Spark
与 Hadoop
又紧密集成,Spark
可以在 YARN
上运行,并支持 Hadoop
文件格式及其存储后端(例如 HDFS
)。
Spark
最突出的表现在于其能将 作业与作业之间的大规模的工作数据集存储在内存中。这种能力使得在性能上远超 MapReduce
好几个数量级,原因就在于 MapReduce
数据都是从磁盘上加载。根据 Spark
的处理模型有两类应用获益最大,分别是 迭代算法(即对一个数据集重复应用某个函数,直至满足退出条件)和 交互式分析(用户向数据集发出一系列专用的探索性查询) 。
另外 Spark
还因为其具有的 DAG
引擎更具吸引力,原因在于 DAG
引擎可以处理任意操作流水线,并为用户将其转化为单个任务。