简介
Selenium 最初是一个用于网站的自动化测试工具,支持各种 Chrome、Firefox、Safari 等主流浏览器,同时也支持 phantomJS 无界面浏览器。不过其更通常的使用在于爬虫中使用,其主要是用于解决 requests 无法直接执行 JavaScript 代码的问题,不过用于解析 Dom 元素更有其妙用之处。
该数据集最初来自糖尿病/消化/肾脏疾病研究所,此数据集的目标是基于数据集中包含的某些身体指标来诊断性的预测患者是否患有糖尿病。
数据集由多个医学指标和一个目标变量 Outcome 组成,医学指标包含患者的怀孕次数、BMI 指数、胰岛素水平、年龄、血压等。
Jupyter Notebook 是一个开源的 Web 应用程序,允许用户创建和共享包含代码、方程式、可视化和文本的文档。主要用于 数据清理和转换、数值模拟、统计建模、数据可视化、机器学习 等等。
具有以下优势:
40 种编程语言,包括 Python、R、Julia、Scala 等。Dropbox、GitHub 和 Jupyter Notebook Viewer 与他人共享。HTML、图像、视频、LaTeX 等等。Python、R、Scala 编程语言使用 Apache Spark 等大数据框架工具。支持使用 pandas、scikit-learn、ggplot2、TensorFlow 来探索同一份数据。