Vgbhfive's Blog

ML实践-Pima 数据集

Posted on 2023-07-17 Edited on 2023-09-09

数据简介

该数据集最初来自糖尿病/消化/肾脏疾病研究所，此数据集的目标是基于数据集中包含的某些身体指标来诊断性的预测患者是否患有糖尿病。
数据集由多个医学指标和一个目标变量 Outcome 组成，医学指标包含患者的怀孕次数、BMI 指数、胰岛素水平、年龄、血压等。

Docker install jupyter-notebook

Posted on 2023-06-23

简介

Jupyter Notebook 是一个开源的 Web 应用程序，允许用户创建和共享包含代码、方程式、可视化和文本的文档。主要用于 数据清理和转换、数值模拟、统计建模、数据可视化、机器学习 等等。
具有以下优势：

可选择语言：支持超过 40 种编程语言，包括 Python、R、Julia、Scala 等。
分享笔记本：可以使用电子邮件、Dropbox、GitHub 和 Jupyter Notebook Viewer 与他人共享。
交互式输出：代码可以生成丰富的交互式输出，包括 HTML、图像、视频、LaTeX 等等。
大数据整合：通过 Python、R、Scala 编程语言使用 Apache Spark 等大数据框架工具。支持使用 pandas、scikit-learn、ggplot2、TensorFlow 来探索同一份数据。

北京同仁医院验光攻略

Posted on 2023-06-22 Edited on 2025-03-03

前要简介

首都医科大学附属北京同仁医院始建于 1886 年，是一所以眼科学、耳鼻咽喉科学为国家重点学科的大型综合三甲医院，对于眼科相关绝对是权威专业。
一般的眼镜店对于只验光不配镜的顾客有多多少少的抵触。
镜片和镜框需要单独在网上购买，接着找眼镜店帮忙组装，可以最大化保证钱花在刀刃上。

Hadoop-HBase

Posted on 2023-05-28 Edited on 2023-06-21

基础

HBase 是一个在 HDFS 上开发的面向列的分布式数据库，如果你需要实时访问超大规模的数据集，那么使用 HBase 就对了。

HBase 自底而上地进行构建，可以简单的通过增加节点来线性扩展。其并不是关系型数据库，并且也不支持 SQL，在特定的空间里，能够做 RDBMS 不能做的事，即在廉价的硬件构成的集群上管理超大规模的稀疏表。

to_2023-05-15

Posted on 2023-05-15 Edited on 2023-06-21

今天是 2023 年 5 月 15 日，距离我第一次来北京工作的时间刚好跨过了整整三年，关于这个时间我也是在跟朋友的闲聊中才发现原来我已经来北京北漂三年了。

2023 低生产力 PC 装机报告

Posted on 2023-05-11 Edited on 2023-06-14

配置列表

CPU：Intel i5-12400 散片
主板：微星 MAG B660 MORTAR WIFI DDR4
内存：光威天策系列 16G * 2 套条
固态：宏基掠夺者 GM7000 PCIe4.0 NVMe
电源：长城 650w 金牌全模
散热：九州风神玄冰 400V5（四热管）
机箱：先马平头哥 M2（五风扇位，侧头玻璃）
系统：Windows 10 专业版

Hadoop-Hive

Posted on 2023-04-12 Edited on 2023-05-28

基础

Hive 是一个构建在 Hadoop 之上的数据仓库框架，其设计目的在于让精通 SQL 但编程技能较弱的运营人员能够对存放在 HDFS 中的大规模数据集执行查询。
但是由于其底层依赖的 Hadoop 和 HDFS 设计本身约束和局限性，限制 Hive 不支持记录级别的更新、插入或者删除操作，不过可以通过查询生成新表或将查询结果导入文件中来实现。同时由于 MapReduce 任务的启动过程需要消耗较长的时间，所以查询延时比较严重。

MySQL-Could not find first log file name in binary log index file

Posted on 2023-04-02

复现

在之前的博客中说明过，我负责的业务有数据同步的需求，是从 MySQL 实时同步数据到 ClickHouse，为此我们使用了一个工具 clickhouse-mysql-data-reader，该工具的底层是通过监听 MySQL 的 bin log 来实现实时同步数据。

就在今早，数据同步不知为何停止了，当发现问题重新拉起同步任务时，就发现同步脚本出现了异常：

1	Could not find first log file name in binary log index file

Hadoop-Spark

Posted on 2023-03-12 Edited on 2023-04-18

引入

Spark 是用于处理大数据的集群计算框架 ，与其他大多数数据处理框架不同之处在于 Spark 没有以 MapReduce 作为执行引擎，而是使用它自己的分布式运行环境在集群上执行工作。另外 Spark 与 Hadoop 又紧密集成，Spark 可以在 YARN 上运行，并支持 Hadoop 文件格式及其存储后端（例如 HDFS）。

Spark 最突出的表现在于其能将 作业与作业之间的大规模的工作数据集存储在内存中。这种能力使得在性能上远超 MapReduce 好几个数量级，原因就在于 MapReduce 数据都是从磁盘上加载。根据 Spark 的处理模型有两类应用获益最大，分别是 迭代算法（即对一个数据集重复应用某个函数，直至满足退出条件）和 交互式分析（用户向数据集发出一系列专用的探索性查询） 。
另外 Spark 还因为其具有的 DAG 引擎更具吸引力，原因在于 DAG 引擎可以处理任意操作流水线，并为用户将其转化为单个任务。

MySQL-mysqldump warning GTID

Posted on 2023-02-23 Edited on 2023-02-24

复现

工作时需要拉一下测试环境的数据到开发环境，所以就是 mysqldump 老哥出场了…

1
2
3

# mysqldump -h localhost -u root -p --tables test_table --where="str='str1'" > test_table_data.sql
Enter password:
Warning: A partial dump from a server that has GTIDs will by default include the GTIDs of all transactions, even those that changed suppressed parts of the database. If you don't want to restore GTIDs, pass --set-gtid-purged=OFF. To make a complete dump, pass --all-databases --triggers --routines --events.