Vgbhfive's Blog

Hadoop-Spark

Posted on 2023-03-12 Edited on 2023-04-18

引入

Spark 是用于处理大数据的集群计算框架 ，与其他大多数数据处理框架不同之处在于 Spark 没有以 MapReduce 作为执行引擎，而是使用它自己的分布式运行环境在集群上执行工作。另外 Spark 与 Hadoop 又紧密集成，Spark 可以在 YARN 上运行，并支持 Hadoop 文件格式及其存储后端（例如 HDFS）。

Spark 最突出的表现在于其能将 作业与作业之间的大规模的工作数据集存储在内存中。这种能力使得在性能上远超 MapReduce 好几个数量级，原因就在于 MapReduce 数据都是从磁盘上加载。根据 Spark 的处理模型有两类应用获益最大，分别是 迭代算法（即对一个数据集重复应用某个函数，直至满足退出条件）和 交互式分析（用户向数据集发出一系列专用的探索性查询） 。
另外 Spark 还因为其具有的 DAG 引擎更具吸引力，原因在于 DAG 引擎可以处理任意操作流水线，并为用户将其转化为单个任务。

MySQL-mysqldump warning GTID

Posted on 2023-02-23 Edited on 2023-02-24

复现

工作时需要拉一下测试环境的数据到开发环境，所以就是 mysqldump 老哥出场了…

1
2
3

# mysqldump -h localhost -u root -p --tables test_table --where="str='str1'" > test_table_data.sql
Enter password:
Warning: A partial dump from a server that has GTIDs will by default include the GTIDs of all transactions, even those that changed suppressed parts of the database. If you don't want to restore GTIDs, pass --set-gtid-purged=OFF. To make a complete dump, pass --all-databases --triggers --routines --events.

Hadoop-MapReduce

Posted on 2023-02-15 Edited on 2023-03-11

基础

MapReduce 是一种用于数据处理的编程模型，其本质是并行运行，因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心，当然其优势也是处理大规模数据集。

MapReduce 任务过程分为两个处理阶段： map 阶段和 reduce 阶段。每个阶段都是以键值对作为输入和输出，其类型由开发者决定，当然 map 函数和 reduce 函数也是由开发者实现。

Lombok-constructor is already defined

Posted on 2023-02-14

引入

今天工作的时候写了这么一段代码：

@Getter
@Setter
@ToString
@NoArgsConstructor
@AllArgsConstructor
public class ObjectA {
    
}

Hadoop-HDFS

Posted on 2023-02-04 Edited on 2023-03-11

`HDFS`

当数据集的大小超过一台计算机的存储上限时，就有必要对数据进行分区然后存储到其他的计算机上。管理网络中跨多台计算机存储的文件系统被称为分布式文件系统（distributed filesystem），该架构于网络之上，势必会引起网络编程的复杂性，因此分布式文件系统比普通磁盘文件系统更为复杂。
Hadoop 自带一个称为 HDFS 的分布式文件系统，也是 Hadoop 的旗舰级文件系统，即 Hadoop Distributed Filesystem。

Hadoop-基础

Posted on 2023-01-15 Edited on 2023-02-04

简介

Hadoop 是一个分布式计算开源框架，其提供一个分布式文件系统子项目（HDFS）和支持 MapReduce 分布式计算的软件架构。

在有了大量数据之后，那么该如何进行存储和分析这些数据呢？Hadoop 需要解决的问题如下：

硬件故障问题。一旦使用磁盘存储数据，就会遇到磁盘故障；但是为了避免数据丢失，最常见的做法就是复制（replication）；系统保存数据的副本（replica），一旦硬件系统出现故障，就立即使用另外保存的副本。
以某种方式结合大部分数据来共同完成分析。各种分布式系统允许不同来源的数据进行分析，但其数据的正确性是无法保证的。因此 MapReduce 提出了一个编程模型，该模型抽象出这些硬盘读/写问题并将其作为对一个数据集（由键值对组成）的计算。