Vgbhfive's Blog

Hadoop-基础

Posted on 2023-01-15 Edited on 2023-02-04

简介

Hadoop 是一个分布式计算开源框架，其提供一个分布式文件系统子项目（HDFS）和支持 MapReduce 分布式计算的软件架构。

在有了大量数据之后，那么该如何进行存储和分析这些数据呢？Hadoop 需要解决的问题如下：

硬件故障问题。一旦使用磁盘存储数据，就会遇到磁盘故障；但是为了避免数据丢失，最常见的做法就是复制（replication）；系统保存数据的副本（replica），一旦硬件系统出现故障，就立即使用另外保存的副本。
以某种方式结合大部分数据来共同完成分析。各种分布式系统允许不同来源的数据进行分析，但其数据的正确性是无法保证的。因此 MapReduce 提出了一个编程模型，该模型抽象出这些硬盘读/写问题并将其作为对一个数据集（由键值对组成）的计算。

智能风控-风控模型体系

Posted on 2022-11-25 Edited on 2024-10-18

概述

风控模型是风控系统的核心，应用模型进行风险决策是识别风险的主要途径，也是控制风险的重要方法。

智能风控-特征画像体系

Posted on 2022-11-12 Edited on 2023-02-06

概述

特征挖掘是从原始数据构造特征的过程。
特征是数据和模型之间的纽带，数据和特征决定机器学习的上限，而模型和算法只是无限逼近这个上限。
特征挖掘的完整流程包含原始数据分析、数据清洗、中间数据集构建、特征设计和生成、特征评估和特征的上线、监控、维护和下线。

智能风控-策略体系

Posted on 2022-10-31 Edited on 2023-01-02

概述

风控策略是指根据不同业务场景和客群，通过一系列规则策略与模型策略的组合，对客户的风险进行判断，从而实现准入、反欺诈、授信、风险定价和催收等阶段目标，最终达成风险控制的目的。

ClickHouse-管理与运维

Posted on 2022-09-12 Edited on 2023-01-01

简介

本文将对 ClickHouse 管理与运维相关的知识进行说明，主要包含用户、权限、熔断机制、数据备份和服务监控等知识。

ClickHouse-分布式

Posted on 2022-09-10 Edited on 2023-01-01

概述

随着业务线数据量的突飞猛进、服务器的意外宕机，这些都是底层基础服务会遇到的问题，因此 ClickHouse 就设计了集群、副本和分片这三个帮手来帮忙。

ClickHouse-MergeTree原理

Posted on 2022-07-31 Edited on 2023-01-01

引入

表引擎是 ClickHouse 设计实现的一大特色，也可以说是表引擎成就了一张表的最终面貌。

SpringBoot集成Prometheus-自定义指标

Posted on 2022-07-16 Edited on 2022-08-17

引入

这里首先说以下整体大概的思路，第一步当然是引入对应的 SDK，第二步则是添加配置信息、定义自定义指标，并进行注册，接下来的第三步则是指标根据具体业务的处理逻辑，那么最后一步就是在 prometheus 服务中增加 job 配置，最终在 grafana 中展示自定义指标。

ClickHouse-基础

Posted on 2022-07-05 Edited on 2023-01-01

简介

大家都说 MySQL 和 ClickHouse 很像，如果你不了解 ClickHouse，那我觉得你是对的，但若是你了解，那你更需要往下看看。

ClickHouse-概述

Posted on 2022-06-25 Edited on 2022-07-05

概述

ClickHouse 是一款 MPP 架构的列式存储数据库，拥有完备的管理功能，所以他称得上是一个 DBMS 数据库管理系统，而不仅仅是一个数据库。

如果你想学习的话，那就一起来吧。