基础

MapReduce 是一种用于数据处理的编程模型,其本质是并行运行,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心,当然其优势也是处理大规模数据集

MapReduce 任务过程分为两个处理阶段: map 阶段reduce 阶段。每个阶段都是以键值对作为输入和输出,其类型由开发者决定,当然 map 函数和 reduce 函数也是由开发者实现。

Read more »

HDFS

当数据集的大小超过一台计算机的存储上限时,就有必要对数据进行分区然后存储到其他的计算机上。管理网络中跨多台计算机存储的文件系统被称为分布式文件系统(distributed filesystem,该架构于网络之上,势必会引起网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。
Hadoop 自带一个称为 HDFS 的分布式文件系统,也是 Hadoop 的旗舰级文件系统,即 Hadoop Distributed Filesystem

Read more »

简介

Hadoop 是一个分布式计算开源框架,其提供一个分布式文件系统子项目(HDFS)和支持 MapReduce 分布式计算的软件架构。

在有了大量数据之后,那么该如何进行存储和分析这些数据呢?Hadoop 需要解决的问题如下:

  • 硬件故障问题。一旦使用磁盘存储数据,就会遇到磁盘故障;但是为了避免数据丢失,最常见的做法就是复制(replication);系统保存数据的副本(replica),一旦硬件系统出现故障,就立即使用另外保存的副本
  • 以某种方式结合大部分数据来共同完成分析。各种分布式系统允许不同来源的数据进行分析,但其数据的正确性是无法保证的。因此 MapReduce 提出了一个编程模型,该模型抽象出这些硬盘读/写问题并将其作为对一个数据集(由键值对组成)的计算。
Read more »

概述

风控模型是风控系统的核心,应用模型进行风险决策是识别风险的主要途径,也是控制风险的重要方法。

Read more »

概述

特征挖掘是从原始数据构造特征的过程。
特征是数据和模型之间的纽带,数据和特征决定机器学习的上限,而模型和算法只是无限逼近这个上限。
特征挖掘的完整流程包含原始数据分析数据清洗中间数据集构建特征设计和生成特征评估特征的上线、监控、维护和下线

Read more »

概述

风控策略是指根据不同业务场景和客群,通过一系列规则策略与模型策略的组合,对客户的风险进行判断,从而实现准入反欺诈授信风险定价催收等阶段目标,最终达成风险控制的目的。

Read more »

简介

本文将对 ClickHouse 管理与运维相关的知识进行说明,主要包含用户权限熔断机制数据备份服务监控等知识。

Read more »

概述

随着业务线数据量的突飞猛进、服务器的意外宕机,这些都是底层基础服务会遇到的问题,因此 ClickHouse 就设计了集群副本分片这三个帮手来帮忙。

Read more »

引入

表引擎是 ClickHouse 设计实现的一大特色,也可以说是表引擎成就了一张表的最终面貌

Read more »