您需要知道的51条大数据条款

添加时间:17-12-16   添加人:  点击:



您需要知道的51条大数据条款

当涉及到大数据时,您需要了解一些最大的定义。

随着每天收集数十亿字节的数据,理解大数据的复杂性比以往任何时候都更加重要。为了帮助澄清这一领域,我们从最近的大数据指南中创建了一个汇编列表,我们认为这是您需要了解的最重要的相关术语和定义。(顺便说一句,如果你对这个感兴趣,你也可能对我们的AI词汇表感兴趣!)

您认为我们应该添加的任何条款?让我们在评论中知道!

A

算法:给AI,神经网络或其他机器提供的一组规则,以帮助自己学习; 分类,聚类,推荐和回归是最流行的四种类型。

Apache Flink:一个开源的流媒体数据处理框架。它是用Java和Scala编写的,用作分布式流式数据流引擎。

Apache Hadoop:一种开源工具,通过使用MapReduce来处理和存储跨机器的大型分布式数据集。

Apache Kafka:一种分布式流式传输平台,通过提高吞吐量,内置分区,复制,延迟和可靠性,改进传统的消息代理。

Apache NiFi:一种开放源代码的Java服务器,能够以可扩展,可插拔,开放的方式实现系统间数据流的自动化。NiFi是由NSA开源的。

Apache Spark:一个运行在Apache Hadoop,Mesos或云之上的开源大数据处理引擎。

人工智能:一种机器做出决策和执行模拟人类智能和行为的任务的能力。

您需要知道的51条大数据条款

B

大数据:大量数据的通用术语。要获得大数据资格,数据必须以高速度,大变化或大量进入系统。

Blob存储:一种将非结构化数据作为Blob或对象存储在云中的Azure服务。

商业智能:可视化和分析业务数据的过程,以便作出可行的和明智的决定。

C

群集:共享特定特征的数据子集。也可以参考几台一起工作的机器来解决单个问题。

COAP:受约束的应用程序协议是用于有限资源设备的Internet应用程序协议,如果需要,可以将其转换为HTTP。

您需要知道的51条大数据条款

D

数据工程:收集,存储和处理数据,以便数据科学家查询。

数据流管理管理原始设备数据的专门过程,同时管理数千个生产者和消费者的流量。然后执行基本的数据丰富,流,分析,聚合,拆分,模式转换,格式转换和其他初始步骤,以准备数据进一步的业务处理。

数据治理:管理数据湖中数据的可用性,可用性,完整性和安全性的过程。

数据集成:将来自不同来源的数据进行组合的过程,并为用户提供统一的视图。

数据湖:存储原始格式的原始数据的存储库。

数据挖掘:通过检查和分析大型数据库的过程来产生新信息的一种做法。

数据可操作化:将变量严格定义为可测量因素的过程。

数据准备:将数据收集,清理和整合到一个文件或数据表中的过程,主要用于分析。

数据处理:通过机器检索,转换,分析或分类信息的过程。

数据科学:探索可重复的流程和方法以从数据中获取见解的领域。

数据沼泽:没有适当的治理,数据湖就会变成什么样子。

数据验证:检查数据集以确保所有数据在处理之前都是干净,正确和有用的行为。

数据仓库:来自各种来源的大量数据用于帮助企业做出明智的决策。

设备层:根据其环境和性能特点发送数据流的全部传感器,执行器,智能手机,网关和工业设备。

您需要知道的51条大数据条款

G

GPU加速数据库:提取流数据所需的数据库。

图表分析:一种组织和可视化集合中不同数据点之间关系的方法。

H

Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。

I

摄取:从任何数量的不同来源摄取流式数据。

M

MapReduce:一种数据处理模型,用于在Map阶段对数据进行过滤和排序,然后对该数据执行一个函数,并在Reduce阶段返回一个输出。

Munging:手动将数据从一种原始格式转换或映射到另一种格式以便更方便使用的过程。

您需要知道的51条大数据条款

N

正态分布:表示大量随机变量的概率的通用图,其中随着数据集大小的增加,这些变量趋于正常。也称为高斯分布或钟形曲线。

规范化:将数据组织到表中的过程,以便使用数据库的结果总是毫不含糊的。

P

解析:将数据(如字符串)分成较小的部分进行分析。

持久存储:一个不变的地方,比如磁盘,在创建它的过程结束后,数据被保存。

Python:一种强调代码可读性的通用编程语言,它允许程序员使用更少的代码行来表达他们的概念。

R

R:主要用于数据可视化和预测分析的开源语言。

实时流处理:通过并行使用机器来分析数据序列的模型,但功能减少。

关系数据库管理系统(RDBMS):一种管理,捕获和分析基于称为关系的共享属性的数据的系统。

弹性分布式数据集:Apache Spark抽象数据的主要方式,其中数据以容错方式存储在多台机器上。

您需要知道的51条大数据条款

S

碎片:数据库的单独分区。

智能数据:被格式化的数字信息,因此可以在收集点采取行动,然后再发送到下游分析平台进行进一步的数据整合和分析。

流处理:实时处理数据。数据连续处理,并发处理,并逐个记录。

结构化数据:高度组织化的信息。

T

分类:根据预先确定的系统对数据进行分类,结果目录用于提供便于访问和检索的概念框架。

遥测:远程获取有关物体的信息(例如汽车,智能手机,医疗设备或物联网设备)。

转换:将数据从一种格式转换为另一种格式。

您需要知道的51条大数据条款

U

非结构化数据:没有预定义数据模型或未按预定义方式组织的数据。

V

可视化(Visualization):分析数据并以可读的图形格式(如图表或图形)表示数据的过程。

Z

区域:数据湖内的不同区域,服务于特定的,明确的目的。