大数据系统功能
1.数据分析
越来越多的应用涉及到大数据,大数据最大的好处在于能够让我们从这些数据中分析出很多智能的、深入的、有价值的信息。
Analytic Visualizations(可视化分析)
不管是数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观地展示数据,让数据自己说话,让观众听到结果。
Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的"量",也要处理大数据的"速度"。
Predictive Analytic Capabilities(预测性分析能力)
数据挖拥可以让分析员更好地理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
Semantic Engines(语义引擎)
我们知道由于非结构化数据的多样性带来了数据分析的新挑战,我们需要一系列的工具去解折、提取、分析数据。语义引擎需要波设计成能够从"文档"中智能提取信息。
神经网络
神经网络是模拟人脑内部结构,在模拟推理、自动学习等方面接近人脑的自组织和并行处理的数学模型。神经网络在数据挖掘中的优势是:噪声数据的强承受能力,对数据分类的高准确性,以及可用各种算法进行规则提取。
2.数据挖掘
数据挖掘,是从数据当中发现趋势和模式的过程,它能有效地从大量的、不完全的、模糊的实际应用数据中,提取隐含在其中的潜在有用的信息和知识,揭示出大量数据中复杂的和隐藏的关系,为决策提供有用的参考,也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。常用的数据挖掘方法主要有关联分析、分类分析、聚类分析、神经网络等。
关联分析
即利用关联规则进行数据挖掘。关联分析的目的是挖据隐藏在数据中的相互关系,比如,它能发现数据库中的顾客在一次购买活动中购买商品 A及B的各种习惯、时段等关联信息。
分类分析
分类分析就是通过分析示例数据库中的数据,为每个类别做出准确地描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他记录进行分类。
聚类分析
通过分析数据库中的记录数据,根据一定 的分类规则,合理地划分记录集合,并确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。