0%

大数据分析概述

大数据分析处理框架:hadoop

开源,Java语言,低成本。始于2004年,2011年正式推出1.0.0版,最新的稳定版是:~~

Hadoop架构(1):

(安装包)Hadoop Common Package
提供系统交互及支撑

(分布管理系统)Hadoop Distributed File System
提供分布式文件管理功能

(任务调度)Hadoop YARN
●任务调度和集群资源管理

(map reduce)MapReduce Engine
●提供计算任务的分布式并行执行功能
统计所有文档中每个词出现的次数:

1
2
3
4
5
6
7
8
9
10
11
12
function map (String name,String document) :
//name: document name
// document: document contents
for each word w in document :
emit (w, 1)
function reduce (String word, Iterator partialCounts) :
// word: a word
// partialCounts: a list of aggregated partial counts
sum = 0
for each pc in partialCounts:
sum += pc
emit (word, sum)

Hadoop架构(2):

Hive
数据仓库工具(仅作为一个工具,依赖数据库做支撑)
可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析(可以直接写sql语句)
面对传统数据库,以行为单位

HBase
分布式数据库
列数据库

Mahout
并行机器学习
分类、聚类、协同过滤等等
http://mahout.apache.org/users/basics/algorithms.html

Spark
“内存版的MapReduce”
比MapReduce更为灵活高效的编程模型
Spark SQL提供SQL语句的解析和执行功能
Spark Streaming提供流数据处理功能
MLlib是-一个机器学习包,类似Mahout
GraphX提供并行化图计算功能

Hadoop是一个大数据处理的生态环境,包含众多子项目

大数据分析处理基本流程

数据准备

数据获取:
定位需要分析的数据,抓取并存储(如HDFS)
在网关上部署探针程序,抓取HTTP请求并存储

数据清洗:
对可能影响后期分析的缺失数据,噪声数据,不规范数据进行处理
URL解码、无用URL过滤等等,得到干净的URL

特征工程

特征提取
从数据中提取特征,利用特征来表示样本
从URL中提取词语或字符串作为特征

特征选择
对特征进行评估,保留更有区分能力的特征,去除冗余特征
对特征进行信息增益计算,保留增益高的词语或者字符串,去除增益低的词语或字符串

建模分析

模型选择

选择什么样的模型来完成当前任务
采用分类算法来对URL进行二分类,如决策树

模型训练

利用现有数据训练模型
利用特征向量数据训练决策树

模型评测

评估当前模型的性能

数据可视化,分析报告等。。

大数据分析处理评测方法

============本文结束( ´◔ ‸◔`)感谢您的阅读============