什么是数据?

  • 数据是对客观时间进行记录并且可以鉴别的符号,是对客观事物的性质、状态以及相互关系的组合

  • 不只是狭义上的数字

数据怎么产生?

  • 客观事物的计量和记录

数据分析的主要方向

现状分析:各个部分的构成占比、发展和变动
原因分析:某一状况为什么发生,确定原因做出优化
预测分析:结合已有数据进行分析

原因分析

  • 离线分析(批处理)

    在时间维度上呈现批次性变化。一周一分析
    面向过去,面向历史
    image.png

现状分析

  • 实时分析(Streaming 流式分析)
    面向当下,分析实时产生的数据
    数据产生到分析的时间间隔很短

预测分析

  • 结合已有数据对未来进行分析

数据分析的基本步骤

分析目的-数据收集-数据处理-数据分析-数据展现-报告撰写

数据处理

数据清洗 数据转化 数据提取 数据计算
把数据编程干净规整的结构化数据

数据展现

数据可视化 数据挖掘 即席查询(Ad Hoc)

大数据

定义:无法再一定时间范围内用常规软件进行捕捉、管理和处理的数据集合
image.png

大数据的5V特征
image.png

大数据应用

  • 电商 精准广告位

  • 传媒 精准营销

  • 金融 对个人的信用,风险承担能力评估

  • 交通 拥堵预测、只能红绿灯

  • 电信 基站选址优化

  • 安防

  • 医疗 疾病预防 病原追踪

分布式与集群

分布式

多台机器不同组件
多台机器,每台机器有不同的服务
image.png

集群

每台机器相同组件
多台机器,每台机器服务是相同的
image.png

大数据的存储与计算
  • 分布式存储和分布式计算

电脑扫盲

linux基础知识

操作系统三个方向

  • 桌面操作系统

  • 嵌入式操作系统

  • 服务器操作系统( Linux Windows server)

Linux文件系统

是目录树结构,从/根目录开始
从根目录开始,路径具有唯一性
剩下的应该不用多说了,你摸摸就会了
image.png
混淆点

  • 当前路径:当前目录环境

  • 相对路径:相对于当前工作目录开始的路径,随着当前路径变化而变化

  • 绝对路径:相对于根目录的路径,唯一不重复
    特殊符号
    /根目录
    . 隐藏的文件 路径以.开始是当前目录相对路径
    ../ 当前目录的上一级的目录
    ~ 当前目录的root目录

常用指令扫盲

ls 查看当前路径 -a显示所有目录 -l显示文件名称之外所有信息
cd 切换目录
pwd 当前目录
mkdir 创建目录 -p确保父目录存在 自动创建父目录
touch 创建一个空文件 无任何内容
rm -f强制删除不需要确认 -r递归删除 删除目录下所有文件
cp 复制文件 -r 递归复制
mv 移动文件
cat 把文件内容链接到consol上
more 以每一页的形式查看文件
tail 之查看文件结尾 -n 显示的行数默认显示10行-f实时显示文件追加的内容,会实时显示文件的结尾
echo 内容的输出 将内容输出到consol控制台上
| 管道命令 命令1|命令2 把命令1的结果输出到命令2继续执行
>输出重定向 (覆盖)command>file 执行command后把文件存入file 并覆盖掉file所有内容
>> 输出重定向 (追加) 追加在文件末尾
解压缩命令

tar -c 建立新的备份文件, -x或--get 从备份文件中还原文件 -v 显示指令执行过程 -f<备份文件> 指定备份文件 -z指定gzip压缩算法
tar -cvf 打包命令 tar -xvf 解包命令 -C解压到指定目录
系统命令
date 查看日期
cal 显示当前日历
free 显示内存状态 -h 人性化
df 查看磁盘状态
ps 进程查看,用于查看进程的状态 ps -ef|grep ssh1 查看并搜索所有ssh1的进程1
jps 查看java进程
kill 杀掉进程 (输入进程号)

vim编辑器的基本知识

vim 1.txt 创建1.txt新文件
命令模式 输入模式与底层命令模式

命令模式下所有输入为命令
命令模式下输入i o从进入输入模式
输入模式下输出ESC回到命令模式
命令模式下输入:进入底层命令模式

:q 退出
:w 保存
:wq 保存退出
:!wq 强制保存退出
基本命令
方向键控制移动
pgup pgdown 翻页
行首 home 或者 0 行尾 end $
跳转到最后一行G 第一行 gg
复制粘贴
yy 复制光标当前所在内容
nyy复制光标往下n行
p粘贴当前下一行
P粘贴当前上一行
删除
dd删除光标当前行
ndd 删除当前行往下n行
撤销
u 撤销上一步
ctrl+r 反撤销
image.png

ssh基础知识

SSH为secure shell的缩写,一种网络安全协议
默认采用RSA算法实现非对称加密,需要同时有公钥和私钥才能解密
同样的,可以使用远程登陆来实现远程登录访问服务器,使用SSH来对远程进行加密
本次课程使用的finalshell作为ssh软件,使用服务器的ip直接配置即可,如果你使用的是虚拟机的话你需要先在C:\Windows\System32\drivers\etc\hosts中配置好你的虚拟机的Ip

192.168.88.151 node1 node1.itcast.cn
IP   别名

IP 别名的形式