hadoop l1大数据基本知识和电脑扫盲
什么是数据?
数据是对客观时间进行记录并且可以鉴别的符号,是对客观事物的性质、状态以及相互关系的组合
不只是狭义上的数字
数据怎么产生?
客观事物的计量和记录
数据分析的主要方向
现状分析:各个部分的构成占比、发展和变动
原因分析:某一状况为什么发生,确定原因做出优化
预测分析:结合已有数据进行分析
原因分析
离线分析(批处理)
在时间维度上呈现批次性变化。一周一分析
面向过去,面向历史
现状分析
实时分析(Streaming 流式分析)
面向当下,分析实时产生的数据
数据产生到分析的时间间隔很短
预测分析
结合已有数据对未来进行分析
数据分析的基本步骤
分析目的-数据收集-数据处理-数据分析-数据展现-报告撰写
数据处理
数据清洗 数据转化 数据提取 数据计算
把数据编程干净规整的结构化数据
数据展现
数据可视化 数据挖掘 即席查询(Ad Hoc)
大数据
定义:无法再一定时间范围内用常规软件进行捕捉、管理和处理的数据集合
大数据的5V特征
大数据应用
电商 精准广告位
传媒 精准营销
金融 对个人的信用,风险承担能力评估
交通 拥堵预测、只能红绿灯
电信 基站选址优化
安防
医疗 疾病预防 病原追踪
分布式与集群
分布式
多台机器不同组件
多台机器,每台机器有不同的服务
集群
每台机器相同组件
多台机器,每台机器服务是相同的
大数据的存储与计算
分布式存储和分布式计算
电脑扫盲
linux基础知识
操作系统三个方向
桌面操作系统
嵌入式操作系统
服务器操作系统( Linux Windows server)
Linux文件系统
是目录树结构,从/根目录开始
从根目录开始,路径具有唯一性
剩下的应该不用多说了,你摸摸就会了
混淆点
当前路径:当前目录环境
相对路径:相对于当前工作目录开始的路径,随着当前路径变化而变化
绝对路径:相对于根目录的路径,唯一不重复
特殊符号
/根目录
. 隐藏的文件 路径以.开始是当前目录相对路径
../ 当前目录的上一级的目录
~ 当前目录的root目录
常用指令扫盲
ls 查看当前路径 -a显示所有目录 -l显示文件名称之外所有信息
cd 切换目录
pwd 当前目录
mkdir 创建目录 -p确保父目录存在 自动创建父目录
touch 创建一个空文件 无任何内容
rm -f强制删除不需要确认 -r递归删除 删除目录下所有文件
cp 复制文件 -r 递归复制
mv 移动文件
cat 把文件内容链接到consol上
more 以每一页的形式查看文件
tail 之查看文件结尾 -n 显示的行数默认显示10行-f实时显示文件追加的内容,会实时显示文件的结尾
echo 内容的输出 将内容输出到consol控制台上
| 管道命令 命令1|命令2 把命令1的结果输出到命令2继续执行
>输出重定向 (覆盖)command>file 执行command后把文件存入file 并覆盖掉file所有内容
>> 输出重定向 (追加) 追加在文件末尾
解压缩命令tar -c 建立新的备份文件, -x或--get 从备份文件中还原文件 -v 显示指令执行过程 -f<备份文件> 指定备份文件 -z指定gzip压缩算法
tar -cvf 打包命令 tar -xvf 解包命令 -C解压到指定目录
系统命令
date 查看日期
cal 显示当前日历
free 显示内存状态 -h 人性化
df 查看磁盘状态
ps 进程查看,用于查看进程的状态 ps -ef|grep ssh1 查看并搜索所有ssh1的进程1
jps 查看java进程
kill 杀掉进程 (输入进程号)
vim编辑器的基本知识
vim 1.txt 创建1.txt新文件
命令模式 输入模式与底层命令模式命令模式下所有输入为命令
命令模式下输入i o从进入输入模式
输入模式下输出ESC回到命令模式
命令模式下输入:进入底层命令模式:q 退出
:w 保存
:wq 保存退出
:!wq 强制保存退出
基本命令
方向键控制移动
pgup pgdown 翻页
行首 home 或者 0 行尾 end $
跳转到最后一行G 第一行 gg
复制粘贴
yy 复制光标当前所在内容
nyy复制光标往下n行
p粘贴当前下一行
P粘贴当前上一行
删除
dd删除光标当前行
ndd 删除当前行往下n行
撤销
u 撤销上一步
ctrl+r 反撤销
ssh基础知识
SSH为secure shell的缩写,一种网络安全协议
默认采用RSA算法实现非对称加密,需要同时有公钥和私钥才能解密
同样的,可以使用远程登陆来实现远程登录访问服务器,使用SSH来对远程进行加密
本次课程使用的finalshell作为ssh软件,使用服务器的ip直接配置即可,如果你使用的是虚拟机的话你需要先在C:\Windows\System32\drivers\etc\hosts中配置好你的虚拟机的Ip
192.168.88.151 node1 node1.itcast.cn
IP 别名
IP 别名的形式


