数据分析基础学习
2018/09/24
数据分析:导入数据
数据格式:
先修改csv文件内容的部分格式。
https://www.2cto.com/database/201707/660707.html
- 正在执行 (错误)
消息
错误 0xc02020a1: 数据流任务 1: 数据转换失败。列“寄投地址”的数据转换返回状态值 4 和状态文本“文本被截断,或者一个或多个字符在目标代码页中没有匹配项。”。
(SQL Server 导入和导出向导)
错误 0xc020902a: 数据流任务 1: “输出列“寄投地址”(42)”由于发生截断而失败,而且针对“输出列“寄投地址”(42)”的截断行处理设置指定截断时出错。在指定组件的指定对象上出现截断错误。
(SQL Server 导入和导出向导)
错误 0xc0202092: 数据流任务 1: 处理文件“D:\wj\three\工坊\No1\2017年招生录取数据.csv”的数据行 15 时出错。
(SQL Server 导入和导出向导)
错误 0xc0047038: 数据流任务 1: SSIS 错误代码 DTS_E_PRIMEOUTPUTFAILED。组件“源 - 2017年招生录取数据_csv”(1) 的 PrimeOutput 方法返回了错误代码 0xC0202092。管道引擎调用 PrimeOutput() 时该组件返回了一个失败代码。虽然该失败代码只与该组件有关,但这个错误是致命的,管道已停止执行。可能在此之前已经发出错误消息,提供了有关失败的详细信息。
(SQL Server 导入和导出向导)
平面文件源->下一步
可视化模板:
https://wenku.baidu.com/view/a50c907fbf23482fb4daa58da0116c175f0e1ea8.html
2018/09/25
数据分析:
1、学生分布情况:
#学院分布:
select count(学号) as num,所在学院
from dbo.stu_data
group by 所在学院;
# 政治面貌分布
select count(学号) as num,政治面貌
from dbo.stu_data
group by 政治面貌;
# 少数民族TOP10:
select top 10 count(学号) as num,民族
from dbo.stu_data
group by 民族
order by num desc;
#生源地分布:省市,
with stu_data as(
select 学号,case when Charindex('市',寄投地址,0)!=0
then Substring(寄投地址,0,Charindex('市',寄投地址,0)+1)
else ''
end as ds
from dbo.stu_data)
select count(学号) as num,ds
from stu_data
where ds!='' group by ds order by num desc;
省;
with stu_data as(
select case when Charindex('省',寄投地址,0)!=0
then Substring(寄投地址,0,Charindex('省',寄投地址,0)+1)
else ''
end as ds
from dbo.stu_data)
select distinct ds
from stu_data
where ds!='';
TOP10:
with stu_data as(
select 学号,case when Charindex('市',寄投地址,0)!=0
then Substring(寄投地址,0,Charindex('市',寄投地址,0)+1)
else ''
end as ds
from dbo.stu_data)
select top 10 count(学号) as num , ds
from stu_data
where ds!=''
group by ds order by num desc;