泰迪杯第一次课
1,数据分析技能赛:
主要以工具为主,可视化的工具。
2、考试时间:早八点到晚六点。
3****.数据清洗:****
kettle:软件使用
csv:以逗号为分隔符的文本文件。
主要涉及CSV文件的导入导出,
(1)输入:
CSV文件输入:
excel输入:
1.注意细节:比如给出格式数据为03年的格式,要求结果数据为97格式的。
2.在工作表中,获取工作表名称,有的文件包含三个工作表,选择需要的数据表,有sheet1,sheet2,sheet3.
3.注意将字段里的时间都换成date类型,否则以后用不了。
4.如果没有表头,需要自己定义表的名称表头。在名称处进行手动添加。
5.如果只想保存number的小数点前的数,则可以在格式处进行选择#。
6.输出:
Excel输出
文本文件输出
7.字符串剪切,操作和替换。
①去除空格,去除数据left 或right或中间的空格。
②去重
③字段剪切。
④名字的字母大写或者小写。
⑤miding:填充,在地区的区号前面加上0.
⑥去除全部数字,或者只要数字。
⑦移除特殊字符;
⑧知道两个时间计算时间差。
8.去年的地区的位置信息,地图。
细胞的健康监测。数据挖掘。
9、字符串的替换:
正则表达式:
能够匹配一组我所想要的数据。
将所有的逗号替换成分号。