泰迪杯第一次课

1,数据分析技能赛:
主要以工具为主,可视化的工具。

2、考试时间:早八点到晚六点。

3****.数据清洗:****

kettle:软件使用
csv:以逗号为分隔符的文本文件。

主要涉及CSV文件的导入导出,

(1)输入:
CSV文件输入:
泰迪杯第一次课

excel输入:

1.注意细节:比如给出格式数据为03年的格式,要求结果数据为97格式的。

2.在工作表中,获取工作表名称,有的文件包含三个工作表,选择需要的数据表,有sheet1,sheet2,sheet3.

3.注意将字段里的时间都换成date类型,否则以后用不了。
泰迪杯第一次课

4.如果没有表头,需要自己定义表的名称表头。在名称处进行手动添加。

5.如果只想保存number的小数点前的数,则可以在格式处进行选择#。

6.输出:
Excel输出
文本文件输出

7.字符串剪切,操作和替换。
①去除空格,去除数据left 或right或中间的空格。
②去重
③字段剪切。
④名字的字母大写或者小写。
⑤miding:填充,在地区的区号前面加上0.
⑥去除全部数字,或者只要数字。
⑦移除特殊字符;
⑧知道两个时间计算时间差。

8.去年的地区的位置信息,地图。
细胞的健康监测。数据挖掘。

9、字符串的替换:
正则表达式:
能够匹配一组我所想要的数据。
将所有的逗号替换成分号。