爬虫工程师,如何高效的支持数据分析人员的工作?

 

爬虫工程师,如何高效的支持数据分析人员的工作?

数据分析是以统计分析方法为基础,对采集来的大量数据进行分析,并将其加以汇总、理解和消化,以提取有用信息和形成结论,最大化地开发出数据的功能,发挥数据的作用。

所以,数据采集,是科学地进行数据分析的基础。其采集数据的准确性,直接决定了数据分析输出内容的价值。

那么,数据分析中的数据采集该如何做呢?

它主要包括四部分:需求调研、明确采集范围确定、明确抽样方案、明确数据采集方法,数据清洗与抽取规则等五部分。

1、需求调研

爬虫工程师,如何高效的支持数据分析人员的工作?

 

    需求调研过程,其实就是把客户的原始需求,转换最终能够实施的基础方案。其过程中需要不断的和客户讨论、确认,同时需要讨论技术实现难易程度。如果技术无法实现、或者实现需要花费大量的人力、物力,则需要考虑折中方案,同时和客户确认是否认可。

    在实际的工作中,我们会经常发现,有些需求只是售前或者商务和客户沟通确认,技术并未参与,导致最后技术上无法实现,或者实现的代价极大。 所以,一般情况下,需求的最总确认最好是技术,售前或者商务负责方案与客户之间问题的协调。

    所以,只有这样在数据采集的时候才能控制好成本。只有做好周密的市场调研计划,才能够好好的做好数据采集这一个工作。

2、明确采集范围确定

爬虫工程师,如何高效的支持数据分析人员的工作?

 

采集范围一般包括:数据来源、采集的时间范围、采集数据的类别、所需要的数据属性等。通常来说,数据的资料一般分为一手资料和二手资料。这主要通过资料的来源而决定。什么是一手资料呢?二手资料是什么呢?一手资料就是未来某种目的采集所得的原始材料。

一般来说,采集一手资料所需要的费用比较高,但是一手的资料的准确性很高,这是因为一手资料的针对性强。二手资料是指采集的现成资料。现成资料主要就是互联网各个网站上发布的信息,以及各报刊、书籍等书写的资料,可能还有一部分是某些权威机构发布的统计数据,或者研究报告等。

3、明确抽样方案

在数据的采集中,一部分数据是可以直接采集。但是由于对成本等可控因素的考虑,及数据的采集范围的广度,很难直接获取全部数据。此时,就需要使用抽样的方法,对样本进行调查,并根据样本统计量估计总量。

4、明确数据采集方法

    由于数据来源的多样,有些数据可能是我们已经采集的,这是就需要想办法按需求导出即可。有些来源,可能是需要第三方支持,这是则需求寻找资源并对其按需求进行测试,确定第三方数据商是否能够支撑需求。

    有时为了控制成本,可能会考虑定制开发,在技术无法处理后,在寻求第三方数据支撑,或者是二者结合。比如微信的采集,一般情况下为了节省成本会只采集标题、时间和内容,对于阅读数、在看数等未采集,这是就需要寻找第三方接口获取该部分数据。

总之,数据采集方法的确定,也是基于成本控制的要求,合理选择处理方式。

5、数据清洗与抽取规则

    由于数据从互联网上采集而来,一定会出现一定概率的错误、冗余、虚假等数据。所以,在把数据提交给分析人员前,必须对数据进行清洗,同时根据一定的规则,抽检数据,以保证提交数据的准确性。

一般情况下,技术人员会和分析人员一起,先确定好一篇提取的业务关键词和过滤词,对数据进行第一次清洗。然后在对数据类型(新闻、论坛、博客、微博等)、内容的长度、内容中特殊字符等进行二次清洗。这样提交给分析人员的数据,基本上是和业务需求强相关了。

    通过上面的五步骤,大家差不多了解了一次数据分析的全过程。只要每个步骤形成一定规则、步骤,就能够大大的降低分析的成本,提供工作效率。希望这些对你们的工作有所帮助。谢谢!