您的位置 > 首页 > CDA专访 > 如何通过网络数据的获取,做出这些数据分析项目?

如何通过网络数据的获取,做出这些数据分析项目?

来源:CDA原创 | 2019-10-10 | 发布:k8凯发之家





作者 | AlfredWu

来源 | Alfred数据室


最近有很多人在问,我是如何收集网络的数据,如何进行数据处理、数据分析以及可视化呈现的。

也有人问的更具体,关于Python数据分析的一些问题。到底应该怎么学?如何快速入门,以及技术和业务之间的瓶颈如何突破?

因为深度的数据分析往往可以看到事情的本质,而这又是一项在任何情况下都超级加分的技能。总结了一些经验,希望能够给还没入门、或者入门之后就遇到瓶颈的新手一些建议。主要是关于如何系统地进行学习规划,以及可以避免的一些坑。

有的同学看到数据分析几个字,就马上开始Python函数+控制语句、R语言和ggplot库……上来一顿骚操作,还没入门就放弃了。

这就是需求不明确导致的,当然学习方式也值得商榷,那到底数据分析需要什么样的技能呢?这里作为例子,从招聘网站上找了几个数据分析的岗位,我们来看看具体的要求是怎样的。







其实企业对数据分析师的基础技能需求差别不大,可总结如下:

分析工具:一般要求SPSS/SAS/R/Python等分析工具至少会一种,会两种以上加分,有的企业因内部需求,会指定的一种;数据库:绝大会要求会SQL,部分要求SQL/NoSQL会一种,高级的分析师或者大型企业要求能够处理大数据,需要Hive(较少的需要Hadoop/Spark);统计学:若无相关专业背景,需要具备相应的统计学、概率论等基础知识;数据挖掘:少部分要求会建模,了解基本的算法模型,能够做数据预测,即便不要求,算法也是加分项;结果输出:Excel/PPT/Tableau。Excel和PPT要求的比较多,主要用作常规的数据呈现,与业务部门沟通等,Tableau一般作为可视化或者分析工具的加分项或者要求之一;业务/思维:对某个领域(如电商、金融等)相关业务的了解或具有产品、运营方向的分析经验,有自己的数据分析的方法论和项目经验,具备Data Sence。

看上去很简单呀,对吧,但其实你把每个技能拆分开来,都是一个不小的知识体系。如果我们按照数据分析的流程来细分的话,每个部分应该掌握的技能,大概是这样的:



那对于这个技能体系,应该如何进行技能的训练呢?先后顺序是什么?哪些地方可能出现困难和瓶颈?

按数据分析的流程的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。

接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。

- -

数据获取:爬虫与公开数据

数据是产生价值的原材料,这也是数据分析项目的第一步。

通常我是通过爬虫获取相关数据的,一来数据有很高的时效性,二来数据的来源可以得到保证,毕竟网上的信息是异常丰富的。

这些分布在网上零散的信息,通过爬取整合之后,就有比较高的分析价值。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某个事件、某类人群进行分析。

在爬虫之前需要先了解一些 Python 的基础知识:数据类型(列表、字典、元组等)、变量、循环、函数………

以及,如何用 Python 库(urllib、BeautifulSoup、requests等)实现网页爬虫。如果是初学,建议从requests+xpath开始。

当然,并不是说公开数据就没用了,在进行分析的时候,需要一些历史数据进行对比,需要一定的行业标准进行参考的时候,公开数据的价值就体现出来了。

一些科研机构、企业、政府会开放一些数据,还有一些行业研究报告、他人的调查结果,都可以成为你的数据来源。这些数据集通常比较完善、质量相对较高。



- -

数据存取:SQL语言

我并不是每次都会用到数据库,但很多时候这确实是做数据分析项目的必备技能,包括求职就业,也是必选项。
本文已经过优化显示,查看原文请点击以下链接:
查看原文:https://www.cda.cn/view/27183.html

看图学经济more

  • 【k8凯发之家】 P2P网贷行业流量之伤与评级之伤 08-10
  • 【k8凯发之家】 财富管理论:从理财师到智能投顾 08-10
  • 【k8凯发之家】 轮回的学生贷江湖,你可懂?(下) 04-05
  • 【k8凯发之家】 互联网票据理财之二:风险辨识不容易 03-30
  • 【k8凯发之家】 互联网票据理财之一:业务运作模式详解! 03-29
  • 京ICP备11001960号  京ICP证090565号 京公网安备1101084107号 论坛法律顾问:王进律师知识产权保护声明免责及隐私声明   主办单位:人大经济论坛 版权所有
    联系QQ:2881989700  邮箱:service@pinggu.org
    合作咨询电话:(010)62719935 广告合作电话:13661292478(刘老师)

    投诉电话:(010)68466864 不良信息处理电话:(010)68466864