发布网友 发布时间:2022-04-23 01:00
共13个回答
热心网友 时间:2022-04-08 07:47
学习数据分析师之前,你必须清楚自己想要达成什么目标。也就是说,你想通过这门技术来解决哪些问题或实现什么计划。有了这个目标,你才能清晰地开展自己的学习规划,并且明确它的知识体系。只有明确的目标导向,学习必备也是最有用的那部分,才能避免无效信息降低学习效率。
1、明确知识框架和学习路径
数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下:
SQL数据库的基本操作,会基本的数据管理;
会用Excel/SQL做基本的数据提取、分析和展示;
会用脚本语言进行数据分析,Python or R;
有获取外部数据的能力加分,如爬虫或熟悉公开数据集;
会基本的数据可视化技能,能撰写数据报告;
熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法;
高效的学习路径是什么?就是数据分析的流程。一般大致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实现一个数据分析师的学成之旅。按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。然后每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈和成就感,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。
按照上面的流程,我们分需要获取外部数据和不需要获取外部数据两类分析师,总结学习路径如下:
1.需要获取外部数据分析师:
python基础知识
python爬虫
SQL语言
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib
2.不需要获取外部数据分析师:
SQL语言
python基础知识
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib
接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。
数据获取:公开数据、Python爬虫
如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。
外部数据的获取方式主要有以下两种。
第一种是获取外部的公开数据集,一些科研机构、企业、*会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。
另一种获取外部数据费的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。
在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)
网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。
掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫*。
除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。
数据存取:SQL语言
你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。
SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:
提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。
数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。
数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理*度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。
数据预处理:Python(pandas)
很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。
比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。
那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。
对于数据预处理,学会 pandas 的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:
选择:数据访问(标签、特定值、布尔索引等)
缺失值处理:对缺失数据行进行删除或填充
重复值处理:重复值的判断与删除
空格和异常值处理:清楚不必要的空格和极端、异常数据
相关操作:描述性统计、Apply、直方图等
合并:符合各种逻辑关系的合并操作
分组:数据划分、分别执行函数、数据重组
Reshaping:快速生成数据透视表
概率论及统计学知识
数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:
基本统计量:均值、中位数、众数、百分位数、极值等
其他描述性统计量:偏度、方差、标准差、显著性等
其他统计知识:总体和样本、参数和统计量、ErrorBar
概率分布与假设检验:各种分布、假设检验流程
其他概率论知识:条件概率、贝叶斯等
有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……
你可以使用python的包 Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。
python数据分析
如果你有一些了解的话,就知道目前市面上其实有很多 Python 数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python 实现不同案例的假设检验,其实你就可以对数据进行很好的验证。
比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:
回归分析:线性回归、逻辑回归
基本的分类算法:决策树、随机森林……
基本的聚类算法:k-means……
特征工程基础:如何用特征选择优化模型
调参方法:如何调节参数优化模型
Python 数据分析包:scipy、numpy、scikit-learn等
在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。
当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。
系统实战
这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够完成分析任务,那么你就已经打败市面上大部分的数据分析师了。
如何进行实战呢?
上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。
另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。
开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。
你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。
在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:
员工离职预测训练赛
美国King County房价预测训练赛
北京PM2.5浓度分析训练赛
种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!
热心网友 时间:2022-04-08 09:05
数据分析师的职位要求 :
1、计算机、统计学、数学等相关专业本科及以上学历;
2、具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;
3、三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作;
4、对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳;
5、具备良好的逻辑分析能力、组织沟通能力和团队精神;
6、富有创新精神,充满*,乐于接受挑战。
1、态度严谨负责
严谨负责是数据分析师的必备素质之一,只有本着严谨负责的态度,才能保证数据的客观、准确。在企业里,数据分析师可以说是企业的医生,他们通过对企业运营数据的分析,为企业寻找症结及问题。一名合格的数据分析师,应具有严谨、负责的态度,保持中立立场,客观评价企业发展过程中存在的问题,为决策层提供有效的参考依据;不应受其他因素影响而更改数据,隐瞒企业存在的问题,这样做对企业发展是非常不利的,甚至会造成严重的后果。而且,对数据分析师自身来说,也是前途尽毁,从此以后所做的数据分析结果都将受到质疑,因为你已经不再是可信赖的人,在同事、领导、客户面前已经失去了信任。所以,作为一名数据分析师就必须持有严谨负责的态度,这也是最基本的职业道德。
2、好奇心强烈
好奇心人皆有之,但是作为数据分析师,这份好奇心就应该更强烈,要积极主动地发现和挖掘隐藏在数据内部的*。在数据分析师的脑子里,应该充满着无数个“为什么”,为什么是这样的结果,为什么不是那样的结果,导致这个结果的原因是什么,为什么结果不是预期的那样等等。这一系列问题都要在进行数据分析时提出来,并且通过数据分析,给自己一个满意的答案。越是优秀的数据分析师,好奇心也越不容易满足,回答了一个问题,又会抛出一个新的问题,继续研究下去。只有拥有了这样一种刨根问底的精神,才会对数据和结论保持敏感,继而顺藤摸瓜,找出数据背后的*。
3、逻辑思维清晰
除了一颗探索*的好奇心,数据分析师还需要具备缜密的思维和清晰的逻辑推理能力。我记得有位大师说过:结构为王。何谓结构,结构就是我们常说的逻辑,不论说话还是写文章,都要有条理,有目的,不可眉毛胡子一把抓,不分主次。
通常从事数据分析时所面对的商业问题都是较为复杂的,我们要考虑错综复杂的成因,分析所面对的各种复杂的环境因素,并在若干发展可能性中选择一个最优的方向。这就需要我们对事实有足够的了解,同时也需要我们能真正理清问题的整体以及局部的结构,在深度思考后,理清结构中相互的逻辑关系,只有这样才能真正客观地、科学地找到商业问题的答案。
4、擅长模仿
在做数据分析时,有自己的想法固然重要,但是“前车之鉴”也是非常有必要学习的,它能帮助数据分析师迅速地成长,因此,模仿是快速提高学习成果的有效方法。这里说的模仿主要是参考他人优秀的分析思路和方法,而并不是说直接“照搬”。成功的模仿需要领会他人方法精髓,理解其分析原理,透过表面达到实质。万变不离其宗,要善于将这些精华转化为自己的知识,否则,只能是“一直在模仿,从未超越过”。
5、勇于创新
通过模仿可以借鉴他人的成功经验,但模仿的时间不宜太长,并且建议每次模仿后都要进行总结,提出可以改进的地方,甚至要有所创新。创新是一个优秀数据分析师应具备的精神,只有不断的创新,才能提高自己的分析水平,使自己站在更高的角度来分析问题,为整个研究领域乃至社会带来更多的价值。现在的分析方法和研究课题千变万化,墨守成规是无法很好地解决所面临的新问题的。
技能要求:
1、懂业务。
从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。
2、懂管理。
一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
3、懂分析。
指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
4、懂工具。
指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
5、懂设计。
懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。
热心网友 时间:2022-04-08 10:40
目前很多想从事数据分析的,可能只会Excel,会做透视表,会VBA;进阶一点会写SQL,还懂点业务;再专业一些,有统计学基础,懂回归、时间序列、假设检验等等。这些对于专业的数据分析师,还都差了点火候。
如果你有心想发展成为一个数据分析师,或者说某业务的资深数据分析专家,从技术层面来讲,你需要了解成为一个数据分析师的路径,6个步骤:
第一步:统计、数据、机器学习
关于数学知识,大学课堂会学过一部分,如果是数学科学类的专业会学得更精深。关于统计学知识,还是需要一定思维的锻炼的。机器学习,可以看下西线学院的课程,有公开课。
第二步:编代码
如果希望拥有专业水准的话,从编程基础到端到端的开发,一些技术的语言,比如R、Python、和一些商业软件的SAS、SPSS等,以及深入的交互式学习,这些你至少精通几门,其他懂一些最好。
第三步:懂数据库
数据分析大多应用实际。企业数据常常被保存在MySQL、Oracle、Postgres、MonogoDB、Cassandra等数据库中,所以这些数据库你要了解甚至懂。
第四步:数据管理、数据可视化、数据报告
数据管理包括数据的清洗格加工ETL,目的是让分析前的数据更加准确和清晰,比如DataWrangler
数据可视化数据数据分析的前端展示,目的是让数据呈现更清楚明了,更形象,比如tableau,spotfire
数据报告是通过不同工具将数据展示出来,可以和数据可视化归类一起,但实际应用中大多数都是通过PPT的承载方式来呈现。
目前市面上很多公司都使用商业智能的工具,比如FineBI。
BI工具是数据连接,数据处理和可视化为一体的工具,比起上方的纯工具,能更好的适应业务。
第五步:大数据
大数据是未来的必然趋势,而大数据技术的类型也是多种多样,hadoop,maprece,spark等等,多学会一种,层次也就不一样。
第六步:积攒经验,学习同行
以上都是理论和工具,但是实践才是出真知,不管是刚接触数据分析的职场人,还是专业学习数据挖掘分析的你,都希望在学习以上内容的同时,多参加一些比赛,学习同领域的专业大神,训练自己在这方面的感觉。
当然,在实际应用过程中,大多数人不一数据分析为主业,数据分析只是分析业务的一个工具,那第四步的内容已经能够满足日常对业务的分析了,当然Excel和PPT的熟练掌握也是必须的。
热心网友 时间:2022-04-08 12:31
成为优秀的数据分析师你需要具备的技能如下:
数学知识
对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等。当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计。
而对于高级数据分析师,必须具备统计模型的能力,线性代数也要有一定的了解。
分析工具
对于分析工具,SQL 是必须会的,还有要熟悉Excel数据透视表和公式的使用,另外,还要学会一个统计分析工具,SAS作为入门是比较好的,VBA 基本必备,SPSS/SAS/R 至少要熟练使用其中之一,其他分析工具(如 Matlab)可以视情况而定。
编程语言
数据分析领域最热门的两大语言是 R 和 Python。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力不足,学习曲线比较陡峭。Python 适用性强,可以将分析的过程脚本化。所以,如果你想在这一领域有所发展,学习 Python 也是相当有必要的。
当然其他编程语言也是需要掌握的。要有把数据化为己用的能力, 这其中SQL 是最基本的,你必须会用 SQL 查询数据、会快速写程序分析数据。当然,编程技术不需要达到软件工程师的水平。要想更深入的分析问题你可能还会用到:Exploratory analysis skills、Optimization、Simulation、Machine Learning、Data Mining、Modeling 等。
业务理解
对业务的理解是数据分析师工作的基础,数据的获取方案、指标的选取、还有最终结论的洞察,都依赖于数据分析师对业务本身的理解。
对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。
逻辑思维
对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。对于数据挖掘工程师,罗辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的。
数据可视化
数据可视化主要借助于图形化手段,清晰有效地传达与沟通信息。听起来很高大上,其实包括的范围很广,做个 PPT 里边放上数据图表也可以算是数据可视化。
对于初级数据分析师,能用 Excel 和 PPT 做出基本的图表和报告,能清楚地展示数据,就达到目标了。对于稍高级的数据分析师,需要使用更有效的数据分析工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。
协调沟通
数据分析师不仅需要具备破译数据的能力,也经常被要求向项目经理和部门主管提供有关某些数据点的建议,所以,你需要有较强的交流能力。
对于高级数据分析师,需要开始带项目,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。
热心网友 时间:2022-04-08 14:39
数据分析师技能:
1、统计分析
大树定律、抽样推测规律、秩和检验、回归分析、方差分析等
2、可视化辅助工具
Excel、PPT、Xmind、Viso
3、大数据处理框架
Hadoop、Kafka、Storm、ELK、Spark等
4、数据库
SQLite、MySQL、MongoDB、Redis、Cassandra、Hbase
5、数据仓库/商业智能
SSIS数据仓库、SSAS MDX*数据集、SSRS、DW2.0
6、数据挖掘工具
Matlab、SAS、SPSS、R、Python
7、人工智能
机器学习、深度学习
8、挖掘算法
数据结构、一致性、常用算法
9、编程语言
Python、R、Java等
热心网友 时间:2022-04-08 17:04
CDA数据分析师分为*,适合以下人群
一级:应届生,数据分析小白
二级:拥有2-3年数据分析经验的从业者
*:数据科学家,适合资深数据分析师
热心网友 时间:2022-04-08 19:45
关于数据分析常用的技能有哪些,我相信看了上面这张图,你应该有一个清晰的认识了。
热心网友 时间:2022-04-08 22:43
推荐你看知乎的一篇文章 网页链接 写的非常全面,里面包含了学习的步骤,需要看的书籍,以及一些知识的扩展,我现在正走到了第三部,数据分析思维的锻炼,同时也在看一些相关的书籍,推荐《增长黑客》,是一本不错的数
热心网友 时间:2022-04-09 01:58
基本工具的掌握
理论知识的学习
分析思维的培养
一、基本工具的掌握
数据分析师三板斧:Excel、SQL、Python是数据分析师必知必会的3个基本工具
二、理论知识
统计学和机器学习两手都要抓、两手都要硬
理论知识这块,数据分析师最需要掌握知识是统计学和机器学习相关知识,但掌握到什么程度、掌握哪些领域,还是有些门道。
三、数据分析思维
没有比这个更重要的能力了
分析思维是数据分析师最最核心的竞争力,上面所学习的python、sql、机器学习知识等都是在工具层面,要想使用好他们,还需要分析思维的驾驭。在面试中,对分析思维的考察也是相当重要的一环。
对于分析思维的学习,我建议新人也是从读书开始:数据分析类/产品思维类/逻辑思维类.
热心网友 时间:2022-04-09 05:29
预测分析:预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险。
NoSQL数据库:非关系型数据库包括Key-value型(Redis)数据库、文档型(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。
分布式存储系统:分布式存储是指存储节点大于一个、数据保存多副本以及高性能的计算网络;利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。当前开源的HDFS也是非常不错的。
数据可视化:数据可视化技术是指对各类型数据源(包括Hadoop上的海量数据以及实时和接近实时的分布式数据)进行显示,当前,国内外数据分析展示的产品很多。
热心网友 时间:2022-04-09 09:17
Python、R、SAS等编程工具;对数据仓库需要了解可以去九道门做些实验项目;如果你觉得还是难,那就采用最基础的学习路径,直接买MYSQL关系型数据库的书看,随便到网上去找个免费的MYSQL课程听;;分布式存储HDOOP需要简单了解;云计算的技术作为了解就可以了;数据可视化不是很难,如果不要求特别美工的话,大家先理解图表,再研究研究仪表板,阿里云的Quich BI及DataV,百度的echarts都不错,主要是展示的业务结构需要规划;大数据技术:这个相对来说有些难度,如果是学数学统计类专业小伙伴就非常有优势了,其他专业的小伙伴也不用担心,毕竟工作后还可以继续学习,在工作中用的比较多的是聚类、关联、决策树、线性回归等,如果你不去做模型和算法工程师那么只需要会用就可以了,实在不行有专业的工具让我们用,阿里云的机器学习PAN是可以直接出结果的工具;。可以到天池大赛上去看一些案例,自己做做训练
热心网友 时间:2022-04-09 13:22
我是来自农村的一名很普通的女孩,17年大学毕业,现在在杭州一家大数据公司做分析师。想跟大家分享一下,我是如何从刚毕业的一张白纸,成长为一名大数据分析师的,希望我的学习成长心路历程,能够给到现在想往大数据分析行业发展的小伙伴一些参考。
我刚毕业的时候和现在许多学弟学妹一样,都非常迷茫,因为我对自己未来并没有一个非常清晰的职业规划,我不知道自己能够做什么?心里还有一些自卑,因为即便我很爱我的大学,但不得不承认,它只是一个很普通的大学,并非985、211。在如今大学生多如牛毛,激烈的就业环境中,我的学历和专业并没有太大竞争力,也有些后悔为什么大学期间没有再认真努力一些,但为时已晚。毕业,意味着新的人生起点,必须要勇敢面对,未来只能靠自己的能力在社会上生存和发展。
于是,就这样,带着对母校和同学们的不舍、对社会的彷徨、对自己内心的恐惧、以及家人给予我的期望迈入社会,开始了我的求职之路。找了半个月的工作,面试20来家,有3家成功的,但是开的工资最高3500一个月,并且2家是销售岗位,1家也不是我本专业的岗位(我的专业是信息与计算科学),我算了一下,就算我接受这些陌生并且不喜欢的岗位,在杭州这样的城市,合租房包水电物业费也得1500左右,公交一个月最少200,生活费最少900,电话费100,3500一个月的工资还要扣除五险一金,每个月还要倒贴。我简直快奔溃了,感觉自己很没用,连在城市生存下去的能力都没有,心里非常的沮丧。
也许命运就是这样,当你面临几乎绝望的时候,往往能审视自己,明白自己真的想要什么,静下心来的时候,我问自己,为什么企业不要我这样的学生?答案其实大家都知道,一是没有工作经验,二是啥都不懂不能为企业创造价值;三是面试的时候紧张、不自信、没有很好的表现自己。按这个逻辑分析下去,再找半个月我也不指望能出现奇迹,可能连我最后一点的自信都会被打击光。我隐约的感觉到需要重新定位自己,需要与其他同学拉开区分度,目前我学的这个专业和知识好像与企业要求的能力相差太大,如此分析后,摆在我面前的路有三条,一是接受3500的工作,熬个一年半载希望能加点工资,让自己在杭州生活下去,以后再谋发展;二是回老家的小城市随便找个工作以后结婚过日子;三是选择一个现在人才缺口大的行业,并且未来有前景的职业从头开始学习,这样至少我还比别人快一步。
去年社会上最热门的字眼就是人工智能、大数据,当时我在网上查了很多信息,看了很多新闻,也在招聘网站上查询大数据岗位的薪资和招聘人数及技术要求等情况,我发现大数据行业分二个方向,一是大数据工程开发类,二是大数据分析类,开发类的编程要求比较高,而分析类的编程技术要求相对低些,在网上找了一些分析课程听了一下,感觉还挺有意思的,也能听懂,相比与开发类,自己更喜欢也更适合分析类,所以就下定决心往数据分析这个方向进行学习。后面我花了10来天的时间去了解数据分析的前景和学习路径,但是网上的信息太杂乱,只能了解一个大概,在网上买了一些课,也买了好几本书,一个星期下来还是毫无头绪,本以为把HADOOP学会就能入门了,结果发现HADOOP搭建会了后面的SPARK太吃力;这时候我感觉还是需要去正式培训一下,自学找不到方向,也比较浪费时间;上天还是比较眷顾我的,我记得是去年的7月初,我在网上查大数据分析培训的时候,发现阿里云和他的内容提供商杭州决明数据科技联合推出一个《阿里云大数据分析师企业实战训练营》,需要选拨才能进入,抱着对阿里云品牌的信任,我进行了考试筛选,当时考的内容是两部分,一是数据库、二是C语言和JAVA;说真的JAVA一窍不通,没想到第二天接到通知说通过了,接下来需要电话面试,我当时就怀疑是不是骗人的,在电话面试的时候我就问了负责的老师,老师说是从250多个报名参加的学生中选10个人参加,主要是为新研发出来的课程体系做实验,我作为计算机相关专业、不懂JAVA只懂数据库的学生样本被选中了,另外面试沟通表达能力必须通过。突然有种被实验的感觉,这不是拿我做小白鼠嘛,我问还有其他样本是怎么样的,负责老师说,有一个是大三未毕业数学统计专业的、有一个机械工程三本学生、有一个软件开发专业的一本学生、有一个工作三年软件开发的学生、有一个工商管理专业的学生……我的个神了,当时就蒙圈了,这玩意万一实验失败我钱不就白花了,还浪费1个多月时间,我给父母说后没一个人支持我的,直到7月9号正式开营的前一天我才想明白一件事,在中国连阿里云这样的企业目前都没有一套完整的科学的课程体系,那其他家肯定也没有,如果是骗人的负责老师也没必要把做实验这事情给我说的这么清楚,最后一天选择了这个训练营,其实心里非常忐忑不安。
集训营10个同学一起学习35天,近2个月时间,经过系统的训练,我们10个同学被杭州7家企业录用,全部是数据分析岗位,有去电信的、有去外贸企业的、有去金融企业的、有去阿里系相关企业的,我和那个大三的学弟一起去了阿里系的企业,我试用期,他实习期,大家都非常的开心,说真的非常感谢阿里云和阿里云的合作伙伴决明数据科技的老师们,当时给我们上课的全部都是决明的老师,老师们都非常的专业负责,公司本来就是做企业商业数据咨询的,所以有很多商业案例跟我们分享,用的实验平台是九道门商业数据分析实验平台。
从小白鼠到入行,到现在也有小三年工作经验的我,给大家一个学数据分析师的学习路径,仅供大家参考;
1、 建议大家先学习MYSQL关系数据库,在分析师岗位上数据库是经常要用到的,也是必须要会的;
2、 建议大家接下来学习数据建模、数据仓库,ETL数据清洗,特别在工作中数据质量管理是比较重的,ETL是经常用的(当然数据清洗工具也有其他的,ETL是大家通用的);
3、 HADOOP分布式其实在分析师这个岗位上用的比较少,了解就可以了,因为现在分布式这块大公司都有现成的工具用,连搭建都不需要,直接用就可以了,非常方便。
4、 分析工具还是需要好好学一下的,建议大家学Python,现在公司里面大部分都是用这个,EXCEL也需要学习学习,一些小的数据集和简单的BI报表还是比较方便的。当然分析工具比较多比如R、SPSS,SAS等都是工具,就看你自己用什么了,会用一个熟练的工具就可以了。另外Python功能非常强大,也不需要研究太深,其实工作做在做项目的时候经常用很快就能学会的,毕竟只是个工具,就像EXCEL要想全部弄清楚所有功能那可不是一天二天的事情,而我们日常经常用的也就是那点东西。
5、 接下来需要学习机器学习,原来叫数据挖掘,现在叫机器学习,也有的叫人工智能,这个需要大家花点时间去学习了,我现在经常用的比如决策树、回归问题、分类问题、聚类问题、降维问题等,还有预测、无监督、最优化也经常用到,这门学科可能是需要我们长时间学习和研究的。
6、 算法方面其实我没有学过,在项目组里面有专门的算法工程师,另外有些通用算法是可以套用的,所以这方面我觉得项目组团队可以配合来做,这方面本人没有经验不做建议。
7、 我现在觉得分析师最重要的是看待问题、处理问题的思路,在这一年工作中我发现团队的大牛们解决问题的思路和我们真不一样,在每次项目组会议的时候我感觉学到的东西最多,那就是解决问题的思路和能力;而且分析师还需要对业务深入了解,因为不同的行业数据结构和业务逻辑都是不一样的,需要花时间去理解和学习;同时我也感觉到作为数据分析师还需要学习商业思维和营销知识。
8、 另外一个就是数据可视化,这个主要是把我们分析出来的数据结构用图像、动画等按时呈现出来。我现在正在做的就是数据大屏,工具很多,BAT公司都有自己的工具,当时老师教我们的时候教的是 Tableau,个人感觉非常好用,这个随便自己喜好了,做大屏可能需要一点美术功底,当然现在模板比较多,也可以套用。
9、 其实在学习的过程中要想学得快,最好是从项目案例入手,当时阿里云和他的内容提供商决明数据就是先让我们训练九道门实验平台上的23个场景案例,数据集全部做好放在服务器里,和我们现在工作的场景很像。老师上午讲知识点,下午和晚上我们就是做实操实验,工具老师基本上都不讲,在做案例项目的时候用到什么临时去查,二次下来工具就上手了。最后一周是加拿大的赵强老师给我们训练了一个大项目,模拟一个企业的数据分析项目,那5天是我最刻苦铭心的,虽然压力很大,分组进行,但是5天时间把我们原来所学的东西全部串起来了,一下子思路就通了,最后每个人还要上台去讲,也培养了自己的沟通能力和演讲能力,整个项目流程下来,受益匪浅。赵老师原来为世界500强企业做过数据咨询项目的,又是加拿大舒立克商学院的MBA教授,项目经验丰富,确实是国内少有的专家大咖,是决明科技的创始人,也是我现在上班这家公司的项目顾问,多亏了赵老师的悉心指导,让我在成为大数据分析师的学习之路上少走了很多弯路,真的蛮感谢赵老师的,也希望大家在学习的路上都能遇到这样的良师益友。
10、 最后一个建议就是大家还需要学习学习PPT制作和演讲,最近我们项目要陆续交付,每次交付都需要向客户进行讲解,每个人做的部分由自己讲,所以PPT制作和演讲都需要训练,亚历山大。
说了这么多,只能代表我这一年来的经历和感受,也不知道对学弟学妹有没有帮助,反正如果你们想往大数据分析师这个职业发展的话,建议大家一定要从项目入手去学习,工具要学但是不要研究太深,会浪费时间,工作后用起来上手非常快,如果自学没有头绪,培训还是很有必要的,但一定要找专业方面的人进行培训,我觉得我还是非常幸运的,遇到了阿里云以及杭州决明科技的老师们,如果学弟学妹们有这样的想法,可以去了解一下,当时我们是第一批培训的,不知道他们现在还在不在做,他们集训就是从项目入手,跟我现在工作内容十分相似,虽然集训过程很辛苦学的也很累,但收获与影响是巨大的。
我当时集训结束的时候就拿到了两个个公司的OFFER,一个是全球排名前十的游戏营销咨询公司,一个是我现在上班的XX云公司;当时选择的时候其实很痛苦,两个个公司都非常不错,因为我是在阿里云实验班出来的,我还是选择了阿里系的企业。
如愿以偿进入了大数据分析职业,天天做项目,非常开心,我相信我自己能在杭州好好的工作,好好的生活下去,毕业季,也祝小伙伴们能和我一样幸运,找到自己喜欢的工作。
最后感谢阿里云和决明数据科技的老师,同时也推荐想学大数据分析的学弟学妹们去九道门商业大数据分析实训中心,因为专业所以认同。
热心网友 时间:2022-04-09 17:43
上面两位说的话已经相当详细了,但是未来必然是人工智能的时代,要成为一名数据分析师,不仅仅需要懂业务,懂管理,懂分析,懂设计,更重要的是要学习使用工具,会学习使用各类国内外的bi工具,如tableau、永洪BI、Datafocus、BDP、finebi、PowerBI等,多学习一些技能。