mongodb怎么导出excel数据
没有编程和统计基础,适合学习数据分析吗?
没有编程和统计基础,适合学习数据分析吗?
严格的来说如果没有编程或统计基础的人员,做数据分析时不适合的。因为数据分析是至少要具备一定的条件的。但如果是想进入这个行业的话,还是有办法的。比如:数据分析工具用到很熟练,也可以先入行,比如:Excel、PPT、Xmind、Visio等等。那要做一名合格的大数据分析师要具体哪些技能呢?
1、统计分析。数学及统计学相关的知识。比如大数定律、抽样推测规律、秩和检验、回归分析、概率等等。
2、数据处理及分析工具。用得比较多的比如:Excel、PowerBI、SPSS统计基础、TableAu。
3、大数据相关处理框架。用得多的比如:Hadoop系列的MapReduce Shuffle/Zookeeper框架、HDFS HA及二次排序、YARN资源管理及MapReduce Join等等。
4、数据库知识。常用到的数据库:SQLServer、Oracle、Mysql、SQLite、MongoDB、Redistribute、Hbase等。
5、数据仓库/商业智能。SSIS数据仓库,多维数据集等。
6、数据挖掘或获取工具。Matlab、SAS、SPSS、R、Python等等。
7、人工智能的机器学习等。
8、挖掘算法。数据结构、一致性、常用的算法。
9、编程语言。Python、Java、R、Ruby等。
上述说的是要掌握得比较全面的情况,有些会把工种分得更细。一般单纯的作为数据分析师的话,起码要掌握数据的统计方法、挖掘算法、数据的处理及分析等,其它也要逐步了解。
如何使用python抓取豆瓣的电影评论信息?你有哪些技巧分享?
这里以python为例,简单介绍一下如何爬取豆瓣电影评论信息,因为评论信息是静态加载的,所以爬取很简单,特别适合初学者学习,下面我简单介绍一下实现过程,实验环境win10 python3.6 pycharm5.0,主要内容如下:
1.这里假设我们要爬取的是《一路好戏》的影评信息,包括评论人、等级、日期和评论内容,如下,地址_scoreampstatusP:
对应网页源码内容如下,需要解析出以下内容:
2.对应网页结构,爬取源码如下,主要用到requests和BeautifulSoup,其中requests用来请求页面,BeautifulSoup用来解析页面,提取出所需信息,原理很简单,实现也不难:
3.影评信息爬取完成后,就需要存储爬取到的信息,这里以存取到excel文件为例,主要用到pandas的DataFrame类,很简单,如下:
程序运行截图如下,已经成功存储豆瓣影评信息:
至此,我们就完成了利用python来爬取豆瓣影评信息。总的来说,整个过程不难,结合requests BeautifulSoup,我们可以快速爬取豆瓣的影评信息,对于初学者来说,这是一个很不错的练习实例,后面熟悉后,也可以结合scrapy框架来爬取影评信息,将爬取到结果存储到mysql,mongodb等数据库中,这里我就不详细介绍过程了,感兴趣的可以搜一下相关资料,希望以上分享的内容能对你有所帮助吧。