即使不会爬虫技术,也能轻松获取的重要数据

-回复 -浏览
楼主 2018-12-05 15:06:02
举报 只看此人 收藏本贴 楼主


很多做数据分析的同学,对数据的获取有一个误区,觉得在互联网上获取数据,必须通过爬虫进行爬取。殊不知,有些必须知道的数据,即使不会爬虫的技能,也可以轻松获取。


根据这些数据类型的不同,我把它们划分为实时数据、趋势数据以及关联数据,这里,我们先来了解一下,互联网上,有哪些基于地理位置信息的实时数据。


一、实时数据


实时数据,顾名思义,是事物当前状态的数据。更好的,经过整合的实时数据,可以为我们尽早地处理问题,提供最佳的契机。


那么,互联网上,有哪些实时数据可以唾手可得呢,下面我们先来看看,和地图,也就是地理位置有关的实时数据吧?


1、高德地图交通大数据,网址:http://report.amap.com


高德地图在所有的导航App中,目前市场占有量第一,通过高德地图交通大数据,我们可以得到很多关于交通方面的实时数据。


1)城市交通详情,通过高德地图交通大数据,我们可以轻松从网站上面,查出目前每个城市的拥堵指数,如下图所示:



点击到具体的城市里面,还可以看到每个城市的每个区域,交通的拥堵情况,如下图所示:



甚至还可以知道每条主干道的交通指数情况:



2)交通生活圈,通过高德地图交通大数据,我们可以轻松从网站上面,查出我国各大城市地标建筑在20、30、45、60、90分钟内,可以到达的地方,例如如果选择了广州的北京路作为出发地,30分钟内可达到的地区,如下图所示:



3)拥堵榜,通过高德地图交通大数据,我们可以轻松从网站上面,查出我国每个火车站、机场、收费站以及高速公路的拥堵指数,例如选择沈海高速,即可得到沈海高速目前每一段的拥堵情况显示,如下图所示:



4)交通预测,通过高德地图交通大数据,我们可以轻松从网站上面,查出我国主要城市未来一周的交通预测情况,例如选择广州市,广州市未来一周的交通情况,即可通过下图进行了解。



5)交通报告,通过高德地图交通大数据,我们可以轻松从网站上面,下载到城市或者省份对应的交通报告,如下图所示:




6)跨城出行,通过高德地图交通大数据,我们可以轻松从网站上面,查看到某两个城市之间,迁入、迁出的情况,例如选择迁出为广州,得到的数据如下图所示:



2、腾讯位置大数据,网址:https://heat.qq.com


众所周知,腾讯拥有移动互联网时代人人都安装的软件微信,因此,在位置大数据方面,腾讯提供的位置大数据,必须是最准确的。


1)位置流量趋势,通过腾讯位置大数据,可以得到一个地区,例如下图广东省广州市广州长隆区域的位置流量信息,可以看到,除了提供历史的流量数据,腾讯位置大数据还提供了一天接下来的时间段的预测数据,可以通过预测数据,避免高峰出行。



2)区域热力图,通过腾讯位置大数据,可以得到一个地区内,每个时间点的人数人力图,如下图所示。



3)人口迁徙图,输入迁出/迁入的位置,即可得到迁徙图,如下图所示,类似高德出行大数据中的跨城出行的数据。



4)数据接口,腾讯位置大数据,为数据分析师提供了友好的数据接口,我们可以直接使用对应的数据接口进行数据的访问呢,简单实用,如下图所示。



3、百度迁徙地图,网址:http://qianxi.baidu.com/


百度基于百度地图做的百度迁徙地图,可以获取到路况、迁徙、景区、枢纽、购物以及游乐场的实时数据。


1)路况,可以从中查看每条高速公路上的交通情况,如下图所示:



2)迁徙,只能看到全国的迁徙情况,如下图所示。



3)景区、枢纽、购物、游乐场,都是根据某个区域进行热力图的展现,如下图所示,就是杭州西湖的人流热力图。



4)PM2.5空气质量,网址:http://www.pm25.in/


PM2.5作为空气污染的重要指标,在pm25.in网站中,可以查询到,每个城市的PM2.5值,例如,从首页进去之后,选择广州,即可得到广州每个监测点的PM2.5指标数据,如下图所示:



作为一个开源项目,PM25.in还为开发者提供给了API调用接口,真是一个良心项目。



5)电视实时关注度,网址:http://eye.kuyun.com/web/


酷云EYE网站可以查看当时全国每个电视台播放节目的关注情况,如下图所示:



6)票房实时大数据,网址:http://piaofang.maoyan.com


猫眼票房专业版,可以查看当前所有播放电影的实时票房情况,如下图所示:



二、趋势数据


要了解趋势数据,首先要知道什么是趋势分析。当我们要分析的数据,是由两个时间点限定时,这类的分析,我们称为趋势分析。


下面我们来看看,有哪些现成的互联网数据,可以实现趋势分析。包括:

  • 微信指数(网址:小程序)

  • 微博指数(网址:http://data.weibo.com/index)

  • 百度指数(网址:http://index.baidu.com/)

  • 头条指数(网址:https://index.toutiao.com/)

  • 360趋势(网址:http://trends.so.com/index)

  • 腾讯浏览指数(网址:http://tbi.tencent.com/)

  • 谷歌探索(网址:https://trends.google.com/trends/explore)

  • 高德指数(网址:http://i.amap.com)

  • 阿里指数(网址:https://alizs.taobao.com)

  • 谷歌探索(网址:https://trends.google.com/trends/explore)

  • 学术趋势(网址:http://trend.cnki.net/TrendSearch/index.htm)

  • 飞常准航空数据(网址:http://www.variflight.com)

  • 农业大数据应用云平台(网址:http://www.dataagri.com/agriculture/index.action)


下面以百度指数为例,演示一下如何使用趋势数据。


最近,有两位名人去世了,分别是物理学家霍金以及文学家李敖,我们来查询一下,网民对两位名人的去世的关注程度是怎样的。



在关键字那里先输入霍金,然后添加对比词,输入李敖,点击确定,即可得到两个单词的热度对比图。从上图我们可以看到,霍金去世网友的关注度的最高点(蓝色曲线),远高于李敖去世网友关注度的最高点(绿色曲线)。

三、关联数据


要了解关联数据,首先要知道什么是关联分析。关联分析的目的,是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。


关联数据可以通过百度指数提供的需求图谱进行查阅,同样,我们使用霍金和李敖两个关键字,来查阅他们的需求图谱是什么。



除了图形,往下拉还可以查看具体的相关词以及对应的热度列表。



以上,就是数据分析师必须知道的互联网中常用的数据了,赶紧收藏分享吧!!




我要推荐
转发到

友情链接