数据采集,当然要全套! 不光要采得好,也要能一溜烟的顺带完成场景化、数据可视化。
还要方便上传下载到处传播有没有!
数据采集: 造数 数据可视化: BDP (造数可以无缝接入)作为数据爱好者,可以说我们一直痴迷各处采集数据自己分析 已经很久,深感一个好的通用爬虫可以极大的提升幸福指数。使用产品请戳下面:
造数 – 来这里体验新一代智能云爬虫(http://zaoshu.io/)
下面讲几个数据采集的故事,让大家发现数据采集带来的全新视野。
【看房价变化】
最近痴迷于品尝手搓牛肉的老王听说新政策下来,成交量萎缩,房价有所下跌,深感吃了这么多手搓牛肉终于可能有能力买一套房子。
可是感觉很多人只是在网上胡说八道,并没有一点数据支持啊!
最近关于房价涨跌众说纷纭,究竟房价是涨是跌,能不能从各大相对靠谱的网站采集自己要的数据,每天给自已一份简报呢?
操作流程
找到 北京二手房 成交查询 ,把网址粘好,贴到造数上,开始爬取任务。
就爬取50页好了
定个时,每天8点爬一遍,把结果发到邮箱
三步获取每日房价数据
【数据积累起来效果显著】
数据日积月累可以逐渐做出自己的数据轨迹。
可以看到一线城市成交套数平均同比明显是下降周期。
二手房成交套数 8 周移动平均同比增速看来青岛的房子环比增速排名非常靠前,估计大家喜欢买了顺便吃 38 一只的大虾。
江门的房屋成交下降的比较异常,可以瞄一眼。
二手房本周成交套数环比增速
【寻找好吃的店铺】
住在城东的老候想用数据自己找找好吃的饭店,跟一跟评论,琢磨怎么把自己的饭店开好,看看大家都对饭店有什么意见。
在大众点评上有很多商家信息,想看看上海有哪些不错的火锅店,使用造数采集人气最高的100家店铺 上海火锅美食-大众点评网
和爬取链家网一样,选择元素,设置翻页规则,爬取前10页数据
https://www.dianping.com/search/category/1/10/g110o2p{{1-10}}地址、电话、推荐菜和评论全部抓到手。接下来就是对数据的分析了
将这些数据导入BDP,看看会有哪些有趣的结论
根据点评数量的排名
店铺名的词云鉴于上上谦火锅如此火爆,我们把评论拿去分析
情感分析
【舆情监控】
很多人喜欢刷剧,不过如果能用数据看剧就好了爱好写程序的老徐每天都要花很多时间在他热爱的代码事业中,但是同时他也想每天知道什么视频播放量在悄悄上涨,什么样的新闻点击量在上扬。对于自己的爬虫课程,他也想关注每天某些时段的播放量等等数据,更进一步的,他想知道增量如何,做一个模型。
2分钟学习如何操作造数(
http://v.youku.com/v_show/id_XMjQ3ODUzOTg2NA==.html)对电视剧播放量的采集,设置定时执行,拿到数据
维护好自己的数据,大家也可以有自己的搜索词排行榜:
【市场线索】
热爱给邻居村庄修路的老王,以前总是从老李那里问询原材料费用,最近他发现用 造数可以解决问题,他采集了很多水泥信息:
数据交叉起来,发现更多有意思的关联性:
有的有明显正相关,有的只是正好撞上,但是我们知道:
自从数据可以定时采集,不用再费力的复制粘贴,
老王已经在数据探索的路上停不下来了。
【结语】
没时间解释了,快上车!
造数 – 就是这么好用的爬虫工具
(如果你自己也想写一个,我有一篇文章写了雏形的架构加了雏形的代码)
http://zaoshu.io/