免费帮大家开发爬虫或者做数据分析,简单的数据挖掘

2017-11-09 15:59:03 +08:00
 golmic

看到 https://www.v2ex.com/t/404899 这个帖子作者在家无事,想想自己平时晚上和周末也很闲,自己擅长数据方面的工作,有需要的朋友我可以帮忙开发,当然是免费的!

顺便推荐一下做的网站,http://pyanalysis.org/ 大家都是些喜欢数据开发的朋友,现在有 200+注册用户,100+活跃用户。喜欢的朋友可以加我微信拉你进群,大家一起交流。

放邀请码数枚

7fa9def7-ff8f-4906-bafd-06fce099911f

8bbec81c-af1c-4d54-b1fb-0620820e10d9

5cf18335-653c-4bea-b52a-c4c7f85cb5cf

c7f8608c-811d-4467-83f5-2d7329d40ab6

ac5fbf4e-fc9c-4a3c-80ba-1235b3e50b04

b4da4773-de16-48e1-8f08-e4100a5b1713

ec20ed7d-735d-4336-a44d-6bc3adfe67df

b1241d69-68e9-4259-8a1f-61e6b51cb83f

a1e10035-b698-4e61-8b4b-11f26b6c5500

没抢到邀请码的小伙伴可以加我微信我给你。微信号在网站上有哦。

6267 次点击
所在节点    程序员
67 条回复
golmic
2017-11-10 13:10:51 +08:00
@ziokai #39 这个不难,我做过爬某个用户的最新微博的爬虫,其实差不多。
sacuba
2017-11-10 15:54:10 +08:00
求教那种动态跳转的页面如何爬取? 某个页面请求后先返回 202,然后再页内跳转一次才能显示正确内容,url 不变。 第一次返回的页面大部分为混淆加密后的数据。 之前一直用 scrapy 爬取,后来就不行了
golmic
2017-11-10 15:56:15 +08:00
scrapy 默认会自动跟进 302 的,你说的先混淆数据的这种一般不是 302,可能是 js 跳转,你可以发给我网址,不一样的地方不一样分析,我周末可以讲讲。
golmic
2017-11-10 15:56:30 +08:00
@sacuba #42 看上一层楼,忘记点回复了。
sacuba
2017-11-10 16:04:44 +08:00
@golmic #44 确切说是 202 网址发你吧,能提供个思路就很感激了,很久之前的项目了,aHR0cDovL3d3dy5tc2EuZ292LmNuL3BhZ2Uvb3BlbkluZm8vYXJ0aWNsZUxpc3QuZG8/cGFnZVNpemU9MjAmcGFnZU5vPTEmY2hhbm5lbElkPTk0REYxNENFLTExMTAtNDE1RC1BNDRFLTY3NTkzRTc2NjE5Rg==
windflyme5
2017-11-10 16:18:00 +08:00
alen
2017-11-10 16:20:25 +08:00
这页面写的一点也不走心......
golmic
2017-11-10 17:15:23 +08:00
@sacuba #45 我这边打开一直 403...
YICHUJIFA
2017-11-10 18:24:11 +08:00
想问下,可以爬 各个信用卡的活动吗 ?
golmic
2017-11-10 18:44:06 +08:00
@YICHUJIFA 爬虫这东西呢,你首先人能获取到,人也看不到的数据那爬虫也没办法,要不然就是黑客了。所以如果你人能获取到的话那爬还是没问题的
IamRobot
2017-11-10 18:55:39 +08:00
比较好奇爬虫技术

求问有没有技术 QQ 群或者微信群呢?
golmic
2017-11-10 19:26:13 +08:00
@IamRobot 有微信群,要加我微信才能拉你进去,扫码人满了
hallomou
2017-11-10 21:02:35 +08:00
想请问一下楼主看看能否爬取 Phyllis2 ( https://www.ecn.nl/phyllis2/Browse/Standard/ECN-Phyllis#)的数据呢?
这个数据库包含了各种燃料的属性数据,我想用这个数据来分析燃料的热值,谢谢。
golmic
2017-11-10 21:03:38 +08:00
@hallomou 你加我微信详细说一下需求好吧?我看了下应该不难
tuzhis
2017-11-11 07:39:55 +08:00
// TODO 爬取京东评论和图片再带点分析?
一直没时间实现😂
golmic
2017-11-11 12:29:10 +08:00
@tuzhis 可以做,我最近就想做电商的抓取
inmyfree
2017-11-11 12:58:56 +08:00
问下楼主 1024 的数据怎么爬。。。。[:dogge]
shendaowu
2017-11-11 20:09:04 +08:00
爬取知乎的收藏夹是否很难?我好像没见过知乎有收藏夹列表之类的东西,都是回答和收藏夹旁边推荐一些收藏夹。不加微信不给爬吗?加 QQ 行不行?还有能不能将结果可视化一下?或者尽量保持话题之间的结构,重复的表示一下。还有 wiki 的分类能不能可视化一下?我刚才好像找到能直接下载分类信息的地方了。这个: https://dumps.wikimedia.org/enwiki/20171020/enwiki-20171020-category.sql.gz
mingyun
2017-11-11 23:47:03 +08:00
@golmic 网站打不开呢 js 都加载不了,北京联通
smileghost
2017-11-12 01:32:02 +08:00
楼主加油,今晚的分享超极棒!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/404987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX