想要自学爬虫

2016-09-17 10:25:21 +08:00
 miaoxu9999

最近开始看 python ,看到论坛里的大神们爬知乎等各种网站,求教程,

5981 次点击
所在节点    Python
21 条回复
AozakiT
2016-09-17 10:30:32 +08:00
google
uyhyygyug1234
2016-09-17 10:31:06 +08:00
不是有个手把手系列。。。
TimePPT
2016-09-17 10:37:28 +08:00
不建议一开始就学爬虫,如果仅仅是照猫画虎,会不求甚解,换个场景你就懵逼了。因为爬虫用到的不仅仅是 Python 的相关知识,还有包括 HTTP 请求,前端网页相关的知识。

建议先学会了 Python 本身的语法,然后从简单的 request 开始,理解 Get Post 请求, HTTP 的请求 head body ,知道 UA 的原理,知道什么是 session cookies ,然后试着解析静态 HTML 结构,理解什么是父级子级,最后试着解析 JS 生成内容,理解怎么处理 AJax 请求。 response 中返回的 XML 和 JSON 格式数据的解析。最后再去看怎么挂代理,怎么分布式爬虫,规模爬取内容的数据清洗与入库。

里面还涉及到七七八八,慢慢看吧……
frankmdong
2016-09-17 10:40:32 +08:00
GreatMartial
2016-09-17 11:48:17 +08:00
@TimePPT 正解,+1
kingcos
2016-09-17 12:44:52 +08:00
看慕课网的视频?

最近也在看,想爬点同学的证件照……(只是练练手。。)
loading
2016-09-17 12:48:23 +08:00
至少要先看懂 html 和知道 cookie 和 session 再学
wizardforcel
2016-09-17 13:48:34 +08:00
《图解 http 》+ requests 、 bs4 等库的文档。
sola97
2016-09-17 16:23:18 +08:00
我是从教务系统入手的..
上乌云->找现成漏洞->得到管理员帐号->学 python->学 HTTP 协议->写自动登录->抓取学生信息->正则或 Xpath 解析->存数据库->抓证件照->部署服务器->写 php->做在线查询
fahai
2016-09-17 16:24:07 +08:00
@sola97 第一步就挂掉了,然后就没有然后了
sola97
2016-09-17 16:29:13 +08:00
@fahai 从整站镜像里找
ila
2016-09-17 17:38:52 +08:00
找个简单的代码慢慢改,重要的是用 python3
billion
2016-09-17 20:55:18 +08:00
我在极客学院讲《定向爬虫入门》系列课程,以下是课程链接:

基本的正则表达式: http://www.jikexueyuan.com/course/777.html
Python 单线程爬虫: http://www.jikexueyuan.com/course/821.html
XPath 与多线程爬虫: http://www.jikexueyuan.com/course/902.html
简单的模拟登录: http://www.jikexueyuan.com/course/995.html
Scrapy 初探: http://www.jikexueyuan.com/course/1287.html
MongoDB 与 Scrapy : http://www.jikexueyuan.com/course/1439.html
Scrapy 与 Redis 入门: http://www.jikexueyuan.com/course/1556.html
动态加载网页的爬取: http://www.jikexueyuan.com/course/1713.html

以上课程基于 Python2 制作,以下课程基于 Python3 制作:

验证码识别, Selenium ,各种反爬虫机制突破: http://www.jikexueyuan.com/zhiye/course/28.html?type=4

目前正在做分布式爬虫的课程,很快就可以发布。
slysly759
2016-09-17 21:07:49 +08:00
@billion 看到老师啦
smilekung
2016-09-17 21:29:11 +08:00
python 搞爬虫是不是有传统啊,感觉新入门用 js 写爬虫超级方便啊
greatghoul
2016-09-17 21:36:55 +08:00
我就是一边学写爬虫,一边学习 py 的语法,相比干学知识点和语法,在用中学才是最棒的。
binux
2016-09-17 21:51:22 +08:00
学会写网站,你就会爬了。
peneazy
2016-09-18 07:01:42 +08:00
mark 一下
brucedone
2016-09-18 10:36:49 +08:00
如果你想用 scrapy 呢,我写了很多教程:
(1)分布式下的爬虫 Scrapy 应该如何做-安装
(2)分布式下的爬虫 Scrapy 应该如何做-关于对 Scrapy 的反思和核心对象的介绍
(3)分布式下的爬虫 Scrapy 应该如何做-递归爬取方式,数据输出方式以及数据库链接
(4)分布式下的爬虫 Scrapy 应该如何做-规则自动爬取及命令行下传参
(5)分布式下的爬虫 Scrapy 应该如何做-关于爬虫的调度机制与调度架构的构想
(5.1)分布式下的爬虫 Scrapy 应该如何做-windows 下的 redis 的安装与配置
(6)分布式下的爬虫 Scrapy 应该如何做-关于实时 Debug 的那些事儿
(7)分布式下的爬虫 Scrapy 应该如何做-关于伪装和防 Ban 的那点事儿
(8)分布式下的爬虫 Scrapy 应该如何做-图片下载(源码放送)
(9)分布式下的爬虫 Scrapy 应该如何做-关于 ajax 抓取的处理(一)
(10)分布式下的爬虫 Scrapy 应该如何做-关于动态内容 js 或者 ajax 处理(2)
(11)分布式下的爬虫 Scrapy 应该如何做-关于 js 渲染环境 splash 的一些使用技巧总结
(12)分布式下的爬虫 Scrapy 应该如何做-分布式的浅析
(13)分布式下的爬虫 Scrapy 应该如何做-另一种分布式架构

http://brucedone.com/archives/771

我不建议新人一上手就学框架,你至少要弄懂基本的 html ,css,javascript, http 请求,正则或者 xpath,数据存储,语言基础。
thisisx7
2016-09-18 11:38:27 +08:00
首先是这是是你要的爬虫教程,比较系统,可以跟着一点一点学习。
Python 网络爬虫系列教程, Python 中文社区出品 
https://zhuanlan.zhihu.com/p/22476800

顺带说下  Python 入门不一定从爬虫开始。
http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
来自廖雪峰,很好的 Python 入门教程

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/306719

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX