想放弃了,这种挫败感,自学的障碍

2016-07-30 10:56:26 +08:00
 vtea
本人小白,这几天自学 python 爬虫,爬单位内网 oa 。
各种不顺利啊,单位 oa 要工号密码登录,一段时间自动断开,同时是用 ajax 的动态网页。

起初学 python 一直用标准库, cookie 一直获取不到也登录不了,不知原因,后来发现 requests 第三方库好,又下载了,依然不成功。

下载了几本 python 书,看着作用不大,网上类似的教程看了也不成功, python 自带的文档看不太懂。

感觉自己还是因为学的不系统,直接拿来主义,很多东西都不是太了解,网页的基础知识欠缺,只知道 fiddler 抓包看看 post/get 。

折腾了几天,感觉没什么收获,只会爬爬简单的静态网站。单位都是采用 ajax 的 asp 网站,克服不了,这种挫败感让人想放弃。。。
4991 次点击
所在节点    随想
42 条回复
ytmsdy
2016-07-30 14:27:15 +08:00
ajax 是最好抓的,请求简单,返回的数据又标准。
lxy
2016-07-30 14:40:07 +08:00
我一直觉得爬虫不是新手能够随便上手的东西,简单的静态页面就罢了,遇到稍微复杂点的就容易懵逼。爬虫需要了解一些前端和后端的基础知识,至少知道整个请求交互过程是怎样起作用的。
wizardforcel
2016-07-30 14:43:23 +08:00
fiddler 也可以发包的。先用 fiddler 调通了再写 python 吧。
gpw1987
2016-07-30 14:45:32 +08:00
不好着急呀,有些东西自学是比较枯燥的,所有好的教程还是很有必要的。
dreamcog
2016-07-30 16:10:10 +08:00
慢慢来~~~以前看过一篇文章,讲如何成为编程高手。大概的意思是说,千万不要相信 XXX 上面的《 15 天精通 XXXX 》,《 7 天成为 XXX 高手》,真正成为一名编程高手需要 10 年。

最初做项目的时候,我从来没有学过程序,只会做设计和一些 HTML ,后来就自己学 PHP,JS,PYTHON 。直到今天我也会发现每天都在进步,都学习到更多的知识。最重要的事情是找一个 TODO 把要做的事情写下来,然后去一个一个攻克它,最后发现进步的还是自己。

一定需要兴趣,慢慢来的决心。
vtea
2016-07-30 16:13:21 +08:00
@loading 不知数据库密码。。
@phperstar 我也是这么想的,只是发现自己欠缺很多知识
@xiaoshangmin 大神。。。受我一拜
@xgfan 我改去学 ajax
@hellojinjie 恩,是的,有很多前辈的经验
@a412739861 这个我知道,只是很多看不懂
@terence4444 是的,抓普通网页保存到 txt 会弄,现在想抓单位的 oa 却不行了
vtea
2016-07-30 16:18:27 +08:00
@markx 恩,是的,渐进吧
@icedx 好的大神,求联系方式(手动斜眼)
@Ahri 恩,要学习的很多
@yamyamyuo 恩恩,谢谢指点
@buckyRRRR 因为基础学过 vb ,所以直接想用 python 了,发现遇到好多问题
@UnisandK 哦哦。一个 chrome 插件,我用 fiddler 抓包的
@lxy 对对,就是这个感觉,简单的静态网页还行,遇到复杂的就懵逼了
@wizardforcel 恩,谢谢指点
@gpw1987 个人感觉有目的驱动比较好,但是自己遇到了大难题,有种挫败感
@dreamcog 恩,慢慢来,谢谢指点
cfans1993
2016-07-30 16:21:23 +08:00
@dreamcog 我看的版本和你不一样, 我看是 30 天精通 java, 第一周学习基本语法, 第二周 io, 第三周多线程, 第四周研究时光穿梭机, 第 30 天穿越回 10 年前且杀死自己, 然后重新开始学习... :D 纯属娱乐
a412739861
2016-07-30 17:03:57 +08:00
@vtea 补充一下楼上的 Postman 是 chrome 的一个插件。
我用的时候是,开 develop tool 看页面结构,
使用方法,可以看一部分这个,虽然我也没看全: https://github.com/CN-Chrome-DevTools/CN-Chrome-DevTools
fiddler 抓包应该问题不大了。我还遇到过 js 加密的…… ajax 没遇见过,所以不是很了解。
我用的 requests+BeautifulSoup4 ,后者解析网页用的,不知道你这用不用的上。
icedx
2016-07-30 17:13:16 +08:00
956815 零 82
vtea
2016-07-30 17:31:08 +08:00
@a412739861 恩,谢了
tairan2006
2016-07-30 17:32:40 +08:00
看到标题我还在猜,楼主是在自学 Haskell/Scalar 还是 Rust 呢…

结果竟然是 Python 爬虫,这个其实不难的,动态网页你可以用无界面浏览器,等它加载完了不就是静态网页了。。
seandor
2016-07-30 17:33:33 +08:00
我也有过这种经历,以前想爬别人一个博客,我发现右键可以查看源文件里面显示的阅读量的数字,但是我爬虫却抓不到,然后就在网上问别人,别人告诉我这是动态的数据,还说什么 JSON 之类的。那时我连 JSON 是啥都不知道, AJAX 也不知道是啥。后来就放弃了。

不过最近有了一些新的感悟。我那时搞不定那个数据抓取的问题是因为我面前有一道知识断层,除非我花时间耐心地将这些知识补齐,我是很难跨越过去的。自学就很容易遇到类似的问题。
vtea
2016-07-30 18:04:58 +08:00
@tairan2006 咦,这些思路不错。。
@seandor 对、对,就是这样的,因为前面知识有断层,所以各种碰壁,现在开始补知识
Stupitch
2016-07-30 20:24:50 +08:00
直接上爬虫,当然问题多多,而且没有方向,先把 Python 基础掌握好了吧,到时候就能懂自己到底要干啥了
zzzreg
2016-07-30 20:30:11 +08:00
asp 的页面可能爬起来没有那么简单。。之前想爬学校一个设备管理的内部网站,看了一下点击每个链接都是 post 一个表单,表单里一堆莫名其妙的数据, url 根本没有变化。。所以你要去哪个页面必须先到主页,再一步一步点过去,保存书签也是不行的。目测是拿 vs 拖出来的,这种网页还真不好爬。。
sola97
2016-07-31 02:00:09 +08:00
之前爬教务系统,写了好几天,抓了部分数据,最后还是拿着现成漏洞直连数据库了
eoo
2016-07-31 07:24:06 +08:00
首先你得会基本的 http 协议和 Python 爬虫所需要的模块。
scg16
2016-07-31 10:03:59 +08:00
我也想自学 python 呢,还没开始
求楼主指路
BlueMeow
2016-07-31 13:54:41 +08:00
@zzzreg “莫名其妙的数据”应该是 base64 ,解码下即可知道内容。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/295959

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX