第一次写 Python 爬虫,是用来抓漫画的

2015-12-24 17:14:06 +08:00
 RqPS6rhmP3Nyn3Tm

自觉写得很烂,放上来听听各位大神的意见。
https://github.com/XIAZY/ComicFetcher.git

动机是因为想看的漫画没有打包好的,就只能写一个了。目前处于_只是能用_的状态。

8592 次点击
所在节点    Python
56 条回复
kepenj
2015-12-24 18:34:01 +08:00
二次元友人,手动点赞
RqPS6rhmP3Nyn3Tm
2015-12-24 18:37:03 +08:00
@FrozenYogurtPuff 那个据说是站长作死,把元老都赶出去了……
Andy1999
2015-12-24 18:45:21 +08:00
老司机愿意一起做 ACG 站吗
Earthman
2015-12-24 18:49:54 +08:00
@FrozenYogurtPuff 腾讯的新闻写的是广州角川举报
xuzywozz
2015-12-24 18:50:56 +08:00
前段时间用了 scrapy 感觉还挺不错的
RqPS6rhmP3Nyn3Tm
2015-12-24 18:56:36 +08:00
@Andy1999 想倒是想,就是水平不够
做站基本就是 wordpress 的水平
Andy1999
2015-12-24 19:07:32 +08:00
@BXIA join us http://jq.qq.com/?_wv=1027&k=blPpWN
We need someone write python
caixiexin
2015-12-24 19:13:12 +08:00
年初用 py2.x 写过一个爬爱漫画网站的,下下来放电纸书看,结果到现在只看完一本 233333

lz 加油, mark
holy_sin
2015-12-24 19:27:11 +08:00
@TJT 搜迪斯噶
bdbai
2015-12-24 19:32:23 +08:00
@Andy1999 为什么你这句话各种违和呢。
@BXIA 很佩弧你第一次写爬虫写这么好。这是我用 Python 写的第一个脚本,用来抓微博图片的。不能更丑了。
https://github.com/bdbai/weibopic-crawler
icedx
2015-12-24 19:36:11 +08:00
https://gist.github.com/anonymous/c95fd30a078b74e83e32

这个是我写的 抓取 DMZJ 的日漫 本来是想作为插件的...
但是一直写不好插件化的架构
放出来互相学习一个😋
这个是学习 Python 一周的早期作品 PEP8 什么的完全不知道 23333333333
icedx
2015-12-24 19:37:49 +08:00
@icedx 附: 上面的脚本需要 PATH 里有 node
Bryan0Z
2015-12-24 19:43:21 +08:00
I completely understand that English-speaking people won't use this crawler. Just scroll down for Chinese explanation.
为什么总感觉楼主在卖萌 2333
limbo0
2015-12-24 20:44:30 +08:00
海贼, 哈哈

```
'海賊王(\d+)集','/vols/(\d+)/

http://comic.ck101.com/comic/170/1/0/1
```
mio4kon
2015-12-24 20:45:47 +08:00
@TJT 求个码啊。。
limbo0
2015-12-24 20:46:25 +08:00
不知道封不封 IP 啊 可以改个多线程下
FrozenYogurtPuff
2015-12-24 20:49:10 +08:00
@Earthman 想想看 角川在国内和谁合作啊
binux
2015-12-24 21:28:52 +08:00
那, 既然 README 说要按格式写出正则, 那至少把可配置的部分独立出来, 好让人知道在哪改吧, 不然还得看代码.
然后既然可以配置了, 不可能每次配置复制一份代码吧, 所以把它做成类, 把参数传进去可好.
RqPS6rhmP3Nyn3Tm
2015-12-24 21:43:03 +08:00
@binux 有点没理解。就是说把正则匹配的那块做成类暴露给用户?
binux
2015-12-24 21:45:39 +08:00
@BXIA 啊, 居然是 input() 读入的... 好吧.. 也行吧..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/245894

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX