关于爬虫接活,我感觉好忧桑……

2019-01-31 11:22:06 +08:00
 XxxxD

事情是这样的,我工作外学了点 python 爬虫,然后在我的淘宝店铺弄了个帮人代爬虫的链接,设置基本价格是 20 元。

然后昨天有个人在淘宝找到我说需要下载德语的发言,就是给我一个 excel 表格,里面总计 114184 个德语单词,然后需要爬取德语的发音,并且以德语词命名+.mp3 。

一开始他提供爬取音频的地址是德语助手,我去瞄了下,有个 api,用的是 base64 加密,好像也不是很难嘛,而且这是我接的第一个活,然后我就说¥ 20就行了,因为我感觉最主要练手嘛,也是第一个,便宜点没事。

然后我测试下载了几个给他听,然后他说长词像人工合成的,让我又换一个网站 dwds.de, 这时候我已经感觉有点不爽了,然后他发了一个红包过来,说润笔费,我压下不爽,然后继续又瞄了下,dwds 有个音频的 api,但是链接有点没规律,不过网页中可以用正则找出音频链接,然后下载,好吧,继续干活,红包我没开,我是想着弄完了再打开,这样对对方比较尊重一点。

然后昨天晚上开着电脑刷的,快 12 点开始刷的,尽量不给网站造成负担吧,然后今天早上过来再筛选了一下。

表格里面是 114184 个单词 然后弄成元组是 114073 个单词,筛选掉重复的 然后爬取到的音频是 113963 个 然后差集一下是 122 个大小写不一样的,我重新刷了 120 个,还有 2 个不知道是什么情况。

Window 中一个文件如果只是大小写不一样会显示覆盖,或者加编号,没办法仅大小写不同的文件存在,哦,其中我还遇到一个问题是删除掉非 mp3 后缀的用 os.remove(), 一直显示文件不存在,试着修改 shell = True 没用,后面是加上了路径才删除掉的。

哦说回正事,就是我弄完之后打开发现润笔费是 3.68 元…… 3.68 …… 3.68 ………我打开都惊呆了好么,我技术也不是很厉害,昨晚弄到差不多 12 点回去睡觉,突然有感前面看到的几个帖子说熬夜接活,突然觉得自己很厉害呢,然而……现在,我感觉我被伤害了……虽然说也学到了一些东西,如果我当时打开了红包,我一定会把这个钱甩还给他,然后取消订单的!!! orz

所以是我接活的方式不对嘛? 你们接爬虫活类似这种可以定价多少啊?? orz

另外再宣传下我出售的东西,看帖子 /t/529151

再另外,码农码农,真的是农呢

782 次点击
所在节点    二手交易
42 条回复
XxxxD
2019-08-28 16:21:45 +08:00
回头是岸
@kajweb
kajweb
2019-08-29 03:57:06 +08:00
@XxxxD 老哥消失的第 208 天

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/532091

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX