V 友们,问个关于小说采集的问题?

2014-09-29 11:56:07 +08:00
 rogeecn
很想知道那些小说采集站点都是从哪里采集的资源。
关于版权的问题他们怎么解决。
服务器放在国内的采集站怎么解决当前版权问题?
3949 次点击
所在节点    PHP
11 条回复
zqjilove
2014-09-29 12:36:59 +08:00
1、起点等几大知名的小说平台,付费账户采集(其中一种情况)。
2、不解决,权当不知道来源,再写一个免责申明什么的自欺欺人。
3、没什么好的建议,很难完全避免,除非明确抓取没有版权限制的内容。
tabris17
2014-09-29 12:42:50 +08:00
起点以前的被盗的小说都是图片格式的,现在好像都是文字的了,难道是OCR出来的?
faceair
2014-09-29 13:09:09 +08:00
@tabris17

贴吧有人肉转码,然后有些小说站从贴吧抓(也可能是人肉更),然后更多的小说站从这些小说站抓,基本就是互相爬

版权问题就不要想了,或者你把自己伪装成搜索引擎,现在UC的神马搜索、QQ浏览器自带的小说都是这么干的
pythoner
2014-09-29 13:26:06 +08:00
我大采集圈的脸都被那帮垃圾站给丢光了
pockry
2014-09-29 14:49:09 +08:00
采集小说可以,个人看看就行,别提供到网上。真要捉你,你能进去。
gamexg
2014-09-29 18:33:51 +08:00
@faceair 应该是机器OCR ,新内容出来搜索引擎10分钟内就能搜到盗版。人工做不到这么快。贴吧速度也没有盗版小说站快。
qiayue
2014-09-29 18:41:28 +08:00
@gamexg 贴吧手打组,内容出来一分钟之内截图,分配任务,一人一百字左右,十分钟完全足够
09年注册了一个女号混进了一个手打组卧底半个月
lookhi
2014-09-29 18:47:50 +08:00
哪里需要那么麻烦,起点有个bamboo电纸书...
GhostFlying
2014-09-29 20:07:04 +08:00
顺带起点我记得有段时间提供过文字版的vip,在移动端,不过不知道现在怎么样
dangge
2014-09-29 20:47:23 +08:00
@GhostFlying 已经关了 上架后就是一小块一小块图片了 不过字体很容易识别。
Daniel65536
2014-09-29 21:37:54 +08:00
走Win版云中书城的接口,可以获得简单加密的文本。
走wap版起点可以获得纯文字版文本,无加密,有概率图片。
图片版字体是方正启体简体,知道这个就很容易ocr了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/136317

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX