V2EX 首页   注册   登录
 revotu 最近的时间轴更新

revotu

  •   V2EX 第 237399 号会员,加入于 2017-06-27 12:40:54 +08:00,今日活跃度排名 15657
    revotu 最近回复了
    @zhengxiaowai 多谢讲解的这么细致及相关资源链接,我这种小白学到了不少。话说回复确实不支持 markdown,我之前也好奇为啥回复不支持 markdown 啊
    idValues = re.findall(r'#([\w_-]+)',content)

    我想知道 我这种匹配 id 的时候 怎样能排除那种后面紧跟着着分号的:

    background-color: #fff;

    排除了这种 我的匹配 id 应该就准确了吧
    @ShindouHIkaru 注释可以不考虑 , 可是派生选择器 得考虑 所以我是宁可多了一些 没有少

    还是没有准确得到我想要的, 但也很感谢了 提供的思路
    @ShindouHIkaru

    classValues = re.findall(r'\.([\w_-]+)',content)

    idValues = re.findall(r'#([\w_-]+)',content)

    但是会多出好多并不属于 ID 和 class 的值,

    比如下面情况:

    background-color: #fff;
    -webkit-box-shadow: 0 0 2px 0 rgba(31, 31, 31, 0.07);
    26 天前
    回复了 revotu 创建的主题 程序员 百度的 spider 有啥策略么
    @operafans 多谢解释 哈哈 嘿嘿!!!
    26 天前
    回复了 revotu 创建的主题 程序员 百度的 spider 有啥策略么
    @operafans 在百度站长那提交了 sitemap,后台显示抓取也正常

    但是, 为啥 site:www.revotu.com 还是只有首页?
    27 天前
    回复了 donglongtu 创建的主题 Python Python 检测文件夹为空则删除
    Python 文件操作相关问题 :www.revotu.com/python-file-operation-related-issues.html

    ```Python
    try:
    os.rmdir(directory)
    except OSError:
    pass
    ```
    27 天前
    回复了 donglongtu 创建的主题 MySQL MySQL 如何从 datetime 类型的字段选择 date
    MySQL 时间处理相关函数 : http://www.revotu.com/mysql-date-and-time-functions.html


    WHERE DATE(created_at) = '2017-06-29'

    或是

    WHERE created_at LIKE '2017-06-29%'
    28 天前
    回复了 donglongtu 创建的主题 Python Scrapy 如何得到原始的 start_url
    Scrapy 爬虫常见问题总结 : http://www.revotu.com/scrapy-reptile-faq.html

    利用 Request 中的 meta 参数传递信息

    def start_requests(self):
    start_url = 'your_scrapy_start_url'
    yield Request(start_url, self.parse, meta={'start_url':start_url})

    def parse(self, response):
    item = YourItem()
    item['start_url'] = response.meta['start_url']
    yield item
    28 天前
    回复了 donglongtu 创建的主题 Python Scrapy 中 xpath 用到中文报错
    参见文章:[解决 Scrapy 中 xpath 用到中文报错问题][1]

    ## 解决方法 ##
    方法一:将整个 xpath 语句转成 Unicode
    ```Python
    links = sel.xpath(u'//i[contains(@title,"置顶")]/following-sibling::a/@href').extract()
    ```
    方法二:xpath 语句用已转成 Unicode 的 title 变量
    ```Python
    title = u"置顶"
    links = sel.xpath('//i[contains(@title,"%s")]/following-sibling::a/@href' %(title)).extract()
    ```
    方法三:直接用 xpath 中变量语法(`$`符号加变量名)`$title`, 传参 title 即可
    ```Python
    links = sel.xpath('//i[contains(@title,$title)]/following-sibling::a/@href', title="置顶").extract()
    ```


    [1]: http://www.revotu.com/solve-unicode-erros-using-xpath-in-scrapy.html
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   593 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.7.5 · 48ms · UTC 18:51 · PVG 02:51 · LAX 11:51 · JFK 14:51
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1