最新公告
  • 欢迎您光临网站无忧模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 举例实现HTMLParser解析HTML

    正文概述    2020-07-07   341

    对于我们用Python实现的爬虫首要任务可以分为两个步骤,第一步是用爬虫把目标网站的页面抓下来,第二步就是解析该HTML页面,看看里面的内容到底是新闻、图片还是视频。

    举例实现HTMLParser解析HTML

    假设第一步已经完成了,第二步应该如何解析HTML呢?

    HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。

    好在Python提供了HTMLParser来非常方便地解析HTML,只需简单几行代码:

    from HTMLParser import HTMLParser
    from htmlentitydefs import name2codepoint
     
    class MyHTMLParser(HTMLParser):
     
      def handle_starttag(self, tag, attrs):
        print('<%s>' % tag)
     
      def handle_endtag(self, tag):
        print('<!--%s-->' % tag)
     
      def handle_startendtag(self, tag, attrs):
        print('<%s/>' % tag)
     
      def handle_data(self, data):
        print('data')
     
      def handle_comment(self, data):
        print('<!-- -->')
     
      def handle_entityref(self, name):
        print('&%s;' % name)
     
      def handle_charref(self, name):
        print('&#%s;' % name)
     
    parser = MyHTMLParser()
    parser.feed('<p>Some <a href="\"#\"">html</a> tutorial...<br>END</p>')

    feed()方法可以多次调用,也就是不一定一次把整个HTML字符串都塞进去,可以一部分一部分塞进去。

    特殊字符有两种,一种是英文表示的 ,一种是数字表示的Ӓ,这两种字符都可以通过Parser解析出来。

    小结

    找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。


    下载网 » 举例实现HTMLParser解析HTML

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元