最新公告
  • 欢迎您光临网站无忧模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • python如何示例爬虫代码

    正文概述 六哥   2020-09-18   69

    python爬虫代码示例的方法:首先获取浏览器信息,并使用urlencode生成post数据;然后安装pymysql,并存储数据到MySQL即可。

    python爬虫代码示例的方法:

    1、urllib和BeautifuSoup

    获取浏览器信息

    from urllib import request
    req = request.urlopen("http://www.baidu.com")
    print(req.read().decode("utf-8"))

    模拟真实浏览器:携带user-Agent头

    (目的是不让服务器认为是爬虫,若不带此浏览器信息,则可能会报错)

    req = request.Request(url) #此处url为某个网址
    req.add_header(key,value)  #key即user-Agent,value即浏览器的版本信息
    resp = request.urlopen(req)
    print(resp.read().decode("utf-8"))

    相关学习推荐:python视频教程

    使用POST

    导入urllib库下面的parse

    from urllib import parse

    使用urlencode生成post数据

    postData = parse.urlencode([
        (key1,val1),
        (key2,val2),
        (keyn,valn)
    ])

    使用post

    request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求
    resp.status  #得到请求状态
    resp.reason #得到服务器的类型

    完整代码示例(以爬取维基百科首页链接为例)

    #-*- coding:utf-8 -*-
    from bs4 import BeautifulSoup as bs
    from urllib.request import urlopen 
    import re
    import ssl
    #获取维基百科词条信息
    ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
    #请求URL,并把结果用utf-8编码
    req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")
    #使用beautifulsoup去解析
    soup = bs(req,"html.parser")
    # print(soup)
    #获取所有href属性以“/wiki/Special”开头的a标签
    urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))
    for url in urllist:
    #去除以.jpg或.JPG结尾的链接
    if not re.search("\.(jpg|JPG)$",url["href"]):
    #get_test()输出标签下的所有内容,包括子标签的内容;
    #string只输出一个内容,若该标签有子标签则输出“none
    print(url.get_text()+"----->"+url["href"])
    # print(url)

    2、存储数据到MySQL

    安装pymysql

    通过pip安装:

    $ pip install pymysql

    或者通过安装文件:

    $ python setup.py install

    使用

    #引入开发包
    import pymysql.cursors
    #获取数据库链接
    connection = pymysql.connect(host="localhost",
    user = 'root',
    password = '123456',
    db ='wikiurl',
    charset = 'utf8mb4')
    try:
    #获取会话指针
    with connection.cursor() as cursor
    #创建sql语句
    sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
    #执行SQL语句
    cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))
    #提交
    connection.commit()
    finally:
    #关闭
    connection.close()

    3、爬虫注意事项

    Robots协议(机器人协议,也称爬虫协议)全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。一般在主页面下,如https://en.wikipedia.org/robots.txt

    Disallow:不允许访问
    allow:允许访问

    相关推荐:编程视频课程

    以上就是python如何示例爬虫代码的详细内容,更多请关注网站无忧资源网其它相关文章!


    网站无忧 » python如何示例爬虫代码

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    发表评论

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者
    升级SVIP尊享更多特权立即升级