博客
关于我
[python爬虫]爬取普通话水平测试成绩(畅言网)
阅读量:67 次
发布时间:2019-02-25

本文共 2158 字,大约阅读时间需要 7 分钟。

今天,我们的普通话考试成绩终于出来了(以山东为例)。下午闲来无事,用Python写了写代码来爬取大家的成绩(已知姓名和身份证),方法有点暴力,具体实现如下:

import urllib.requestimport urllib.parseimport reimport timedef get_html(txtName, txtIDCard):    url = 'http://sd.cltt.org/Web/Login/PSCP01001.aspx'    data = {        'txtName': txtName,        'txtIDCard': txtIDCard,        'btnLogin': '查  询',        '__VIEWSTATE': '',        'txtStuID': '',        'txtCertificateNO': '',        'txtCardNO': ''    }    data = urllib.parse.urlencode(data).encode('utf-8')    response = urllib.request.urlopen(url, data)    html = response.read().decode('utf-8')    return htmldef get_result(html):    name_start = html.find(r'姓名:')    name_end = html.find(r'证件号:')    name_html = html[name_start+190:name_end-186]        id_start = html.find(r'证件号:')    id_end = html.find(r'准考证号:')    id_html = html[id_start+192:id_end-786]        level_start = html.find(r'等级:')    level_end = html.find(r'证书编号:')    level_html = html[level_start+171:level_end-169]        score_start = html.find(r'最终分:')    score_end = html.find(r'等级:')    score_html = html[score_start+173:score_end-280]        bookid_start = html.find(r'证书编号:')    bookid_end = html.find(r'省份:')    bookid_html = html[bookid_start+174:bookid_end-280]        k_start = html.find(r'准考证号:')    k_end = html.find(r'出生日期:')    k_html = html[k_start+173:k_end-171]        if len(name_html) < 10:        print("--------------------------------------------------------------------------------------------------------------")        print("姓名(id):%s(%s) | 等级:%s(%s分) | 证书编号:%s | 准考证号:%s"%(name_html, id_html, level_html, score_html, bookid_html, k_html))def main():    names =  ["张三","李四","王五","赵四","狗子","二虎"]    ids = ["3xxxxxxxxxxxxxx2","3xxxxxxxxxxxxxx0","6xxxxxxxxxxxxxx0","3xxxxxxxxxxxxxx2","3xxxxxxxxxxxxxx1X","3xxxxxxxxxxxxxx7"]    for i in range(len(names)):        txtName = names[i]        txtIDCard = ids[i]        html = get_html(txtName, txtIDCard)        get_result(html)

这段代码通过模拟浏览器请求,向普通话考试成绩查询系统发送请求,成功获取了相关信息。虽然方法略显直接,但在当前情况下能够获取所需数据。

通过仔细分析HTML结构,代码成功提取了以下信息:

  • 姓名
  • 身份证号
  • 等级
  • 最终分数
  • 证书编号
  • 准考证号
  • 代码中使用了urllib库来处理HTTP请求,并通过re库解析HTML内容。虽然代码逻辑清晰,但对于大规模数据爬取可能会存在性能问题,建议在实际应用中增加请求间隔和错误处理机制。

    转载地址:http://mcb.baihongyu.com/

    你可能感兴趣的文章
    MYSQL:基础——3N范式的表结构设计
    查看>>
    MYSQL:基础——触发器
    查看>>
    Mysql:连接报错“closing inbound before receiving peer‘s close_notify”
    查看>>
    mysqlbinlog报错unknown variable ‘default-character-set=utf8mb4‘
    查看>>
    mysqldump 参数--lock-tables浅析
    查看>>
    mysqldump 导出中文乱码
    查看>>
    mysqldump 导出数据库中每张表的前n条
    查看>>
    mysqldump: Got error: 1044: Access denied for user ‘xx’@’xx’ to database ‘xx’ when using LOCK TABLES
    查看>>
    Mysqldump参数大全(参数来源于mysql5.5.19源码)
    查看>>
    mysqldump备份时忽略某些表
    查看>>
    mysqldump实现数据备份及灾难恢复
    查看>>
    mysqldump数据库备份无法进行操作只能查询 --single-transaction
    查看>>
    mysqldump的一些用法
    查看>>
    mysqli
    查看>>
    MySQLIntegrityConstraintViolationException异常处理
    查看>>
    mysqlreport分析工具详解
    查看>>
    MySQLSyntaxErrorException: Unknown error 1146和SQLSyntaxErrorException: Unknown error 1146
    查看>>
    Mysql_Postgresql中_geometry数据操作_st_astext_GeomFromEWKT函数_在java中转换geometry的16进制数据---PostgreSQL工作笔记007
    查看>>
    mysql_real_connect 参数注意
    查看>>
    mysql_secure_installation初始化数据库报Access denied
    查看>>