博客
关于我
[python爬虫]爬取普通话水平测试成绩(畅言网)
阅读量:67 次
发布时间:2019-02-25

本文共 2206 字,大约阅读时间需要 7 分钟。

今天,我们的普通话考试成绩终于出来了(以山东为例)。下午闲来无事,用Python写了写代码来爬取大家的成绩(已知姓名和身份证),方法有点暴力,具体实现如下:

import urllib.request
import urllib.parse
import re
import time
def get_html(txtName, txtIDCard):
url = 'http://sd.cltt.org/Web/Login/PSCP01001.aspx'
data = {
'txtName': txtName,
'txtIDCard': txtIDCard,
'btnLogin': '查 询',
'__VIEWSTATE': '',
'txtStuID': '',
'txtCertificateNO': '',
'txtCardNO': ''
}
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url, data)
html = response.read().decode('utf-8')
return html
def get_result(html):
name_start = html.find(r'姓名:')
name_end = html.find(r'证件号:')
name_html = html[name_start+190:name_end-186]
id_start = html.find(r'证件号:')
id_end = html.find(r'准考证号:')
id_html = html[id_start+192:id_end-786]
level_start = html.find(r'等级:')
level_end = html.find(r'证书编号:')
level_html = html[level_start+171:level_end-169]
score_start = html.find(r'最终分:')
score_end = html.find(r'等级:')
score_html = html[score_start+173:score_end-280]
bookid_start = html.find(r'证书编号:')
bookid_end = html.find(r'省份:')
bookid_html = html[bookid_start+174:bookid_end-280]
k_start = html.find(r'准考证号:')
k_end = html.find(r'出生日期:')
k_html = html[k_start+173:k_end-171]
if len(name_html) < 10:
print("--------------------------------------------------------------------------------------------------------------")
print("姓名(id):%s(%s) | 等级:%s(%s分) | 证书编号:%s | 准考证号:%s"%(name_html, id_html, level_html, score_html, bookid_html, k_html))
def main():
names = ["张三","李四","王五","赵四","狗子","二虎"]
ids = ["3xxxxxxxxxxxxxx2","3xxxxxxxxxxxxxx0","6xxxxxxxxxxxxxx0","3xxxxxxxxxxxxxx2","3xxxxxxxxxxxxxx1X","3xxxxxxxxxxxxxx7"]
for i in range(len(names)):
txtName = names[i]
txtIDCard = ids[i]
html = get_html(txtName, txtIDCard)
get_result(html)

这段代码通过模拟浏览器请求,向普通话考试成绩查询系统发送请求,成功获取了相关信息。虽然方法略显直接,但在当前情况下能够获取所需数据。

通过仔细分析HTML结构,代码成功提取了以下信息:

  • 姓名
  • 身份证号
  • 等级
  • 最终分数
  • 证书编号
  • 准考证号
  • 代码中使用了urllib库来处理HTTP请求,并通过re库解析HTML内容。虽然代码逻辑清晰,但对于大规模数据爬取可能会存在性能问题,建议在实际应用中增加请求间隔和错误处理机制。

    转载地址:http://mcb.baihongyu.com/

    你可能感兴趣的文章
    MySQL 8 公用表表达式(CTE)—— WITH关键字深入用法
    查看>>
    mysql 8 远程方位_mysql 8 远程连接注意事项
    查看>>
    MUI框架里的ajax的三种方法
    查看>>
    MySQL 8.0 恢复孤立文件每表ibd文件
    查看>>
    Mysql 8.0 新特性
    查看>>
    MultCloud – 支持数据互传的网盘管理
    查看>>
    MySQL 8.0.23中复制架构从节点自动故障转移
    查看>>
    MySQL 8.0开始Group by不再排序
    查看>>
    mysql ansi nulls_SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON 什么意思
    查看>>
    multi swiper bug solution
    查看>>
    MySQL Binlog 日志监听与 Spring 集成实战
    查看>>
    MySQL binlog三种模式
    查看>>
    multi-angle cosine and sines
    查看>>
    Mysql Can't connect to MySQL server
    查看>>
    mysql case when 乱码_Mysql CASE WHEN 用法
    查看>>
    Multicast1
    查看>>
    mysql client library_MySQL数据库之zabbix3.x安装出现“configure: error: Not found mysqlclient library”的解决办法...
    查看>>
    MySQL Cluster 7.0.36 发布
    查看>>
    Multimodal Unsupervised Image-to-Image Translation多通道无监督图像翻译
    查看>>
    MySQL Cluster与MGR集群实战
    查看>>