南开大学21春《网络爬虫与信息提取》在线作业二满分答案6

上传人:夏** 文档编号:500507396 上传时间:2023-12-05 格式:DOCX 页数:14 大小:14.56KB
返回 下载 相关 举报
南开大学21春《网络爬虫与信息提取》在线作业二满分答案6_第1页
第1页 / 共14页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案6_第2页
第2页 / 共14页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案6_第3页
第3页 / 共14页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案6_第4页
第4页 / 共14页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案6_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21春《网络爬虫与信息提取》在线作业二满分答案6》由会员分享,可在线阅读,更多相关《南开大学21春《网络爬虫与信息提取》在线作业二满分答案6(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春网络爬虫与信息提取在线作业二满分答案1. 微信小程序的反爬虫能力要比网页的高很多。( )微信小程序的反爬虫能力要比网页的高很多。( )A.正确B.错误参考答案:B2. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案:A3. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B4. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递

2、给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A5. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案:C6. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A7. 下面Python代码输出为( ):def default_para_trap(para=, value=0):para.append(value)return下面Python代码输出为( ):def de

3、fault_para_trap(para=, value=0):para.append(value)return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:A8. 下列关于在IOS上配置charles的说法正确的是( )下列关于在IOS上配置charles的说法正确的是( )A.不同ios设备之间会有比较大的差别,

4、所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动参考答案:BD9. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B10. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B11. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别

5、以后再重新运行。( )A.正确B.错误参考答案:B12. PyMongoDB中排序方法sort第二个参数1表示降序。( )T.对F.错参考答案:F13. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC14. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD15. 使用BeautifulSoup对象后可以使用( )来查找内容A.

6、find_allB.findC.searchD.search_all参考答案:AB16. 安装mitmdump之前,运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。( )T.对F.错参考答案:T17. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参

7、考答案:D18. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案:CD19. 下列关于mitmproxy的使用说法正确的是( )A.mitmproxy的端口为8080端口B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动C.用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息D.如果要访问HTTPS网站,还需要安装mitmproxy的证书参考答案:ABCD20. 使用Selennium获取网页中元素的方法有( )。A

8、.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD21. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F22. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案:B23. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.Pro

9、xyMiddleware:543 中的543。( )A.正确B.错误参考答案:A24. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案:B25. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:B26. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是

10、类似抓包的过程。( )T.对F.错参考答案:F27. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB28. 参数headers=( ),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案:B29. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后

11、面的表达式就不会执行。( )A.正确B.错误参考答案:A30. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案:F31. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B32. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C

12、.控件D.单元参考答案:A33. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=5

13、0)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B34. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案:A35. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C36. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D37. HTTP状态码302表示资源永久重定向。( )T.对F.错参考答案:F38. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号