南开大学21春《网络爬虫与信息提取》在线作业二满分答案6

资源描述

《南开大学21春《网络爬虫与信息提取》在线作业二满分答案6》由会员分享，可在线阅读，更多相关《南开大学21春《网络爬虫与信息提取》在线作业二满分答案6（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春网络爬虫与信息提取在线作业二满分答案1. 微信小程序的反爬虫能力要比网页的高很多。( )微信小程序的反爬虫能力要比网页的高很多。( )A.正确B.错误参考答案：B2. 在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案：A3. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案：B4. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递

2、给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A5. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案：C6. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案：A7. 下面Python代码输出为( )：def default_para_trap(para=, value=0):para.append(value)return下面Python代码输出为( )：def de

3、fault_para_trap(para=, value=0):para.append(value)return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：A8. 下列关于在IOS上配置charles的说法正确的是( )下列关于在IOS上配置charles的说法正确的是( )A.不同ios设备之间会有比较大的差别，

4、所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动参考答案：BD9. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案：B10. process_spider_output(response，result，output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案：B11. 爬虫登录需要识别验证码可以先把程序关闭，肉眼识别

5、以后再重新运行。( )A.正确B.错误参考答案：B12. PyMongoDB中排序方法sort第二个参数1表示降序。( )T.对F.错参考答案：F13. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案：BC14. 要使用tesseract来进行图像识别，需要安装两个第三方库( )要使用tesseract来进行图像识别，需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案：CD15. 使用BeautifulSoup对象后可以使用( )来查找内容A.

6、find_allB.findC.searchD.search_all参考答案：AB16. 安装mitmdump之前，运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。( )T.对F.错参考答案：T17. 使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参

7、考答案：D18. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案：CD19. 下列关于mitmproxy的使用说法正确的是( )A.mitmproxy的端口为8080端口B.设置好代理以后，在手机上打开一个App或者打开一个网页，可以看到mitmproxy上面有数据滚动C.用鼠标在终端窗口上单击其中的任意一个请求，可以显示这个数据包的详情信息D.如果要访问HTTPS网站，还需要安装mitmproxy的证书参考答案：ABCD20. 使用Selennium获取网页中元素的方法有( )。A

8、.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案：ABCD21. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案：F22. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案：B23. 引用中间件时后面的数字代表的是中间件的执行顺序，例如 AdvanceSpider.middlewares.Pro

9、xyMiddleware:543 中的543。( )A.正确B.错误参考答案：A24. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案：B25. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：B26. 如果把网络上发送与接收的数据包理解为快递包裹，那么在快递运输的过程中取出查看更改里面的内容，就是

10、类似抓包的过程。( )T.对F.错参考答案：F27. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案：AB28. 参数headers=( )，把请求头添加到Scrapy请求中，使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案：B29. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后

11、面的表达式就不会执行。( )A.正确B.错误参考答案：A30. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案：F31. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案：B32. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C

12、.控件D.单元参考答案：A33. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=5

13、0)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B34. 使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案：A35. Python中Object=obj_1:1，obj_2:2，则Objcet.get(boj_3，3)是( )。A.1B.2C.3D.无输出参考答案：C36. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下，使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡，可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome，在没有安装第三方代理插件的情况下，Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案：D37. HTTP状态码302表示资源永久重定向。( )T.对F.错参考答案：F38. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.

展开阅读全文