南开大学22春《网络爬虫与信息提取》补考试题库答案参考97

资源描述

《南开大学22春《网络爬虫与信息提取》补考试题库答案参考97》由会员分享，可在线阅读，更多相关《南开大学22春《网络爬虫与信息提取》补考试题库答案参考97（12页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取补考试题库答案参考1. 如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案：C2. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案：F3. process_spider_input(response， spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案：F4. mitmpro

2、xy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案：A5. 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。( )T.对F.错参考答案：T6. Python写CSV文件需要哪个方法( )Python写CSV文件需要哪个方法( )A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案：C7. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：B8. XPath提取出来的内容是

3、一个SelectorList对象，它的第0个元素就是网页的源代码。( )T.对F.错参考答案：F9. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案：A10. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案：BC11. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术。( )A.正确B.错误参考答案：

4、A12. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案：B13. MongoDB中获取名字为db的库的语句为( )A.client.dbB.client(db)C.clientdbD.clientdb参考答案：AC14. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案：AB15. Python中哪种容器一旦生成就

5、不能修改?( )A.列表B.元组C.字典D.集合参考答案：B16. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案：B17. Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open(文件路径，文件操作方式，encoding=utf-8)as f。( )A.正确B.错误参考答案：B18. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.C

6、ookieC.ReqTimeD.sum参考答案：A19. process_spider_output(response，result，output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案：B20. 使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案：A21. 下面关于Charles使用说法错误的是( )A.在数据包

7、非常多的情况下，使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡，可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome，在没有安装第三方代理插件的情况下，Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案：D22. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案：A23. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B24. 在Scrapy的目录下

8、，哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：D25. 在安装Scarpy的依赖库时，由于Visual C+ Build Tools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行。( )T.对F.错参考答案：F26. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：A27. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案：T28. 自己能查看的数据，允许擅自拿

9、给第三方查看。( )T.对F.错参考答案：F29. Python中把列表转换为集合需要使用( )函数。A.setB.listC.convertD.change参考答案：A30. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案：A31. Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案：B32. 在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )在中间人攻击中，攻击者可以

10、拦截通信双方的通话，并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案：A33. Redis是一个开源的使用( )语言编写A.ANSI CB.C+C.JAVAD.Python参考答案：A34. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下

11、载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案：C35. 使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案：D36. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求，可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案：C37. 当使

12、用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案：B38. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: par

13、a = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B39. 下列关于在IOS上配置charles的说法正确的是( )下列关于在IOS上配置charles的说法正确的是( )A.不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动参考答案：BD40. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案：B41. Python中( )与元组由类似的数据读取方式。Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案：AB42. 通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎服务器资源与网络数据资源互相匹配。(

展开阅读全文