南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52

资源描述

《南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52》由会员分享，可在线阅读，更多相关《南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取综合测试题库答案参考1. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案：T2. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案：AB3. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(列名

2、, 1或-1或0)。( )A.正确B.错误参考答案：B4. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案：BC5. process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案：B6. 当需要把

3、Python里面的数据发送给网页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A7. 下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:par下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100)

4、print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100，50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：B8. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案：B9. 设置了这个中间件以后，仍然需要输入账号密码可以成功得到登录以后才能看到的HTML。( )A.正确B.错误参考答案：B10. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案：B11

5、. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案：AB12. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B13. 在有spiders何setting.py这两项的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失

6、误而导致的冗余文件。( )T.对F.错参考答案：F14. HTTP状态码503表示服务器内部故障。( )T.对F.错参考答案：F15. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案：B16. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案：A17. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案：B18. Python中若定义object=1， 2， 3，

7、4， 5，则print(object：3)输出( )Python中若定义object=1， 2， 3， 4， 5，则print(object：3)输出( )A.12B.123C.23D.234参考答案：B19. 使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward。( )A.正确B.错误参考答案：B20. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案：T21. 为了在安卓手机上安装证书，需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“S

8、ave Charles Root Certificate”命令，可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案：T22. Python正则表达式中“.*”是贪婪模式，获取最长的满足条件的字符串。( )A.正确B.错误参考答案：A23. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案：C24. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D.集合参考答案：ACD25. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mi

9、tmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案：C26. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印

10、出来。( )A.正确B.错误参考答案：B27. 当爬虫创建好了之后，可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案：D28. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案：ABCD29. Redis若要进入交互环境，需要打开终端输入( )Redis若要进入交互环境，需要打开终端输入( )A.redis-cliB.redisC.redis-D.redis-start参考答案：A30. Python中Object=(1，2，3，4，5)，则Objcet是( )。A.列表B.元组C.字典D.集合参考

11、答案：B31. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案：B32. MongoDB 是一个基于分布式文件存储的数据库，速度远快过Redis。( )A.对B.错参考答案：B33. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：A34. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案：ABCD35. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这

12、是合法的。( )A.正确B.错误参考答案：A36. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案：AB37. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案：B38. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A39. 浏览器用来记录用户状态信息的数据叫(

13、)浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案：B40. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案：A41. process_spider_input(response，spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案：B42. Python写CSV文件需要哪个方法( )Python写CSV文件需要哪个方法( )A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案：C43. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案：B44. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案：AD45. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lt

展开阅读全文