南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52

上传人:壹****1 文档编号:504955251 上传时间:2022-09-26 格式:DOCX 页数:14 大小:14.09KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考52(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取综合测试题库答案参考1. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案:T2. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案:AB3. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(列名

2、, 1或-1或0)。( )A.正确B.错误参考答案:B4. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC5. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B6. 当需要把

3、Python里面的数据发送给网页时,应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案:A7. 下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:par下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100)

4、print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:B8. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B9. 设置了这个中间件以后,仍然需要输入账号密码可以成功得到登录以后才能看到的HTML。( )A.正确B.错误参考答案:B10. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B11

5、. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB12. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B13. 在有spiders何setting.py这两项的情况下,可以写出爬虫并且保存数据,items.py和pipelines.py文件是原作者的失

6、误而导致的冗余文件。( )T.对F.错参考答案:F14. HTTP状态码503表示服务器内部故障。( )T.对F.错参考答案:F15. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B16. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案:A17. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案:B18. Python中若定义object=1, 2, 3,

7、4, 5,则print(object:3)输出( )Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )A.12B.123C.23D.234参考答案:B19. 使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward。( )A.正确B.错误参考答案:B20. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T21. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“S

8、ave Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T22. Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。( )A.正确B.错误参考答案:A23. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C24. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D.集合参考答案:ACD25. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mi

9、tmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C26. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印

10、出来。( )A.正确B.错误参考答案:B27. 当爬虫创建好了之后,可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D28. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案:ABCD29. Redis若要进入交互环境,需要打开终端输入( )Redis若要进入交互环境,需要打开终端输入( )A.redis-cliB.redisC.redis-D.redis-start参考答案:A30. Python中Object=(1,2,3,4,5),则Objcet是( )。A.列表B.元组C.字典D.集合参考

11、答案:B31. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B32. MongoDB 是一个基于分布式文件存储的数据库,速度远快过Redis。( )A.对B.错参考答案:B33. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:A34. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案:ABCD35. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这

12、是合法的。( )A.正确B.错误参考答案:A36. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB37. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B38. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A39. 浏览器用来记录用户状态信息的数据叫(

13、)浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B40. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A41. process_spider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B42. Python写CSV文件需要哪个方法( )Python写CSV文件需要哪个方法( )A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案:C43. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B44. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案:AD45. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lt

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号