南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3

上传人:汽*** 文档编号:458524151 上传时间:2023-10-15 格式:DOCX 页数:14 大小:14.17KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》综合测试题库答案参考3(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取综合测试题库答案参考1. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案:A2. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )T.对F.错参考答案:F3. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案:C4. Python正则表达式模块的findal

2、l方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B5. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D.集合参考答案:ACD6. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案:F7. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C8. Python中函数返回值的个数可以是多个。( )A.正确B.错误参考答案:A9. chrome开发者工具没法对

3、数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T10. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F11. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C12. “curl http:/爬虫服务器IP地址:6800/cancel.jso

4、n-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B13. robots.txt是一种规范,在法律范畴内。( )robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B14. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A15. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )T.对F.错参考答案:F16. 使用Selennium获取网页中元素的方法有( )。A.find_element_

5、by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD17. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案:B18. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案:F19. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案:A20. ( )是Scrapy官方开发的,用来部署、运行和管理S

6、crapy爬虫的工具。( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A21. PyMongo中逻辑查询表示不等于的符号是( )。A.$neB.$ltC.$gtD.$eq参考答案:A22. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A23. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表

7、达式就不会执行。( )T.对F.错参考答案:T24. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC25. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案:A26. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错

8、误参考答案:A27. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )T.对F.错参考答案:F28. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案:D29. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过

9、CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D30. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案:ABC31. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD32. 设置了这个中间件以后,仍然需要输入账号密码可以成功得到登录以后才能看到的HTML。( )A.正确B.错误参考答案:B33. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案:A34. HTTP状态码503

10、表示服务器内部故障。( )T.对F.错参考答案:F35. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理,及时将其删除参考答案:ACD36. 当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Char

11、les进行搜索。( )T.对F.错参考答案:T37. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案:D38. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案:ACD39. Python中若定义object=(1,2,3,4,5),则print(object:3)输出( )。A.345B.34C.45D.123参考答案:C40. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automat

12、orr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案:C41. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案:A42. 以下哪些可以独立成为Python编译器( )以下哪些可以独立成为Python编译器( )A.PycharmB.

13、IDLEC.EclipseD.Visual Studio 2010参考答案:AB43. Redis若要进入交互环境,需要打开终端输入( )Redis若要进入交互环境,需要打开终端输入( )A.redis-cliB.redisC.redis-D.redis-start参考答案:A44. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案:A45. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B46. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B47. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A.403B.404C.500D.503参考答案:AB48. Python中把列表转换为集合需要使用( )函数P

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号