南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6

上传人:人*** 文档编号:454853884 上传时间:2023-05-25 格式:DOCX 页数:11 大小:12.74KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6_第1页
第1页 / 共11页
南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6_第2页
第2页 / 共11页
南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6_第3页
第3页 / 共11页
南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6_第4页
第4页 / 共11页
南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷6(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取复习考核试题库答案参考1. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案:A2. Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )A.12B.123C.23D.234参考答案:B3. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T4. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是

2、会严重拖慢程序的执行速度。( )A.正确B.错误参考答案:A5. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D6. 运行MongoDB以后,不会在终端打印任何Log。( )运行MongoDB以后,不会在终端打印任何Log。( )A.正确B.错误参考答案:B7. 为了在安卓手机上安装证书,需要先发送证书到

3、手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T8. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )T.对F.错参考答案:F9. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C10. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行

4、了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C11. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A12. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C13. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy gens

5、pider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案:B14. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C15. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C16. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B17. Py

6、thon中Object=(1,2,3,4,5),则Objcet是( )。A.列表B.元组C.字典D.集合参考答案:B18. 要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )A.正确B.错误参考答案:A19. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C20. “curl

7、 http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B21. 如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )A.列表B.元组C.字典D.集合参考答案:A22. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A23.

8、 Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A24. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案:B25. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A26. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB27. 最常见的H

9、TTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案:AB28. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案:A29. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B30. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.chan

10、ge参考答案:B31. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案:B32. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )A.正确B.错误参考答案:B33. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )T.对F.错参考答案:T34. 当需要把Python里面的数据发送给网页时,应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案:A35. process_spider_output(response, result, output

11、)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B36. Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案:F37. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )T.对F.错参考答案:T38. Redis中从集合中查看有

12、多少个值,用关键字( )。A.scardB.cardC.countD.distinct参考答案:A39. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:B40. 自己能查看的数据,允许擅自拿给第三方查看。( )T.对F.错参考答案:F41. 在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案:F42. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB43. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B

13、.错误参考答案:B44. Cookies一般包含在请求头Headers中。( )T.对F.错参考答案:T45. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B46. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )A.正确B.错误参考答案:A47. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案:C48. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B49. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号