南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷23

资源描述

《南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷23》由会员分享，可在线阅读，更多相关《南开大学21秋《网络爬虫与信息提取》复习考核试题库答案参考套卷23（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取复习考核试题库答案参考1. 在charles中使用CTRL+F搜索，JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案：F2. 通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案：B3. requests中post请求方法的使用为requests.post(网址， data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案：C4. 当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )当运行爬虫

2、代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案：B5. Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案：B6. 在安装Scarpy的依赖库时，由于Visual C+ Build Tools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行。( )T.对F.错参考答案：F7. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案

3、：C8. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案：A9. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案：D10. 当爬虫创建好了之后，可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案：D11. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookies

4、C.moonpiesD.selenium参考答案：B12. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案：B13. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案：B14. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案：BC15. MongoDB 是一个基于分布式文件存储的数据库，速度远快过Redis。( )A.对B.错参考答案：B16. 为了保证数据插入效率

5、，在内存允许的情况下，应该一次性把数据读入内存，尽量减少对MongoDB的读取操作。( )T.对F.错参考答案：T17. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案：A18. 如果很多爬虫同时对一个网站全速爬取，那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案：C19. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.change参考答案：B20. 自己能查看的数据，允许擅自拿

6、给第三方查看。( )T.对F.错参考答案：F21. 当Charles抓包以后，在Mac OS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案：T22. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A23. Redis是一个开源的使用( )语言编写A.ANSI CB.C+C.JAVAD.Python参考答案：A24. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte

7、参考答案：B25. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案：T26. 下列关于在IOS上配置charles的说法正确的是( )。A.不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动参考答案：BD27. Redis中从集合中查看有多少个值，用关键字( )。A.scardB.cardC.countD.distinct参考答案：A28. Cookies

8、一般包含在请求头Headers中。( )A.正确B.错误参考答案：A29. Charles和Chrome开发者工具相比，只是多了一个搜索功能。( )T.对F.错参考答案：F30. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案：D31. process_spider_input(response，spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案：B32. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案：A3

9、3. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案：C34. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案：B35. Python正则表达式中“.*”是贪婪模式，获取最长的满足条件的字符串。( )A.正确B.错误参考答案：A36. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D

10、.集合参考答案：ACD37. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：A38. 当爬虫创建好了之后，可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案：D39. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案：B40. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案：C41. Redis

11、中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案：B42. 要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )A.正确B.错误参考答案：A43. Python中若定义object=12345，则print(object:-1)输出( )Python中若定义object=12345，则print(object:-1)输出( )A.1B.5C.54321D

12、.程序报错参考答案：C44. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )A.正确B.错误参考答案：A45. Redis中往集合中添加数据，使用关键字( )Redis中往集合中添加数据，使用关键字( )A.saddB.addC.appendD.sappend参考答案：A46. BS4可以用来从( )中提取数据。BS4可以用来从( )中提取数据。A.HTMLB.XMLC.数据库D.JSON参考答案：AB47. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案：CD48. 要使用tesseract来进行图像识别，需要安装两个第三方库( )要使用tesseract来进行图像识别，需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案：CD49. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案：F50. MongoDB是一个关系数据库产品。( )MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案：B

展开阅读全文