南开大学22春《网络爬虫与信息提取》补考试题库答案参考14

上传人:枫** 文档编号:457734939 上传时间:2023-12-04 格式:DOCX 页数:11 大小:12.97KB
返回 下载 相关 举报
南开大学22春《网络爬虫与信息提取》补考试题库答案参考14_第1页
第1页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考14_第2页
第2页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考14_第3页
第3页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考14_第4页
第4页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考14_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学22春《网络爬虫与信息提取》补考试题库答案参考14》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》补考试题库答案参考14(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取补考试题库答案参考1. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。( )T.对F.错参考答案:T2. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案:A3. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T4. Python中( )

2、与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB5. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B6. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD7. 要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,

3、安装证书的入口可能不一样。( )A.正确B.错误参考答案:A8. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。( )A.正确B.错误参考答案:A9. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D10. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A11. 使用python定制mitmproxy,下面的语句请求的是( )。req.hea

4、dersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D12. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案:A13. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。( )A.正确B.错误参考答案:A14. Python中Object=(1,2,3,4,5),则Objcet是( )。A.列表B.元组C.字典D.集合参考答案:B15. Py

5、thon中一个函数可以有( )个return语句。Python中一个函数可以有( )个return语句。A.0B.1C.多个D.2参考答案:ABCD16. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案:B17. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )T.对F.错参考答案:T18. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B19. MongoDB中获取名字为db的库的语句为( )A.client.dbB.client(

6、db)C.clientdbD.clientdb参考答案:AC20. 通常使用( )工具来模拟浏览器进行爬虫请求通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A21. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B22. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正

7、确B.错误参考答案:B23. 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码。( )A.正确B.错误参考答案:A24. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案:B25. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C26. 自己能查看的数据,允许擅自拿给第三方查看。( )T.对F.错参考答案:F27. Python中线程池map( )

8、方法第二个参数是( )Python中线程池map( )方法第二个参数是( )A.列表B.元组C.字典D.集合参考答案:A28. Python中函数返回值的个数可以是多个。( )A.正确B.错误参考答案:A29. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T30. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T31. Redis若要进入交互环境,需要打开终端输入( )Redis若要进入交互环境,需要打开终端输入( )A.redis-c

9、liB.redisC.redis-D.redis-start参考答案:A32. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A33. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案:A34. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(&3

10、9;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案:B35. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案:F36. 下列关于mitmproxy的使用说法正确的是( )A.mitmproxy的端口为8080端口B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动C.用鼠标在终端窗

11、口上单击其中的任意一个请求,可以显示这个数据包的详情信息D.如果要访问HTTPS网站,还需要安装mitmproxy的证书参考答案:ABCD37. cookies的缺点是( )。A.实现自动登录B.跟踪用户状态C.http中明文传输D.增加http请求的流量参考答案:CD38. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B39. Cookies一般包含在请求头Headers中。( )T.对F.错参考答案:T40. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F41. 通常使用( )

12、工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A42. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案:A43. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”

13、提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B44. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB45. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A46. 需要登录的网站一般通过GET请求就可以实现登录。( )A.正确B.错误参考答案:B47. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D48. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T49. Redis中往集合中添加数据,使用关键字( )Redis中往集合中添加数据,使用关键字( )A.saddB.addC.appendD.sappend参考

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号