南开大学22春《网络爬虫与信息提取》补考试题库答案参考44

上传人:cn****1 文档编号:499046924 上传时间:2023-03-02 格式:DOCX 页数:11 大小:12.77KB
返回 下载 相关 举报
南开大学22春《网络爬虫与信息提取》补考试题库答案参考44_第1页
第1页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考44_第2页
第2页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考44_第3页
第3页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考44_第4页
第4页 / 共11页
南开大学22春《网络爬虫与信息提取》补考试题库答案参考44_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学22春《网络爬虫与信息提取》补考试题库答案参考44》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》补考试题库答案参考44(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取补考试题库答案参考1. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C2. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D3. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。( )A.正确B.错误参考答案:A4. Python中直接对浮点数进行计算

2、有print(0.1+0.2),则结果为0.3。( )A.正确B.错误参考答案:B5. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD6. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F7. MongoDB中可以将( )数据结构插入集合中A.列表B.

3、元组C.字典D.集合参考答案:C8. 如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )A.列表B.元组C.字典D.集合参考答案:A9. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B10. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案:B11. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )T.对F.错参考答案:F12. xpat

4、h中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案:A13. HTTP状态码302表示资源永久重定向。( )T.对F.错参考答案:F14. 在Scrapy的目录下,哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:A15. 以下哪些可以独立成为Python编译器( )以下哪些可以独立成为Python编译器( )A.PycharmB.IDLEC.EclipseD.Visual Studio 2010参考答案:AB16. mitmpro

5、xy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案:A17. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A18. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案:A19. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F20. Python中有哪些实现多线程方法?( )A.multipro

6、cess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB21. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB22. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案:C23. PyMongo中逻辑查询表示不等于的符号是( )PyMongo中逻辑查询表示不等于的符号是( )A.$gtB.$ltC.$eqD.$ne参考答案:C24. c

7、ookies在http请求中是明文传输的。( )T.对F.错参考答案:T25. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B26. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.U

8、BUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案:C27. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A28. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B29. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C30. C

9、harles和Chrome开发者工具相比,只是多了一个搜索功能。( )T.对F.错参考答案:F31. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F32. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案:A33. 参数headers=( ),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HE

10、ADERB.HEADERSC.HEADD.BODY参考答案:B34. 通常使用( )工具来模拟浏览器进行爬虫请求通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A35. robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B36. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A37. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取

11、。( )T.对F.错参考答案:F38. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B39. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案:D40. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD41. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.

12、11D.0参考答案:B42. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A43. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案:T44. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案:F45. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC46

13、. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B47. Python写CSV文件需要哪个方法( )Python写CSV文件需要哪个方法( )A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案:C48. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C49. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C50. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案:T

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号