南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98

上传人:博****1 文档编号:488273999 上传时间:2023-12-04 格式:DOCX 页数:14 大小:13.91KB
返回 下载 相关 举报
南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98_第1页
第1页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98_第2页
第2页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98_第3页
第3页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98_第4页
第4页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》离线作业二及答案参考98(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取离线作业二及答案参考1. robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B2. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案:ABCD3. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案:T4. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B5. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案:C6. 如果目标网站本身就是提供公众查询服务的网站,那

2、么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A7. Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。( )A.正确B.错误参考答案:A8. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。( )T.对F.错参考答案:T9. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A10. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架,它在单机环境下运

3、行时就可以获得最大性能优势。( )A.正确B.错误参考答案:B11. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A12. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C13. 当需要把Python里面的数据发送给网页时,应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案:A14. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdrive

4、r才能模拟浏览器访问。( )A.正确B.错误参考答案:A15. Redis中查询列表长度命令llen中l代表left,即从左侧开始数。( )A.正确B.错误参考答案:B16. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。( )T.对F.错参考答案:T17. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B18. requests中post请求方法的使用为requests.post(网址, data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案:C19.

5、 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案:A20. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案:A21. 请问按哪个键可以打开Chrome自带的开发者工具( )请问按哪个键可以打开Chrome自带的开发者工具( )A.F10B.F1C.F11D.F12参考答案:D22. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B23. BS4可以用来从( )中

6、提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB24. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案:A25. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案:B26. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中

7、读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案:AB27. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案:C28. 在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线。( )T.对F.错参考答案:F29. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB

8、.update_allC.update_oneD.update_many参考答案:CD30. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D31. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。( )A.正确B.错误参考答案:A32. Python中若定义object=(1

9、,2,3,4,5),则print(object:3)输出( )。A.345B.34C.45D.123参考答案:C33. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T34. Python中( )与元组由类似的数据读取方式。Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB35. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案

10、:A36. xpath中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案:A37. 在Scrapy的目录下,哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:B38. 参数headers=( ),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案:B39. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案

11、:B40. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B41. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T42. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B43. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接

12、输入就可以了。( )A.正确B.错误参考答案:B44. 要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库( )A.uiautomatorB.automatorC.ui_automatorD.pyautomator参考答案:A45. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )T.对F.错参考答案:T46. BS4可以用来从( )中提取数据。BS4可以用来从( )中提取数据。A.HTMLB.XMLC.数据库D.JSON参考答案:AB47. 通常使用(

13、)工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A48. HTTP状态码503表示服务器内部故障。( )T.对F.错参考答案:F49. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T50. 下面Python代码输出为( ):def default_para_trap(para=, value=0):para.append(value)return下面Python代码输出为( ):def default_para_trap(para=, value=0):para.append(value)return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号