南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5

上传人:枫** 文档编号:476568227 上传时间:2024-01-02 格式:DOCX 页数:11 大小:13.05KB
返回 下载 相关 举报
南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5_第1页
第1页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5_第2页
第2页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5_第3页
第3页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5_第4页
第4页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5》由会员分享,可在线阅读,更多相关《南开大学21春《网络爬虫与信息提取》离线作业一辅导答案5(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春网络爬虫与信息提取离线作业一辅导答案1. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案:C2. Cookies一般包含在请求头Headers中。( )A.正确B.错误参考答案:A3. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B4. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB5. Python中

2、相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。( )T.对F.错参考答案:T6. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案:A7. Redis的集合与Python的集合一样,没有顺序,值不重复。( )Redis的集合与Python的集合一样,没有顺序,值不重复。( )A.正确B.错误参考答案:A8. scrapy与selenium结合可以实现直接处理需要异

3、步加载的页面。( )T.对F.错参考答案:T9. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B10. 如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )A.列表B.元组C.字典D.集合参考答案:A11. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T12. Python中跳过本

4、次循环应用关键字( )A.breakB.continueC.exitD.return参考答案:B13. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B14. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性

5、验证数据库中的无效代理,及时将其删除参考答案:ACD15. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案:C16. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D17. 运行MongoDB以后,不会在终端打印任何Log。( )运行MongoDB以后,不会在终端打印任何Log。( )A.正确B.错误参考答案:B18. BS4可以用来从( )中提取数据。BS4可以用来

6、从( )中提取数据。A.HTMLB.XMLC.数据库D.JSON参考答案:AB19. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案:A20. 使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令( )A.scrollB.scroll_upC.scroll_forwordD.scroll_back参考答案:A21. UI Automator Viewer与Python uiautomator可以同时使用。( )A.正确B.错误参考答案:B22. ( )是Scrapy官方开发的,用来部署、运行和管理

7、Scrapy爬虫的工具。( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A23. Python中写CSV文件的writerows方法参数为字典类型。( )T.对F.错参考答案:F24. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )A.正确B.错误参考答案:A25. Python可以将列表或字典转换

8、成Json字符串。( )T.对F.错参考答案:T26. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案:F27. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C28. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB29. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )

9、字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A30. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B31. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案:T32. 需要登录的网站一般通过GET请求就可以实现登录。( )A.正确B.错误参考答案:B33. Python中退出循环应用关键字( )。A.breakB.cont

10、inueC.exitD.return参考答案:A34. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案:ACD35. 通常使用( )工具来模拟浏览器进行爬虫请求通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A36. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T37.

11、Redis中从集合中查看有多少个值,用关键字( )。A.scardB.cardC.countD.distinct参考答案:A38. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案:T39. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B40. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A.403B.404C.5

12、00D.503参考答案:AB41. Python中若定义object=(1,2,3,4,5),则print(object:3)输出( )。A.345B.34C.45D.123参考答案:C42. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D43. PyMongo中逻辑查询表示不等于的符号是( )PyMon

13、go中逻辑查询表示不等于的符号是( )A.$gtB.$ltC.$eqD.$ne参考答案:C44. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C45. Python中列表可以用( )方法在末尾添加元素。A.addB.appendC.plusD.+参考答案:B46. 在Scrapy的目录下,哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:A47. Redis是一个开源的使用( )语言编写A.ANSI CB.C+C.JAVAD.Python参考答案:A48. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案:F49. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案:ABCD50. 使用xpath方法的返

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号