南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11

上传人:hs****ma 文档编号:486327189 上传时间:2022-11-08 格式:DOCX 页数:14 大小:14.40KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》在线作业三满分答案11(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业三满分答案1. cookies的缺点是( )。A.实现自动登录B.跟踪用户状态C.http中明文传输D.增加http请求的流量参考答案:CD2. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B3. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B4. 在Scrapy的目录下,哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.it

2、em.pyC.pipeline.pyD.settings.py参考答案:B5. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案:AB6. Charles和Chrome开发者工具相比,只是多了一个搜索功能。( )T.对F.错参考答案:F7. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C8. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.loc

3、alstorage参考答案:A9. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C10. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A11. Redis中往集合中添加数据,使用关键字( )Redis中往集合中添加数据,使用关键字( )A.saddB.addC.appendD.sappend参考答案:A12. Redis的列表是一个单向队列。( )T.对F.错参考答案:F13. 自动填充验证码的方

4、式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC14. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T15. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案:B16. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB17. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware

5、:543 中的543。( )A.正确B.错误参考答案:A18. 在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案:F19. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C20. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案:B21. 已经创建好的Scrapy爬

6、虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B22. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案:ABC23. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB24. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB25. 在配置ios使用Charles的操作中,正确的有( )A.对于苹果设

7、备,首先要保证计算机和苹果设备联在同一个Wi-Fi上B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任参考答案:ABCD26. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访

8、问。( )A.正确B.错误参考答案:B27. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C28. 当爬虫创建好了之后,可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D29. 请问按哪个键可以打开Chrome自带的开发者工具( )请问按哪个键可以打开Chrome自带的开发者工具( )A.F10B.F1C.F11D.F12参考答案:D30. 爬虫中间件的作用对象是请求r

9、equest和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B31. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )A.正确B.错误参考答案:B32. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T33. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案:T34. 在Linux的终端使用apt-get命令安装一系列依赖库时

10、,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B35. 使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令( )A.scrollB.scroll_upC.scroll_forwordD.scroll_back参考答案:A36. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求

11、和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D37. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D38. 下列关于mitmproxy的使用说法正确的是( )A.mitmproxy的端口为8080端口B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动C.用鼠

12、标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息D.如果要访问HTTPS网站,还需要安装mitmproxy的证书参考答案:ABCD39. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD40. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T41. Python中线程池map( )方法第二个参数是( )Python中线程池map( )

13、方法第二个参数是( )A.列表B.元组C.字典D.集合参考答案:A42. 要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )A.正确B.错误参考答案:A43. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D44. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A45. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案:A46. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数pars

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号