南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9

上传人:夏** 文档编号:483757272 上传时间:2023-11-01 格式:DOCX 页数:13 大小:13.95KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9_第1页
第1页 / 共13页
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9_第2页
第2页 / 共13页
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9_第3页
第3页 / 共13页
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9_第4页
第4页 / 共13页
南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》在线作业二满分答案9(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业二满分答案1. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T2. BS4可以用来从( )中提取数据。BS4可以用来从( )中提取数据。A.HTMLB.XMLC.数据库D.JSON参考答案:AB3. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A4. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F5. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 &39;AdvanceSpider.middl

2、ewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案:T6. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B7. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案:A8. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.Scrapy

3、dB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A9. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案:F10. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案:A

4、11. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案:B12. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。( )T.对F.错参考答案:T13. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B14. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案:C15. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹

5、中的redis-server文件启动redis服务 src/redis-server。( )在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )A.正确B.错误参考答案:B16. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T17. 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码。( )A.正确B.错误参考答案:A18. 当运行爬虫代码后,出现“Forbidden by r

6、obots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B19. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。( )A.正确B.错误参考答案:A20. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设

7、置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理,及时将其删除参考答案:ACD21. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B22. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A23. xpath中extract方法返回值类型是( )

8、xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案:A24. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A25. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A26. Python中线程池map( )方法第二个参数是( )Python中线程池map( )方法第二个参数是( )A.列表B.元组C.字典D.集合参考答案:A27. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB

9、.moveC.scrollD.fly参考答案:A28. 当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案:T29. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C30. Redis中往集合中读数据,使用关键字( )A.popB.spopC.lpopD.range参考答案:B31. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个

10、回调函数parse_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B32. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案:F33. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D

11、.非法获取系统罪参考答案:AB34. Python中若定义object=“12345”,则print(object:-1)输出( )。A.1B.5C.54321D.程序报错参考答案:C35. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A36. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案:AB37. Python中直接对浮点数进行计算有print(0.1

12、+0.2),则结果为0.3。( )T.对F.错参考答案:F38. process_spider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B39. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD40. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容

13、来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T41. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案:C42. Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案:F43. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A44. Python中( )容器有推导式Python中( )容器有推导式A.列表B.元组C.字典D.集合参考答案:ACD45. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T46. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B47. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案:AD48. Python中函数返

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号