南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76

上传人:大米 文档编号:475601489 上传时间:2023-07-29 格式:DOCX 页数:13 大小:13.78KB
返回 下载 相关 举报
南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76_第1页
第1页 / 共13页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76_第2页
第2页 / 共13页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76_第3页
第3页 / 共13页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76_第4页
第4页 / 共13页
南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76》由会员分享,可在线阅读,更多相关《南开大学21春《网络爬虫与信息提取》在线作业二满分答案_76(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春网络爬虫与信息提取在线作业二满分答案1. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A2. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A3. Python中若定义object=12345,则print(object:-1)输出( )Python中若定义object=12345,则print(object:-1)输出( )A.1B.5C.5432

2、1D.程序报错参考答案:C4. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B5. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案:ABCD6. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案:CD7. Redis中往集合中读数据,使

3、用关键字( )A.popB.spopC.lpopD.range参考答案:B8. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T9. process_spider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B10. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B11. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.

4、错误参考答案:B12. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A13. PyMongo中逻辑查询表示不等于的符号是( )PyMongo中逻辑查询表示不等于的符号是( )A.$gtB.$ltC.$eqD.$ne参考答案:C14. 当爬虫创建好了之后,可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D15. 在对XPat

5、h返回的对象再次执行XPath的时候,子XPath开头需要添加斜线。( )T.对F.错参考答案:F16. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )T.对F.错参考答案:T17. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C18. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F19. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.

6、正确B.错误参考答案:B20. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD21. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案:A22. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数par

7、se_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B23. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F24. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.con

8、vertstring参考答案:A25. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C26. Python并导入uiautomator来操作设备的语句是from uiautomator import( )。A.DeviceB.DevicesC.JobsD.Job参考答案:A27. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案:A28

9、. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A29. 当爬虫创建好了之后,可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D30. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案:B31. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T32. Python中以下哪个容器里的元素不能重复(

10、 )A.列表B.元组C.字典D.集合参考答案:D33. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A34. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A35. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B36.

11、 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。( )A.正确B.错误参考答案:A37. 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案:B38. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sor

12、t(列名, 1或-1或0)。( )A.正确B.错误参考答案:B39. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。( )A.正确B.错误参考答案:A40. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T41. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列

13、依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B42. 在安装Scarpy的依赖库时,由于Visual C+ Build Tools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行。( )T.对F.错参考答案:F43. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C44. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )A.正确B.错误参考答案:B45. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案:AB46. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号