南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19

上传人:cl****1 文档编号:431231414 上传时间:2024-01-11 格式:DOCX 页数:15 大小:15.22KB
返回 下载 相关 举报
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19_第1页
第1页 / 共15页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19_第2页
第2页 / 共15页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19_第3页
第3页 / 共15页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19_第4页
第4页 / 共15页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考19(15页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取离线作业一及答案参考1. Python写CSV文件需要哪个方法( )Python写CSV文件需要哪个方法( )A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案:C2. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B3. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:B4

2、. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )A.正确B.错误参考答案:B5. Python中列表可以用( )方法在末尾添加元素。A.addB.appendC.plusD.+参考答案:B6. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A7. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。( )T.对F.错参考答案:T8. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_elem

3、ent_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD9. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )T.对F.错参考答案:F10. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D11. 下面Python代码输出为( ):def default_para_without_trap(para=, value=0): if not

4、 para: p下面Python代码输出为( ):def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B12. 使用UI Aut

5、omatorr点亮屏幕的操作是得到相应控件后使用命令( )。A.wakeupB.lightC.brightD.sleep参考答案:A13. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案:ACD14. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案:D15. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F16. Python中相比于findall方

6、法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。( )A.正确B.错误参考答案:A17. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C18. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案:B19. PyMongo中逻辑查询表示不等于的符号是( )PyMongo中逻辑查询表示不等于的符号是( )A.$gtB.$ltC.$eqD.$ne参考答案:C20. 开源库pytesserac

7、t的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A21. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D22. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD23.

8、以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案:A24. 在安装Scarpy的依赖库时,由于Visual C+ Build Tools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行。( )T.对F.错参考答案:F25. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B26.

9、 Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B27. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案:AB28. Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )Python中若定义object=1, 2, 3,

10、4, 5,则print(object:3)输出( )A.12B.123C.23D.234参考答案:B29. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B30. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )

11、函数A.setB.listC.convertD.change参考答案:A31. 在使用多线程处理问题时,线程池设置越大越好。( )A.正确B.错误参考答案:B32. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案:A33. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案:T34. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。(

12、)T.对F.错参考答案:F35. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB36. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C37. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.参考答案

13、:C38. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A39. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB40. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B41. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC42. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D43. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )Python中列表

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号