南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36

上传人:枫** 文档编号:486102430 上传时间:2023-08-12 格式:DOCX 页数:14 大小:14KB
返回 下载 相关 举报
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36_第1页
第1页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36_第2页
第2页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36_第3页
第3页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36_第4页
第4页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取离线作业一及答案参考1. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案:F2. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案:CD3. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:B4. 当爬虫创建好了之后,可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawl

2、D.crawl参考答案:D5. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B6. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B7. Python中跳过本次循环应用关键字( )A.breakB.continueC.exitD.return参考答案:B8. Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。除此以外工程名不受限制。(

3、)T.对F.错参考答案:F9. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案:A10. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD11. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案:F12. ch

4、rome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T13. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。( )A.正确B.错误参考答案:A14. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案:B15. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scra

5、py_Deploy参考答案:A16. Python中若定义object=“12345”,则print(object:-1)输出( )。A.1B.5C.54321D.程序报错参考答案:C17. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A18. Python中函数返回值的个数可以是多个。( )A.正确B.错误参考答案:A19. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案

6、:AB20. 在使用多线程处理问题时,线程池设置越大越好。( )A.正确B.错误参考答案:B21. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案:B22. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB23. Redis的集合与Python的集合一样,没有顺序,值不重复。( )Redis的集合与Python的集合一样,没有顺序,值不重复。( )A.正确B.错误参考答案:A24. Pytho

7、n中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案:A25. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A26. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一样的软件。( )A.正确B.错误参考答案:B27. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmprox

8、y的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案:C28. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongo

9、DB参考答案:AB29. 下面Python代码输出为( ):def default_para_without_trap(para=, value=0): if not para: p下面Python代码输出为( ):def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.

10、第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B30. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案:F31. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )A.正确B.错误参考答案:B32. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案:CD33

11、. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F34. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A35. process_spider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B36. Redis是( )数据库。A.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案:B37. 当爬虫创建好了之后,可以使用“

12、scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D38. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案:AB39. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案:F40. 如果目标网站本身就是提供

13、公众查询服务的网站,那么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A41. 自己能查看的数据,允许擅自拿给第三方查看。( )T.对F.错参考答案:F42. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D43. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案:A44. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案:B45. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A46. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号