南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36

资源描述

《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36》由会员分享，可在线阅读，更多相关《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考36（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取离线作业一及答案参考1. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案：F2. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案：CD3. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：B4. 当爬虫创建好了之后，可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawl

2、D.crawl参考答案：D5. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案：B6. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B7. Python中跳过本次循环应用关键字( )A.breakB.continueC.exitD.return参考答案：B8. Scrapy的工程名字不能使用scrapy，否则爬虫会无法运行。除此以外工程名不受限制。(

3、)T.对F.错参考答案：F9. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案：A10. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案：ABCD11. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案：F12. ch

4、rome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求，必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案：T13. Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。( )A.正确B.错误参考答案：A14. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案：B15. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scra

5、py_Deploy参考答案：A16. Python中若定义object=“12345”，则print(object:-1)输出( )。A.1B.5C.54321D.程序报错参考答案：C17. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案：A18. Python中函数返回值的个数可以是多个。( )A.正确B.错误参考答案：A19. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案

6、：AB20. 在使用多线程处理问题时，线程池设置越大越好。( )A.正确B.错误参考答案：B21. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案：B22. 如果爬虫爬取的是商业网站，并且目标网站使用了反爬虫机制，那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案：AB23. Redis的集合与Python的集合一样，没有顺序，值不重复。( )Redis的集合与Python的集合一样，没有顺序，值不重复。( )A.正确B.错误参考答案：A24. Pytho

7、n中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案：A25. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A26. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一样的软件。( )A.正确B.错误参考答案：B27. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmprox

8、y的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案：C28. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongo

9、DB参考答案：AB29. 下面Python代码输出为( )：def default_para_without_trap(para=, value=0): if not para: p下面Python代码输出为( )：def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.

10、第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B30. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案：F31. Python中直接对浮点数进行计算有print(0.1+0.2)，则结果为0.3。( )A.正确B.错误参考答案：B32. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案：CD33

11、. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案：F34. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案：A35. process_spider_input(response，spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案：B36. Redis是( )数据库。A.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案：B37. 当爬虫创建好了之后，可以使用“

12、scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案：D38. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案：AB39. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案：F40. 如果目标网站本身就是提供

13、公众查询服务的网站，那么使用爬虫是合法合规的。( )A.正确B.错误参考答案：A41. 自己能查看的数据，允许擅自拿给第三方查看。( )T.对F.错参考答案：F42. 使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案：D43. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案：A44. MongoDB URI的格式为：mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为：mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案：B45. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案：A46. Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行

展开阅读全文