南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32

上传人:新** 文档编号:511539398 上传时间:2022-09-17 格式:DOCX 页数:14 大小:14.45KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》在线作业一答案参考32(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业一答案参考1. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB2. Cookies一般包含在请求头Headers中。( )A.正确B.错误参考答案:A3. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。( )A.正确B.错误参考答案:A4. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T5. 在请求头中设置Use

2、r-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B6. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案:A7. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案:AB8. Python中若定义object=12345,则print(object:-1)输出( )Python中若定义object=12

3、345,则print(object:-1)输出( )A.1B.5C.54321D.程序报错参考答案:C9. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )A.正确B.错误参考答案:B10. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A11. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案:D12. 使

4、用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A13. Python中包含字典的列表页可以转换成JSON字符串。( )Python中包含字典的列表页可以转换成JSON字符串。( )A.正确B.错误参考答案:A14. 当需要把Python里面的数据发送给网页时,应先将其转换成( )当需要把Python里面的数据发送给网页时,应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案:A15. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一

5、次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A16. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.参考答案:C17. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )T.对F.错参考答案:F18. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C19. 使用Charles,可以轻松截获手机App和微信小程序

6、的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案:A20. process_spider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B21. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考

7、答案:T22. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B23. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案:A24. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案:F25. Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案:F26. Pyth

8、on正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。( )A.正确B.错误参考答案:A27. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F28. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B29. 使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令( )A.scrollB.scroll_upC.scroll_forwordD.sc

9、roll_back参考答案:A30. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB31. 参数headers=( ),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案:B32. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B33. Python中相比于findall方法,sea

10、rch方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。( )T.对F.错参考答案:T34. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C35. 当Char

11、les抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案:T36. 运行MongoDB以后,不会在终端打印任何Log。( )运行MongoDB以后,不会在终端打印任何Log。( )A.正确B.错误参考答案:B37. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F38. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C39. Python并导入uiautomator来操作设备的

12、语句是from uiautomator import( )Python并导入uiautomator来操作设备的语句是from uiautomator import( )A.DeviceB.DevicesC.JobsD.Job参考答案:A40. 下面Python代码输出为( ):def default_para_trap(para=, value=0):para.append(value)return下面Python代码输出为( ):def default_para_trap(para=, value=0):para.append(value)return paraprint(第一步:.form

13、at(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:A41. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案:A42. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )T.对F.错参考答案:T43. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B44. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F45. Redis若要进入交互环境,需要打开终端输入( )Redis若要进入交互环境,需要打开终端输入( )A.redis-cliB.redisC.redis-D.redis-start参考答案:A46. Red

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号