南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48

资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48》由会员分享，可在线阅读，更多相关《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业二答案参考1. 当需要把Python里面的数据发送给网页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A2. 在Scrapy的目录下，哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：D3. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案：B4. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案：T5. 设置了这个中间件以

2、后，仍然需要输入账号密码可以成功得到登录以后才能看到的HTML。( )A.正确B.错误参考答案：B6. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案：A7. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在window

3、s系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案：C8. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A9. Python中写CSV文件的writerows方法参数为字典类型。( )T.对F.错参考答案：F10. requests中get请求方法的使用为requests.get(

4、网址, data=data)。( )T.对F.错参考答案：F11. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案：CD12. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案：BC13. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案：A14. 使用UI Automatorr根据坐标来

5、滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案：A15. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案：B16. xpath中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案：A17. charles配置中，安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Charles证书的完全信任。( )charles配置中，安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对

6、Charles证书的完全信任。( )A.正确B.错误参考答案：A18. 插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )A.正确B.错误参考答案：B19. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求，可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案：C20. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )

7、A.settextB.setC.set_textD.text参考答案：C21. 如果把网络上发送与接收的数据包理解为快递包裹，那么在快递运输的过程中取出查看更改里面的内容，就是类似抓包的过程。( )T.对F.错参考答案：F22. 微信小程序的反爬虫能力要比网页的高很多。( )微信小程序的反爬虫能力要比网页的高很多。( )A.正确B.错误参考答案：B23. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案：A24. 通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎

8、服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案：B25. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案：C26. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2，则Obj

9、cet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案：A27. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案：B28. process_spider_input(response， spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案：F29. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一

10、样的软件。( )A.正确B.错误参考答案：B30. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B31. Redis中列表读取数据命令lrange中l代表left，即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left，即从左侧开始读取。( )A.正确B.错误参考答案：B32. Redis若要进入交互环境，需要打开终端输入( )Redis若要进入交互环境，需要打开终端输入( )A.re

11、dis-cliB.redisC.redis-D.redis-start参考答案：A33. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案：A34. Python正则表达式中“.*”是贪婪模式，获取最长的满足条件的字符串。( )A.正确B.错误参考答案：A35. 下面Python代码输出为( )：def default_para_without_trap(para=, value=0): if not para: p下面Python代码输出为( )：def default_para_without_trap(para=

12、, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B36. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案：B37. 在Scrapy的目录下，哪个文件

13、负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：B38. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案：F39. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案：A40. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案：C41. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案：B42. MongoDB中获取名字为set1的集合的语句为( )MongoDB中获取名字为set1的集合的语句为( )A.database.set1B.database(set1)C.databaseset1D.databaseset1参考答案：AC43. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：B44. HTTP常用状态码表

展开阅读全文