南开大学22春《网络爬虫与信息提取》综合作业一答案参考15

资源描述

《南开大学22春《网络爬虫与信息提取》综合作业一答案参考15》由会员分享，可在线阅读，更多相关《南开大学22春《网络爬虫与信息提取》综合作业一答案参考15（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取综合作业一答案参考1. 如果很多爬虫同时对一个网站全速爬取，那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案：C2. Python中写CSV文件的writerows方法参数为字典类型。( )T.对F.错参考答案：F3. 插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )A.正确B.错误参考答案：B4. 使用Nginx反向代理到Scrapyd以后，Scrapyd本身只需要开通内网访问即可，不许经过输入密码

2、。( )A.正确B.错误参考答案：A5. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案：B6. Scrapy的工程名字不能使用scrapy，否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案：F7. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A8. 要实现Charles对Android抓包，其过程比iOS稍

3、微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )A.正确B.错误参考答案：A9. 运行MongoDB以后，不会在终端打印任何Log。( )运行MongoDB以后，不会在终端打印任何Log。( )A.正确B.错误参考答案：B10. UI Automator Viewer与Python uiautomator可以同时使用。( )A.正确B.错误参考答案：B11. PyMongo删除操作有( )PyMongo删除操作有( )A.dele

4、teB.delete_allC.delete_oneD.delete_many参考答案：CD12. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )T.对F.错参考答案：T13. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：A14. 在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案：A15. scrapy与selenium结合可

5、以实现直接处理需要异步加载的页面。( )T.对F.错参考答案：T16. Python中若定义object=1， 2， 3， 4， 5，则print(object：3)输出( )Python中若定义object=1， 2， 3， 4， 5，则print(object：3)输出( )A.12B.123C.23D.234参考答案：B17. 安装mitmdump之前，运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。( )T.对F.错参考答案：T18. 当使用Scarpy创建爬虫时，当爬取网

6、易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案：B19. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案：T20. Redis是( )数据库。A.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案：B21. Python中把列表转换为集合需要使用( )函数。A.setB.listC.convertD.change参考答案：A22. MongoDB

7、中获取名字为db的库的语句为( )A.client.dbB.client(db)C.clientdbD.clientdb参考答案：AC23. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A24. MongoDB在频繁读写方面优于Redis。( )MongoDB在频繁读写方面优于Redis。( )A.正确B.错误参考答案：B25. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvf

8、C.mkdirD.cp参考答案：A26. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案：F27. requests中post请求方法的使用为requests.post(网址， data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案：C28. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：

9、B29. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案：C30. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求，可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案：C31. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案：T32. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案：AB

10、33. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案：A34. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案：ABCD35. 在Scrapy的目录下，哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：A36. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。(

11、)A.正确B.错误参考答案：B37. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案：C38. Python中以下哪个容器里的元素不能重复( )A.列表B.元组C.字典D.集合参考答案：D39. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案：C40. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案：AB41. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表

12、明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案：CD42. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案：A43. 当需要把Python里面的数据发送给网页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A44. 当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说

13、明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案：B45. PyMongo中的查找方法的参数是哪种数据结构( )A.列表B.元组C.字典D.集合参考答案：C46. 如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个大字典，大字典里面的每一个键值对都对应了一个集合，Key为集合的名字，Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案：C47. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A48. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案：C49. 自己能查看的数据，允许擅自拿给第三方查看。( )T.对F.错参考答案：F50. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.To

展开阅读全文