南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1

上传人:hs****ma 文档编号:511992765 上传时间:2023-09-04 格式:DOCX 页数:14 大小:13.73KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》在线作业三满分答案1(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业三满分答案1. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案:D2. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A3. Redis中往集合中读数据,使用关键字( )A.popB.spopC.lpopD.range参考答案:B4. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/r

2、edis.conf。( )A.正确B.错误参考答案:B5. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案:C6. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案:CD7. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案:C8. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数

3、据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB9. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F10. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A.403B.404C.500D.503参考答案:AB11. 如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )A.列表B.元组C.字典D.集合参考答案:A12. P

4、ython中跳过本次循环应用关键字( )A.breakB.continueC.exitD.return参考答案:B13. 在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线。( )T.对F.错参考答案:F14. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C15. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案:B16. 当使用Sca

5、rpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案:B17. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B18. Python中有哪些实现多线程方法( )Python中有哪些实现多线程方法( )A.multiprocess.dummyB.threading.ThreadC.processD

6、.PyMongoDB参考答案:AB19. 当需要把Python里面的数据发送给网页时,应先将其转换成( )当需要把Python里面的数据发送给网页时,应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案:A20. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包

7、来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C21. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案:B22. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案:D23. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )ch

8、arles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )A.正确B.错误参考答案:A24. 安装mitmdump之前,运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。( )T.对F.错参考答案:T25. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB26. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚

9、了一笔钱。这是合法的。( )A.正确B.错误参考答案:A27. robots.txt是一种规范,在法律范畴内。( )robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B28. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C29. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B30. 在发送请求时需要注意requests提交的请求

10、头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案:F31. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B32. Python中若定义object=12345,则print(object:-1)输出( )Python中若定义object=12345,则print(object:-1)输出( )A.1B.5C.54321D.程序报错参考答案:C33. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )A.正确B.错误参考

11、答案:A34. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A35. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A36. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )A.正确B.错误参考答案:B37. Python中( )与元组由类似的数据读取方式。Python中( )与元组由类似的数据

12、读取方式。A.字符串B.列表C.字典D.集合参考答案:AB38. requests中post请求方法的使用为requests.post(网址, data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案:C39. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案:T40. PyMongo中逻辑查询表示不等于的符号是( )。A.$neB.$ltC.$gtD.$eq参考答案:A41. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etre

13、e.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案:A42. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )T.对F.错参考答案:T43. 在使用多线程处理问题时,线程池设置越大越好。( )A.正确B.错误参考答案:B44. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A45. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.change参考答案:B46. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A47. 要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )要实现Charles对Android抓包,其过程比iOS稍微复杂一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号