南开大学21春《网络爬虫与信息提取》离线作业1辅导答案71

资源描述

《南开大学21春《网络爬虫与信息提取》离线作业1辅导答案71》由会员分享，可在线阅读，更多相关《南开大学21春《网络爬虫与信息提取》离线作业1辅导答案71（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春网络爬虫与信息提取离线作业1辅导答案1. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案：A2. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案：A3. 引用中间件时后面的数字代表的是中间件的执行顺序，例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案：T4. xpath中extract方法返回值类型是(

2、 )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案：A5. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案：B6. Redis是一个开源的使用( )语言编写A.ANSI CB.C+C.JAVAD.Python参考答案：A7. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接

3、输入就可以了。( )当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案：B8. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A9. Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为(

4、)A.空B.空列表C.空元组D.不返回参考答案：B10. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案：B11. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案：B12. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给

5、负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A13. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )A.正确B.错误参考答案：B14. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案：A15. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正

6、确B.错误参考答案：B16. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案：C17. Charles和Chrome开发者工具相比，只是多了一个搜索功能。( )A.正确B.错误参考答案：B18. Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。( )T.对F.错参考答案：T19. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为

7、这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案：F20. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案：B21. 爬虫登录需要识别验证码可以先把程序关闭，肉眼识别以后再重新运行。( )A.正确B.错误参考答案：B22. 虽然MongoDB相比于MySQL来说，速度快了很多，但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案：T23. Python中字符串切片以后的结果还是字符串。( )Python中字符串切片以后的结果还是字符串。( )A.正确B.错误参考答案：A24. MongoDB中获取名字为set1的集合的语句

8、为( )MongoDB中获取名字为set1的集合的语句为( )A.database.set1B.database(set1)C.databaseset1D.databaseset1参考答案：AC25. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )T.对F.错参考答案：T26. 在Scrapy的目录下，哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：D27. 插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )插入数据时，Mon

9、goDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )A.正确B.错误参考答案：B28. Scrapy的工程名字不能使用scrapy，否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案：F29. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案：B30. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：C31. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案：D32. 下列关于mitmproxy的安装说法错误的是

10、( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案：C33. Charles能截获HTTP和HTTPS的数据包，如果网站使用websocket就可以截获。( )A.正确B.错误参考答案：B34. 通常使用( )工具来模拟浏览器进行爬虫请求

11、A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案：A35. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案：ABC36. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案：A37. 在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案：A38. 数据抓包就是中间人爬虫的一个简单

12、应用。所以使用Charles也是一种中间人攻击。( )T.对F.错参考答案：T39. PyMongoDB中排序方法sort第二个参数1表示降序。( )T.对F.错参考答案：F40. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案：A41. 要使用tesseract来进行图像识别，需要安装两个第三方库( )要使用tesseract来进行图像识别，需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案：CD42. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案

13、：B43. 下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:par下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100，50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：B44. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案：B45. Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。( )T.对F.错参考答案：T46. Python中列表生成以后还

展开阅读全文