文献信息检索与利用

上传人:ni****g 文档编号:569705804 上传时间:2024-07-30 格式:PPT 页数:49 大小:860KB
返回 下载 相关 举报
文献信息检索与利用_第1页
第1页 / 共49页
文献信息检索与利用_第2页
第2页 / 共49页
文献信息检索与利用_第3页
第3页 / 共49页
文献信息检索与利用_第4页
第4页 / 共49页
文献信息检索与利用_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《文献信息检索与利用》由会员分享,可在线阅读,更多相关《文献信息检索与利用(49页珍藏版)》请在金锄头文库上搜索。

1、文档的边界信息与信息边界文档的边界信息与信息边界张化瑞北京大学计算语言学研究所Email:7/30/20241一、从Google搜索引出问题7/30/20242有些问题比较复杂,不容易比出上下,比方搜索结果的排序;有些问题相对明晰,通过一定的逻辑分析,不难看出是否合理。比方,如果提问者想了解的是“虎,而答复者提供的几乎全是关于“猫的信息,提问者提出质疑,答复是:虎也是猫科,民间也有“猫是“虎的师傅的说法,因此,“猫和“虎的关系还是非常密切的,按照统一的综合多种因素的相关性排序,“猫就排在了“虎的前面,没有进行任何人工调整,所提供的结果是客观的。至于背后的原因,也许有猫比虎多得多虎已是珍稀动物,

2、猫却正大行其道、与人的关系友好得多猫是宠物,虎能伤人等诸多因素,但提问者无法确定。不过提问者怎么也想不通:为什么问“虎而答“猫?7/30/20243近来U盘病毒相当猖獗,作者在分析U盘病毒的传播机制时,发现AutoRun.inf是一个关键的环节,如果能把它变成一个个性化的名字,就能够防止病毒借其自动运行。为此查找相关工具,发现一个名叫CodeFusion的软件。搜索表达式CodeFusion使用查出来的几乎都是关于ColdFusion的(前10个中的前9个),搜索表达式CodeFusion是什么的结果更是如此,前10个都是关于ColdFusion的,甚至前100个中都没有关于CodeFusio

3、n的,见图(a).搜索表达式whatscodefusion也是相差无几,见图(b).值得注意的是该图中的提示信息“您是不是要找:whatscoldfusion,这说明Google很清楚用户现在查的不是coldfusion,而且要返回关于coldfusion的结果也应该在用户点击确认之后。从这两个例子可以看到,不管中文英文,字符集的大小,都有这个问题。7/30/202447/30/202457/30/20246那会不会是因为有人用CodeFusion制作破解补丁而被列为不受欢送的软件呢?CodeFusion只是一个补丁制作工具,完全不具备恶意软件的特征,没有任何理由封杀。就像菜刀在罪犯手里也可能

4、成为凶器,并不能因此就不让人们使用菜刀。事实上,单独搜索codefusion出来的都是和CodeFusion相关的,而且数以万计,这也说明Google并没有屏蔽codefusion,因此前面的结果就更能凸显出Google搜索模型的问题所在。7/30/202477/30/202487/30/20249Google的解释在Google提供的帮助“我的搜索结果:搜索字词不在网页上:有时,Google会将不包含您搜索的文字或词组的网页列入您的搜索结果。即使进行词组搜索也可能会出现这种情况。在评估网页的价值和相关性时,Google不仅会考虑网页本身,还会考虑指向此页的链接的定位文字。如果指向网页的链接包

5、含您搜索的词组,Google可能会将此网页作为符合查询的匹配项返回。如果发生这种情况,网页的网页快照会显示这些字词仅在指向此页的链接中显示。7/30/202410Google的解释(2)如果您关注的问题是搜索结果中的某网页并未包含您搜索的短语,建议您与链接该网页的网站管理员联系。如果链接网站的管理员受理了您的请求,下次抓取后我们的搜索结果会反映这些更改。7/30/202411因为统一,更有问题这说明Google认为其这样做是合理的,是为了更准确更有效地评估网页的价值和相关性。但我们看到的情况好似不是这样。正是由于Google统一用算法来排序而不进行单独调整,一旦出现典型性的反例,才更能说明其搜

6、索模型中的带有普遍性的问题。7/30/202412二、从信息定义划分边界7/30/202413Shannon定义在Shannon(1948)的通信模型中,更多的关心的是编码/解码的技术层面,是关于信息的形式语形的,committer和receiver可以理解为“发报人/发报机和“收报机/收报人构成的“人和/或机的人机系统,完成“消息和“信号之间的转换工作编码/解码,但凡和语义相关的局部都是由其中的“人来完成的。*Shannon,C.AMathematicalTheoryofCommunication.BellSystemTechnicalJournal,27(1948),379-423,623

7、-656.7/30/202414Jakobson定义在Jakobson(1960)的通信模型中的sender和receiver已经是“发送者和“接收者,形成了潜在的“作者和“读者模式。*Jakobson,R.LinguisticsandPoetics,inStyleinLanguage,MITPress,1960,350-377.7/30/202415谢清俊定义谢清俊、谢瀛春那么更明确地把传播过程中的“创作端和“接收端作为定义信息的两个根本立场,“作者情境和“读者情境的划分非常清晰。*谢清俊,谢瀛春.一个通用的资讯信息定义.(AGeneralDefinitionofInformation.):

8、/pnclink.org:8080/pnc2006/A_General_Definition_of_Information.pdfpnclink.org:8080/pnc2006/Presentation%20material/keynote%20speech%20-C.C.%20Hsieh.pdf7/30/202416作者/读者权限在创作端,作品内容是由作者构造的,作者对作品内容具有控制权;在接收端,作品内容是由读者解析的,读者对作品内容必须有知情权。作者可控、读者可知,这是对传播中的信息内容的最根本要求。以此作为内部信息/外部信息划分的一个标准。7/30/202417作者可控/读者可知返观

9、指向网页的链接文字,在通常情况下,不经非常的额外努力,是作者不可控的、读者不可知的,因而是和这一非常浅显的原那么相背离的。7/30/202418博客/评论此时应该是博主为第一作者,评论者为联合作者,仍然是作者可控、读者可知的,和这一原那么并不相违。如果是在另一个博客上的独立评论,就应该算作链接,不能再归入文档内容。BBS上的同主题合集与该问题类似。7/30/202419硬性/软性指标链接信息并非不可用,但它只宜作为软性指标,用来调整(0,1)间的相关度,而不宜用作硬性指标来判断0,1相关性。让上帝的归上帝,凯撒的归凯撒。7/30/202420三、边界信息的分层7/30/202421边界信息语言

10、态语种字数数字态文件类型文件长度网络态地域时间三层语言化作者数字化作者网络化作者三个时间三个地域内外7/30/202422押韵难度的计量考察押韵难度的计量考察(与定性讨论)张化瑞北京大学计算语言学研究所Email:7/30/202423一、定义与解释7/30/202424押韵的形与意和而不同汉字:主元音之后相同,之前有异英语词:重读音节的元音之后相同,之前有异险而能平“带着脚镣跳舞难度越大,语意犹畅,技艺越高7/30/202425定义给定:把所有押韵的字/词归为n个韵部(比方,30个)fi是第i个韵部ri中的字/词出现的次数N为所有字/词的个数那么择韵自由度RF,可以由以下公式计算:7/30/

11、202426择韵自由度公式RF=fi(fi-1)/N2其中fi为第i个韵部的频次type或tokenN为总频次7/30/202427押韵难度公式RD = 1/RF = N2 /fi(fi-1)即押韵难度为择韵自由度的倒数7/30/202428押韵难度指数IRD = log2RD = -log2RF即押韵难度指数为押韵难度的以2为底的对数,单位为比特(bit).7/30/202429直观意义上的解释押韵,同一韵部至少要有两个字/词,才可能成立,因此(fi-1)使独韵字词对押韵不产生直接的正面奉献但有间接的负面奉献,推到极端,就是如果所有词都不押韵,那么押韵难度为无穷大。7/30/202430几种

12、特殊情况如果是散文,完全不要求押韵,那么择韵自由度为1,押韵难度指数为0。如果不要求严格押韵,但要求尾字平仄相对,那么择韵自由度约为1/2,押韵难度指数约为1bit。如果不要求严格押韵,但要求尾字押调,那么择韵自由度约为1/4,押韵难度指数约为2bit。7/30/202431为什么不是指数熵指数熵:exppilog(1/pi)相当于1/pi的加权几何平均值考察一种极端情况:如果一个韵部出现100次,另外100个韵部各出现一次,按熵计算,平均下来,相当于每个韵部出现10次的难度7/30/202432为什么不是熵(2)显然,极低频韵起的作用被放大了相当于1/pi的加权几何平均值实际上:应该是,由于

13、1次的韵无法相押,等于初次选择的范围缩小了1/2,再次选择的范围也缩小了1/2,总难度提高为原来的4倍。7/30/202433押韵难度的计算与讨论7/30/202434押韵难度的取值范围可以证明,择韵自由度恒小于等于1.因此,押韵难度恒大于等于1.进而,押韵难度指数恒大于等于0.为0时表示没有任何难度,也即没有任何限制7/30/202435汉语的情况诗韵:广韵,平声57韵的押韵难度约为40.平水韵,平声30韵的押韵难度约为24.诗韵新编,平声18韵的押韵难度约为12.Q:从平水韵到诗韵新编,押韵难度降低了一半?7/30/202436减半还是未变?Q:从平水韵到诗韵新编,押韵难度降低了一半?如果

14、从严格押韵的意义上来说,应该是几乎未变:平声分化成了阴平和阳平,押韵难度又增加了将近一倍不能因为对古韵的追求,降低对今韵的要求7/30/202437减半还是未变(2)?Q:从广韵到平水韵,押韵难度降低了将近一半?如果从近似押韵的意义上来说,应该是变化不大:特别是以平水韵判唐诗,几乎都能入范,这说明只有合,几乎没有分和转,更多的是标准的宽严而非语音的演变怎样看待近似押韵?7/30/202438一个例子:但丁的神曲用意大利语写成,押三联韵中文韵译,只有?神曲一脔?英文韵译,两种,均为近似EEEEE7/30/202439RobertPinskystranslationMidwayonourlifes

15、journey,IfoundmyselfIndarkwoods,therightroadlost.TotellAboutthosewoodsishard-sotangledandroughAndsavagethatthinkingofitnow,IfeelTheoldfearstirring:deathishardlymorebitter.Andyet,totreatthegoodIfoundthereaswellIlltellwhatIsaw,thoughthowIcametoenterIcannotwellsay,beingsofullofsleepWhatevermomentitwasI

16、begantoblunder7/30/202440DorothyL.Sayers translationMidwaythiswayoflifewereboundupon,Iwoketofindmyselfinadarkwood,Wheretherightroadwaswhollylostandgone.Ayme!howhardtospeakofit-thatrudeAndroughandstubbornforest!themerebreathOfmemorystirstheoldfearintheblood;Itissobitter,itgoesnightodeath;YetthereIgai

17、nedsuchgoodthat,toconveyThetale,IllwritewhatelseIfoundtherewith.7/30/202441钱稻孙先生的?神曲一脔?方吾生之半路恍余处乎幽林,失正轨而迷误。道其况兮不可禁林荒蛮以惨烈言念及之复怖心!戚其苦兮死何择:惟获益之足谘,愿覼缕其所历。7/30/202442神曲中的高频韵ia:648io:393ura:153ente:133etto:131ai:118ue:116enti:111ore:108era:1077/30/202443神曲的押韵难度约为160.指数:7.3bit译文押韵更难,因为同时受到原文和押韵的约束,其择韵自由度无疑

18、大大减小因此有译诗是否应该押韵之争。实际上不是该不该的问题,而是能不能的问题远高于中文的押韵难度结果中文有韵译低于英语的押韵难度难不在三联韵,而在有原文7/30/202444进一步的工作7/30/202445进一步的工作押韵近似性的度量相押是一种相容关系,而不是等价关系传统研究大多当作等价关系对待比方i和y相押,u和y相押,但i和u从不相押语义模糊性的度量7/30/202446进一步的工作其它语言的押韵难度的计算英语日语非常特殊的一点:日语诗歌根本上都不押韵7/30/202447进一步的工作形成一个统一的指标体系押韵难度均根匀度指数熵7/30/202448一个开放问题诗意的度量形式还是意义风格还是内容7/30/202449

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板/表格 > 财务表格

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号