站点结构图优化交接文档

资源描述

《站点结构图优化交接文档》由会员分享，可在线阅读，更多相关《站点结构图优化交接文档（3页珍藏版）》请在金锄头文库上搜索。

1、站点结构图优化交接文档入口 get_web_pic.sh执行流程1. 拷贝导航栏、面包屑、重定向 url 文件、页面类型词典、网页源码、已经抓取过源码的url 文件至临时目录cp $Source_data_path/opt_nav_1.txt $Nav_1cp $Source_data_path/opt_nav_2.txt $Nav_2cp $Source_data_path/opt_nav_3.txt $Nav_3cp $Source_data_path/opt_nav_4.txt $Nav_4cp $Source_data_path/map_tjurl.txt $Map_tjurlcp

2、$Source_data_path/mypos_data.txt $Mypos_datacp $Source_data_path/nav_column.txt $Nav_columncp $Source_data_path/index_dict.txt $Pagetype_dictcp $Source_data_path/pack $Html_txtcp $Source_data_path/input.dict $Input_url_dict2. 将多个导航文件合并成一个文件Perl trans_nav_format.pl $DOMAIN_NAME $Nav_1 $Nav_2 $Nav_3 $

3、Nav_4 $Nav_tmp将 url 归一化，去掉 url 的开头 http、末尾 / ,去掉前链不包含当前站点 domain 的记录输出格式：$next_url.t.$title.t.$pre_url.t.$nav_block_num.t.$nav_url_level.t.$mine_level后链t 标题 t 前链 t 块 id t url 级别t 挖掘层次url 级别 :取值 0 或 1，1 表示 url 的标题字体为较粗或有特殊属性的，0 表示普通 url3. 转化面包屑文件格式为前后链对，并与栏目块文件合并perl trans_mypos_format.pl $Mypos_data

4、 $DOMAIN_NAME $Mypos_allcat $Nav_column $Mypos_all面包屑格式转化时，如果面包屑中一个 url 与当前 url 相同时，判断其是否为索引页，如果不是，则去掉该 url4. 过滤出没被抓取过的 url，并通过 tckernel 抓取源码，从日志中得到 url 的页面类型$PYTHON_HOME/bin/python scoreMain.py $wapid $Target_data_path/uniq_url.listperl filter_index_dict.pl5. 根据数据文档得出站点结构图perl build_web_pic_test.pl

5、配置USE_SAME_LV_CONTAIN_RELATION为 1 时，检验某一层次时，查看普通 url 是否在粗体 url 的下级层次中，如果是，则将普通 url 从当前层次中去掉，将它归为粗体 url 的下级 URLURL_FREQUENCY_THRESHOLD在一个频道 url 的后链（集合 A）中，点击进入每一个后链，这些后链的后链中，一个url B(属于集合 A)出现的次数/A 的总数，大于门限值，则认为 B 肯定是频道 url 的下级子频道USE_DOMAIN_CONTAIN_RELATION为 1 时，根据前链得出域名，只有后链包含该域名时，才是合法的前后链关系函数执行顺序a.

6、get_level_1_channel_url()把首页上的导航，将含有粗体等属性的 url 存入 lv1_channel_url_map，其他 url 存入 lv2_channel_url_map 中b. get_url_sign_map()存入 url 及其签名的对应关系c. get_replace_url_map()归一化 url，在 replace_url_map 中存入原始 url 及其归一化后的新 url规则：1) 重定向文件中,将重定向后的 url 替换成原始的 url2) replace_url_map key 中每个 url，如果去掉末尾 index 或 default 后的

7、页面也存在，则将它归一化为去掉 index 或 default 后的，具体规则见代码3) 一个 url 非首页，且以 www 开头，如果去掉 www 的 url 也存在，归一化为去掉 www 的4) lv1_channel_url_map，lv2_channel_url_map 中存储的为原始的 url，替换为归一化后的 urld. get_url_pattern_pagetype_map()url_pagetype_map 中存储 url 及页面类型的对应关系e. get_url_title_map()url_title_map 中存储 url 及标题的对应关系f. mypos_url_re

8、lation_map()读取 mypos 文件的记录，存储在 mypos_url_relation_map 中mypos_url_relation_map 为二级 map，存储前链、后链及后链标题$mypos_url_relation_map$pre_url$url=$url_title;mypos_url_next_pre_map 记录后链及其对应的前链g. update_level_1_channel_url()读取导航中的第一层 url，根据 url 之间的包含关系，及粗体 url 是否包含普通 url，找出真正属于第一层次的 url，其他 url 为这些 url 的下级子频道，将生成的

9、 url 关系存入 pre_url_map 和 next_url_map 中h. get_fixed_level_urls()对大于 2 的每一层次，执行该函数，得出每一层次的 url，将生成的 url 关系存入pre_url_map 和 next_url_map 中fixed_level_url_relation_map 为 2 级 map，1 级 key 为前链，2 级 key 为后链，存储到达前链-后链这条路径的所有合法路径(有多条路径，各条路径间用t 分割，每一条路径的 url 用分割),及后链是否为前链的下级子频道i. anchor_mypos_to_nav()将面包屑中有后链，

10、无前链的 url 挂载到 nav 中某个频道下j. print_sub_channel根据 pre_url_map 和 next_url_map 打印出结构图从导航图开始，当导航图中 url 没有后链时，在面包屑图中寻找一个 url 为 STRUCTURED_PAGE_TYPE_INDEX 或 STRUCTURED_PAGE_TYPE_LIST 时，才在结构图中保留K. print_mypos_channel根据 mypos_url_relation_map 打印结构图一个 url 为 STRUCTURED_PAGE_TYPE_INDEX 或 STRUCTURED_PAGE_TYPE_LIST 时，才在结构图中保留

展开阅读全文