SQL_Server_2005_BI数据挖掘案例

资源描述

《SQL_Server_2005_BI数据挖掘案例》由会员分享，可在线阅读，更多相关《SQL_Server_2005_BI数据挖掘案例（27页珍藏版）》请在金锄头文库上搜索。

1、背景知识向顾客提供大量产品的国内和国际零售商都面临着共同的挑战:确保其众多的商店具有适当的产品库存级别。确定适当的库存级别问题需要在以下两种竞争成本间进行权衡。1. 高级别库存的存储成本。这些成本指零售商为安全的实际空间、额外的供应商购买以及在所有零售商店中与维持高级别产品库存相关的分配所支付的代价。2, 丧失销售的成本。如果顾客进入商店，想要购买某种特定的产品，但由于该产品已脱销而无法供货，就形成了这些成本。面对这种进退两难的情况，零售商通常有两种选择。零售商可以保持高库存，而承担高库存成本;或者保持低库存成本，而承担在顾客需要购买时由于没有产品而丧失销售机会的风险。权衡这些竞争成

2、本的最佳方式是构建预测模型来确保每个连锁商店都具有适当的库存级别。过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大，很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。本文介绍如何使用 Microsoft(R) SQL Server(TM) 2005 中的 Analysis Services 以及SQL Server数据仓库，采用数据挖掘技术为产品存储决策提供准确及时的信息。此处介绍的方法用于在商店/产品级别上提供脱销预测。对于

3、某种特定产品，SQL Server 2005 Analysis Services用于构建数据挖掘模型，该模型为每个连锁商店提供脱销预测。此方法使零售商能够有效地权衡与存储产品库存相关的竞争成本。返回页首关于 Project REALProject REAL致力于找出创建基于SQL Server 2005的商业智能(BI)应用程序的最佳方法。在Project REAL中，我们通过创建基于真实客户方案的引用实现来进行。这意味着将客户数据引入内部，并使用这些数据来解决各个客户在部署过程中将会面临的相同问题。这些问题包括：架构设计-关系架构和Analysis Services中使用的架构。数据

4、提取、转换和加载(ETL)过程的实现。客户前端系统的设计与部署，以便进行报告和交互式分析。生产系统的规模大小调整。对运行中的系统的管理与维护，包括对数据的增量式更新。通过分析真实的部署情况，我们可以全面了解如何使用SQL Server BI工具实现BI系统。我们的目标是致力于解决可能希望分析大型数据集的公司在其实际部署中遇到的所有问题。本文概述了至今已为Project REAL执行的数据挖掘工作。很多其他文章介绍了已经完成的工作和在其他领域学过的课程。要查找最新的信息，请访问Project REAL网站（http:/ REAL中，构建的数据仓库用于为在全国拥有数百家商店的零售商的数百万

5、种产品汇总销售数据。用于构建脱销预测模型的相关数据集有：以商店级别、产品（项）级别、天级别合计的销售量事实数据。具体地说，是为已经销售的每种产品、零售商的每个连锁商店存储每日销售量。以商店级别、产品（项）级别、天级别合计的库存事实数据。具体地说，这是每种产品、每天、零售商的每个连锁商店的产品在库存中的天数。由产品名、说明、零售价和产品类别层次结构组成的产品（项）信息。由商店说明、商店分类（例如，指定是大型商店还是小型商店的指标）、商店分区、商店区域、商店地区、城市、邮政编码、省/自治区、货架空间线性尺寸和其他商店信息组成的商店信息。日期信息（日期维度），它将事实数据级日期标识符映射到

6、相应的财务周、财务月、财务季、财务年和其他日期信息。具有一个清晰、最新的数据仓库可以为所有商业智能应用程序利用此有用的信息资产提供可靠的基础。在此特殊的构建脱销模型的任务中，数据仓库简化了构建数据集模型的过程。t返回页首数据挖掘方法和构建数据集模型根据在Project REAL中将数据挖掘技术应用于不同零售销售量预测和构建脱销模型问题所获得的经验，我们提出了通过两个阶段来构建模型，这一过程提高了准确预测的可能性。构建模型过程的第I阶段是基于合计销售量模式对零售商的连锁商店进行分类。构建了质量商店分类模型后，在构造模型过程的第II阶段，这些分类用于使商店/产品级别上的脱销预测更加准确

7、。通过使用SQL Server 2005 Analysis Services中的数据挖掘技术可以高效并有效解决这两个阶段。本部分提供了整个脱销预测过程的详细信息，该过程从用于构建数据集模型的过程说明开始。然后对评估使用SQL Server 2005 Analysis Services构建的数据挖掘模型的方法进行了讨论。构建脱销预测模型的过程构建脱销模型分为两个阶段。第I阶段是将具有相似合计销售量模式的连锁商店进行分类。对具有相似合计销售量模式的商店进行分类的过程称为商店分类。通过使用SQL Server 2005 Analysis Services 中附带的Microsoft分类算法

8、完成商店分类，从而将具有相似合计销售量模式的商店进行分类。将Microsoft分类算法应用于由合计销售量模式组成的数据集时，该Microsoft分类算法尝试通过以下方式对商店进行分类:属于同一分类的商店比属于不同分类的商店更加相似。构建数据集模型基于从数据仓库派生的合计销售量数据。因此，用于对商店进行分类的相似性测度是按照此合计销售量数据计算而来的。然后，我们使用第I阶段生成的分类模型在第II阶段构建更准确的脱销预测模型。这允许预测算法(例如Microsoft决策树或Microsoft神经网络)使用分类结果来提高预测准确性。实质上，要优化特定商店s的特定产品p的预测，在确定商店s的

9、p是否脱销时，SQL Server 2005中的预测算法可能使用相似商店s中同一产品p的销售量事实数据，这样可以提高预测的准确性。为产品p构建脱销预测模型的高级步骤使用SQL Server 2005 Analysis Services构建最佳预测模型的两阶段过程由以下高级步骤组成。将在以下的部分详细介绍这些步骤。1. 使用数据仓库产品信息(维度)部分中的产品层次结构确定产品p的产品类别c(p)。我们假定连锁商店中同一类别的产品具有相似的合计销售量模式。因此，产品结构层次用于标识特定产品p的相似产品集c(p)。另外，产品分类方法可用于基于连锁商店的销售量通过对产品进行分类来确定与p产

10、品相似的数据驱动分类。2, 为商店分类准备构建数据集Dcluster模型来捕获类别为c(p)(在步骤1中已确定) 的商店级属性和销售量。3, 将Microsoft分类算法应用于数据集。血超，以便获得k个分类(组)的商店，这些商店在类别c(p)的商店级属性和销售量上相似。4. 对于在步骤3中获得的每个分类，/ = 1,.,k：i使S(/)成为商店集，该商店集属于分类/。注意，对于类别c(p)，这些商店具有相似的类别级合计销售量。ii创建数据集DOOS(p,S(/)，它由S(/)中每个商店s的历史和当前每周销售量合计以及每周销售量合计变化组成。另外，还包括布尔标志，用于指明产品p在未来一周

11、和未来两周是否脱销。iii 将 SQL Server 2005 Analysis Services 中的构建预测模型算法(例如 Microsoft决策树或Microsoft神经网络)应用于数据集DOOS(p,S(/)。将历史和当前每周销售量合计作为输入属性，将一周和两周脱销布尔标志作为输出或仅预测属性。这将使SQL Server 2005 Analysis Services生成这样的模型：该模型将其输入用作历史和当前每周销售量以及每周销售量变化，然后进行布尔标志的预测，该标记指明产品p将在未来一周和未来两周内是否脱销。在接下来的两部分中将更加详细地介绍数据准备和构建模型步骤。在Proj

12、ect REAL环境中，零售商为Barnes & Noble。Project REAL (引用实现、端到端、大规模和大量用户的缩写词)是Microsoft Corporation、Apollo Data Technologies和其他中坚技术合作伙伴(包括UNISYS、EMC2、ProClarity、 Panorama、Scalability Experts和Intellinet)协作的成果，目的在于创建BI系统的可引用的实现。使用Barnes & Noble提供的可信企业数据，Project REAL合作者能够发现创建BI应用程序的最佳方法，这些BI应用程序基于Microsoft SQL

13、 Server 2005。此完整系统通过以一种全面的方式分析大型数据集从而解决所有客户操作难题。注意以下五个产品(书)，这五个产品属于同一类别(Chapter Books)。 Captain Underpants & The Invasion of the Incredibly Naughty Cafeteria Ladies from Outer Space (Captain Underpants Series) Junie B Jones Is a Graduation Girl Dinosaurs:A Nonfiction Companion to Dinosaurs Before D

14、ark (Magic Tree House Research Guide Series #1) City in the Clouds (Secrets of Droon Series #4) Twisters and Other Terrible Storms (Magic Tree House Research GuideSeries)第I阶段：商店分类注意，商店分类的目标是获得具有相似销售量模式的商店组，着重于产品p所属的类别 c(p) 中产品的销售量。第I阶段首先构建将用于商店分类的数据集。为了将对活动零售销售量和库存数据仓库的计算影响降低到最低程度，我们建议您创建独立的SQL数据库来

15、存储数据集，这些数据集用于使用 SQL Server 2005 Analysis Services 构建模型。商店分类数据集构建用于商店分类的数据集由2004年1月到2004年12月这段时间内的商店级合计销售量组成。该数据集由具有关键字StorelD的单个表组成。StorelD是整数，用于唯一标识每个连锁商店。由于商店分类任务的目标是根据合计销售量模式的相似性将商店进行分类，因此我们与零售商合作以便标识对此练习有用的一组合计销售量属性。用于构建模型的这组属性的类型和信息内容通常会影响生成的输出模型。标识用于构建模型的一组属性时，我们发现与对基本业务过程有深刻理解的利益关系人合作会有好处。另外，根据在直接零售过程中已经完成的工作，我们能够建议可能有用的属性。对于每个商店，基于数据仓库中的事实数据对属性进行合计。这些销售级合计如下。有关所有用于商店分类问题的商店级属性的详细说明，请参见附录A。产品(书)p所属的类别在以前的部分中称为c(p)的特定类别的派生属性。它们是: Category Average Weekly Modeled：特定商店中预期每周要出售的某类别的书的估计数量。 Category Average Weekly On Hand：特定商店中某类别的每周可售(库存) 平均值。 Category Average Weekly O

展开阅读全文

SQL_Server_2005_BI数据挖掘案例

最新文档