计算机专业英语翻译

资源描述

《计算机专业英语翻译》由会员分享，可在线阅读，更多相关《计算机专业英语翻译（5页珍藏版）》请在金锄头文库上搜索。

1、姓名：吴彬彬学号：1140604123 班级：计算机科学与技术（双语班）在数据挖掘中在数据挖掘中 10 个具有挑战性的问题个具有挑战性的问题2005 年的 10 月份，我们开始着手确认在数据库挖掘中 10 具有挑战性的问题，通过询问在数据挖掘和机器学习中对未来研究数据挖掘来说被认为是重要和有价值的话题的一些最积极的研究者。我们希望他们的深刻见解将会鼓励新的研究成果，并且给新的研究者（包括博士学生）一个高水平的指导线，当在数据挖掘中的一些热门的问题。由于时间限制，我们仅有能力给出我们的调查请求到 IEEE ICDM 和 ACM KDD 大会的组织者。我们非常感激这些不管忙碌时间表的

2、研究者所提供的奉献。我们已经从这份调查中收到这简短的论文在 14 个回答中概括 10 个最具有挑战性的问题。列表的次序没有反应它们重要性的水平。关键字：数据挖掘，机器学习，发现知识 1.发展数据挖掘的集中理论发展数据挖掘的集中理论几个回答者觉得当许多技术为个体问题设计，比如：优先级，分类归并，但是没有统一的理论。然而，一个统一不同数据挖掘任务的理论框架，包括，分类归并，优先级，联系规则，等等，和不同的数据挖掘方法一样（比如，统计学，机器学，数据库系统等等），将会帮助这方面的领域和提供一个未来研究的基础。这是一个机会和需要为数据挖掘人员解决一些在统计研究中存在的长期的问题。比如避

3、免虚假关系的老问题。这有时候与挖掘的问题“很深的学问” ，这是隐藏观察的原因。例如，人们发现，在香港，有电视连续剧由一个特定的恒星和时间的小市场崩溃在香港发生之间存在很强的相关性。不过，要得出这样的结论的背后是相关的隐藏原因是太轻率了。另一个例子是：我们可以发现从观察牛顿定律的物体的运动？ 2 向上扩展的高维数据和高速数据流向上扩展的高维数据和高速数据流一个挑战是如何设计的分类处理超高维的分类问题。有较强现在需要建立有用的分类与数亿或数十亿的功能，为应用程序，如文本挖掘和药物安全性分析。这些问题往往开始与特点数以万计，并与功能之间的相互作用，从而暗示特征的数量很快就会很大。一个重要

4、的问题是挖掘数据流中非常大的数据库（例如 100 TB）。卫星和计算机网络的数据很容易成为这种规模。然而，今天的数据挖掘技术仍然太慢，处理这种数据规模。此外，数据挖掘应该是一个连续的，在线的过程，而不是一个偶然的一步法。机构可以做这件事将有超过那些没有决定性的优势。数据流呈现的数据挖掘研究人员一项新的挑战。一个特别的例子是，从高速网络流量，其中一个希望挖掘信息用于各种目的，包括识别异常事件可能表明一种或另一种的攻击。一个技术问题是如何计算的模型在数据流，这适应不断变化的环境，从其中的数据绘制。这是“概念漂移”或问题“环境漂移。 ”这个问题是特别难的大数据流的上下文。怎么可能有

5、准确和实用非常有效的计算模型？例如，我们不能假定有一个很大的计算能力和资源来存储大量的数据，或传递过来的数据进行多次。因此，增量挖掘和有效的模型更新，以保持当前流的精确建模都是非常困难的问题。数据流也可以来自传感器网络和 RFID 应用。在将来，RFID 标识将是一个巨大的区域，并且这数据的分析是非常重要的其成功。3. 矿业序列数据和时间序列数据矿业序列数据和时间序列数据顺序和时间序列数据挖掘仍然是一个重要问题。尽管在其他相关领域，如何有效聚类，分类和预测进展这些数据的趋势仍然是一个重要的开放话题。一个特别具有挑战性的问题是时间序列数据中的噪声。这是一个重要的开放问题来解决。很多的预

6、测在很多时候被污染噪声，因此很难做到准确的短期和长期预测。一些需要在实际的设计需要解决的关键问题数据挖掘嘈杂的时间序列包括：资料/搜索代理获得的信息：使用错误的，太多，或太小的搜索条件;从许多来源可能是不一致的资料;（元）信息语义分析;同化的信息转换成输入预测剂。学习/矿工修改信息的选择标准：偏见摊派到反馈;开发的搜索代理规则来收集信息;发展信息代理规则来吸收信息。代理商的预测来预测趋势：公司注册定性信息;多目标优化不是在封闭的形式。 4. 从复杂的数据挖掘复杂的知识从复杂的数据挖掘复杂的知识在图的形式复杂的一个重要类型知识点。最近的研究已经触及了从大发现图形和结构化模式的话题

7、数据，但很明显，更多的工作需要做。复杂性的另一种形式是由那些非独立同分布的数据（独立同分布）。从多个数据挖掘时可能会发生此问题关系。在大多数领域中，感兴趣的对象不是相互独立的，并且是单一类型的不。我们需要的数据挖掘系统，可以健全矿山对象之间，关系等相互关联的网页，社会的丰富结构网络中，在细胞代谢网络等。又一个重要的问题是如何开采非关系数据。绝大部分大多数组织的数据是 INTEXT 形式，而不是数据库，并在复杂的数据格式，包括图片，多媒体和 Web 数据。因此，有必要研究超越分类和聚类的数据挖掘方法。一些有趣的问题，包括如何执行更好的自动摘要文本以及如何识别物体和人从网络的移动

8、和以发现有用的空间和时间知识无线数据日志。现在有对集成挖掘与知识推理的强烈需求。这是一个重要的未来的话题。特别是，其中一个重要方面是将背景知识转化为数据挖掘。做这些推论，因而自动化整个数据挖掘循环，需要代表和内使用世界知识制度。一体化的一个重要应用是对注入的域信息和商业知识到知识发现过程。涉矿复杂的知识，挖掘的话题。涉矿复杂知识，挖掘有关的兴趣知识专题仍然是重要的。在过去，一些研究人员从不同的角度解决这个问题，但我们仍然没有什么使得发现的模式“有趣”从深入多用户角度一个很好的了解。5. 在网络中设置数据挖掘在网络中设置数据挖掘5.1 社区和社会网络今天的世界是通过多种类型的链路互连。

9、这些环节包括：网页，博客和电子邮件。许多受访者认为社区挖掘和社交网络的矿山作为重要话题。社会结构是社会网络的重要特性。在自己的识别问题是一个充满挑战的一年。首先，它的关键有概念的正确表征“社区” ，也就是被检测到。第二，所涉及的实体/节点分布在实际生活中的应用，因此识别手段分散会不理想。第三，基于快照的数据集可能无法捕捉到真正的图片;什么是在本地的关系最重要的谎言（例如性质和的局部相互作用的实体/节点之间的频率）。在这种情况下，我们面临的挑战是了解（1）网络的静态结构（如的拓扑结构和簇）和（2）的动态行为（如生长因子，鲁棒性和功能性的效率）。类似的挑战存在于生物信息学，因为我们

10、目前正朝我们注意调控网络的动态研究。有关此问题的问题是什么地方的算法/协议是必要的为了检测在自底向上的方式（或形式），社区（如在实世界）。一个具体问题如下。在一个组织内或电子邮件交流自己的邮箱在一段很长的时间可以被开采，以显示如何把不同的常见的做法或友谊的网络开始出现。我们怎样才能获得和雷从他们有用的知识？5.2.矿业和计算机网络 - 高速开采高速流网络挖掘问题构成了重大挑战。网络链接在增加速度和服务提供商正在部署 1 千兆以太网和万兆以太网链接速度。为了能够及时发现异常情况（如突发性流量高峰，由于 DoS 攻击（拒绝服务）攻击 orcatastrophic 事件），服务提

11、供商将需要能够在高速的连接速度来捕获 IP 数据包，并每天分析大量数据的（数百 GB）。一个需要高度可扩展的解决方案在这里。良好的算法，因此，neededto 检测 DoS 攻击是否不存在的。另外，一旦一个 attackhas 被检测到，如何 doesone 区分合法流量和攻击流量，这样就可以丢弃攻击数据包？我们需要技术（1）检测 DoS 攻击，（2）追溯找出谁是攻击者，并（3）跌落属于攻击流量的数据包。6，分布式数据挖掘和挖掘多代理的数据，分布式数据挖掘和挖掘多代理的数据分布式数据挖掘的问题是网络问题非常重要。在在分布式环境（如传感器或 IP 网络），一个具有分布探头放置

12、在网络中的战略位置。这里的问题是，以可以看到在各种探头的数据关联起来，并发现模式在所有不同的探针全局数据看出。有可能是不同的模型分布式数据挖掘在这里，但有可能涉及一个 NOC 收集数据从分布式站点，另一个在其中所有的网站都一视同仁。该这里的目标显然是要尽量减少数据之间的发货量各种网站 - 本质上，以减小通信开销。在分散式开采，有一个问题是如何跨多个异构开采数据来源：多数据库，多关系挖掘。另外一个重要的新领域 isadversary 数据 mining.Inagrowingnumberof 域 - 垃圾邮件，反恐，入侵检测/计算机安全，恶意点击，搜索引擎作弊，监控，欺诈检测，shop

13、bots，文件共享，等等 - 数据挖掘系统面临的对手是故意操纵数据破坏它们（例如使他们产生假阴性）。我们需要开发这明确地考虑到这一点，通过数据挖掘相结合的游戏系统理论。7，数据挖掘的生物和环境问题数据挖掘的生物和环境问题很多我们调查的研究人员认为，挖掘生物数据继续是一个非常重要的问题，无论是数据挖掘研究和生物医学科学。一个研究问题的一个例子是如何将数据挖掘应用到 HIV 疫苗的设计。在分子生物学，许多复杂的数据挖掘任务存在，不能用标准的数据挖掘算法来处理。这些问题涉及许多不同的方面，如 DNA，化学性质，三维结构和功能性质。还有一个需要超越生物数据挖掘。数据挖掘研究应考虑生态和环

14、境信息学。例如，如何可以将数据挖掘技术可以用来研究和发现在飓风发生的次数的观察倍增起作用的因素在过去的几十年，如最近报道 inSciencemagazine？大多数数据我们今天处理的来源是快速变化的，如那些来自股票市场或城市交通。有许多有趣的知识尚未被发现，如据动态变化规律及/或其交叉相互作用有关。在这方面，面临的挑战之一今天是怎么处理的问题动态时空行为模式的识别和预测：（1）非常大系统（如全球气候变化和潜在的“禽流感” 疫情）和（2）以人为中心的系统（如用户适应人机交互或 P2P 交易）。涉及到有关重要应用这些问题，有必要把重点数据挖掘的“杀手级应用” 。到目前为止，三个重要

15、和具有挑战性的用于数据挖掘应用已经出现：生物信息学，客户关系管理/个人化和安全应用。然而，还需要更多的探索，以扩大这些应用程序和扩展的应用程序列表。8，数据挖掘过程相关问题，数据挖掘过程相关问题通过提高数据挖掘工具和流程存在的重要课题自动化，所建议的一些研究。具体问题包括：如何实现自动化的数据挖掘业务的组成和建设的方法论数据挖掘系统，帮助用户避免许多数据挖掘的错误。如果我们自动化不同的数据挖掘过程的操作，将有可能以减少人为劳动尽可能。一个重要的问题就是如何自动化数据清洗。我们可以建立模型，发现今天的模式非常快，但 90 的成本在预处理（数据集成，数据清洗等）降低这个成本会有一个更

16、大的收益比进一步降低模型构建的成本和模式调查。另一个问题是如何进行数据的系统文件清洁。另一个问题是如何结合可视化交互和自动资料采矿技术在一起。他指出，在许多应用中，数据挖掘目标和任务，不能完全规定，特别是在探索性数据分析。可视化有助于进一步了解数据和定义/细化数据挖掘任务。还有一个需要后面的大型/复杂的数据集交互勘探理论的发展。要问一个重要问题是：什么是构图方法进行多步挖掘“查询”？什么是规范的集数据挖掘运营商的互动探索方法？例如，数据挖掘系统表一个漂亮的用户界面，但什么是它的操作背后的理论？ 9，安全，隐私和数据完整性，安全，隐私和数据完整性一些研究人员认为隐私保护数据挖掘的一个重要话题。也就是说，如何保证用户的隐私，而他们的数据正在被开采。与此相关的话题是数据挖掘保护安全和隐私。一受访者指出，如果我们不解决隐私问题，数据挖掘将成为一个贬义词广大市民。一些受访者认为知识的完整性评估的问题是重要。我们引用他们的观察：“数据挖掘算法频繁施加到已被故意从其原始版本修改的数据，为了误导数据的接收者或对抗的隐私和安全的威胁。这样的修改可以扭曲，一个不知名

展开阅读全文