Speaker
Ms
磊 李
(中国科学院计算技术研究所)
Description
随着大数据时代的到来,数据量越来越大、数据种类越来越多、更新速度越来越快,给传统数据库带来了巨大的挑战,使其在并发性、吞度量、扩展性、容错性等方面遇到了瓶颈。而此时,非关系型数据库(NoSQL)应运而生,NOSQL数据库用于超大规模数据的存储(例如谷歌或 Facebook 每天为他们的用户收集万亿比特的数据)。NoSQL 数据库都具有易扩展、大数据,高性能、灵活的数据模型、高可用的优点,能很好的处理这些大的数据。现在主流的NoSQL数据库有Google BigTable、Apache HBase、Apache Cassandra和Dynamo等。根据数据模型可以将NoSQL划分为多个类型,其中比较常见的是分布式顺序表(Distributed Ordered Table),分布式顺序表是一种最适合用于海量数据(TB 到 PB 级)下的数据库系统,对于基于行键查询的场景很合适,但是并不适合进行多维查询,而在实际生活中,人们查找自己需要的数据时往往通过多维查找,如交通状况播报,需要清楚地知道所在道路的地理位置,需要时间、维度、经度等坐标。人们日常生活的上购物,在进行心仪商品的筛选时,人们会关注销售量、种类、价格、好评度等等。用户往往多维度地寻自己需要的数据。在分布式顺序表上进行多维查询时,通常直接扫描全表筛选出满足条件的数据,在数据量非常大的情况下,这种查询方法速度很缓慢,并且使系统负载很大,响应时间过长不能满足目前网络应用对海量数据进行实时检索的需要。正是由于分布式顺序表在数据查询方面的缺陷,限制了其在众多领域的广泛应用。此时索引技术被业界提出,索引技术是实现多维查询的一个有效的方法。截止目前,已有大量的公司针对多维索引进行了研究,并提出了一系列有价值的解决方案。例如 CMIndex、CCIndex、HIndex、IRIndex、LCIndex、IHBase和 ITHBase。这些索引技术都大大提高了多维查询的效率。本文对现有的基于分布式顺序表的索引技术进行了研究,对其进行分析、归纳和对比,并总结了其优缺点,并对相关性能进行测试。
本文一共四个部分,第 1 节介绍了分布式顺序表结构。第 2 节介绍了基于分布式顺序表的多维查询索引
机制,以全局和局部的分类标准对各索引技术进行分析。第 3 节我们参考常用的关系数据库基准测试用例,
编写相应的适合分布式顺序表的测试用用例。为了使测试更加接近真实的使用情况,我们使用 TPC-H 使用
的数据集。TPC-H 是一个数据库决策支持的基准测试工具,主要目的是评价特定查询的决策支持能力,强
调数据库在数据挖掘、分析处理方面的能力。我们选择 CMIndex、CCIndex、HIndex、IRIndex 四个具有代
表性的索引机制与没有索引结构时进行了五个维度进行评估,分别是吞吐量(插入、删除、更新吞吐量的
降低,查询吞吐量倍数)、索引数据布局、存储开销增加、一致性、索引结构,并对最终结果进行总结。第
4 节总结全文。
Primary author
Ms
磊 李
(中国科学院计算技术研究所)
Co-authors
Ms
HE PING REN
(Beijing Technology and Business University)
Mr
HOU LIANG QI
(Institute of Computing Technology,Chinese Academy of Sciences)
Prof.
LI ZHA
(Institute of Computing Technology,Chinese Academy of Sciences)
Prof.
XIA ZHAO
(Beijng Technology and Business University)