时间序列数据库？时间序列数据在哪里可以找到

牵着乌龟去散步生活 2024-10-26 40

很多朋友对于时间序列数据库和时间序列数据在哪里可以找到不太懂，今天就由小编来为大家分享，希望可以帮助到大家，下面一起来看看吧！

本文目录

时序数据库是什么
技术选型 - OLAP大数据技术哪家强
时序数据库有哪些

一、时序数据库是什么

1、时序数据库(TSDB)是一种数据库管理 *** ，用于存储、处理和分析时间序列数据（以下简称时序数据）。

2、时序数据是按时间维度顺序记录且索引的数据。像智慧城市、物联网、车联网、工业互联网等领域各种类型的设备和传感器都会产生海量的时序数据，证券市场的行情数据也是时序数据，这些数据将占世界数据总量的 90%以上。

3、虽然你也可以使用关系数据库或 NoSQL数据库来处理时序数据，但这类数据库并没有充分利用时序数据的特点， *** 能提升极为有限，只能依靠集群技术，投入更多的计算资源和存储资源来处理， *** 的运营维护成本急剧上升。而专门构建的时序数据库，如TDengine，充分利用了时序数据库的特点，大幅提升了数据的写入和查询速度，同时也大幅提高了数据压缩率。此外，时序数据库包含专有的时序数据分析功能和数据管理功能，使用户可以很轻松地开发应用程序。

4、TDengine是一款开源、云原生的时序数据库（Time Series Database），专为物联网、工业互联网、金融、IT运维 *** 等场景设计并优化，具有极强的弹 *** 伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等 *** 功能，能大幅减少 *** 设计的复杂度，降低研发和运营成本，是一个极简的时序数据处理平台。

二、技术选型 - OLAP大数据技术哪家强

1、 Lambda架构的核心理念是“流批一体化”，因为随着机器 *** 能和数据框架的不断完善，用户其实不关心底层是如何运行的，批处理也好，流式处理也罢，能按照统一的模型返回结果就可以了，这就是Lambda架构诞生的原因。现在很多应用，例如Spark和Flink，都支持这种结构，也就是数据进入平台后，可以选择批处理运行，也可以选择流式处理运行，但不管怎样，一致 *** 是相同的。

2、 Kylin的主要特点是预计算，提前计算好各个cube，这样的优点是查询快速，秒级延迟；缺点也非常明显，灵活 *** 不足，无法做一些探索式的，关联 *** 的数据分析。

3、适合的场景也是比较固定的，场景清晰的地方。

4、 Clickhouse由 *** yandex公司开发。专为在线数据分析而设计。

5、 Clickhouse更大的特点首先是快，为了快采用了列式储存，列式储存更好的支持压缩，压缩后的数据传输量变小，所以更快；同时支持分片，支持分布式执行，支持SQL。

6、 ClickHouse很轻量级，支持数据压缩和最终数据一致 *** ，其数据量级在PB级别。

7、另外Clickhouse不是为关联分析而生，所以多表关联支持的不太好。

8、同样Clickhouse不能修改或者删除数据，仅能用于批量删除或修改。没有完整的事务支持，不支持二级索引等等，缺点也非常明显。

9、与Kylin相比ClickHouse更加的灵活，sql支持的更好，但是相比Kylin，ClickHouse不支持大并发，也就是不能很多访问同时在线。

10、总之ClickHouse用于在线数据分析，支持功能简单。CPU利用率高，速度极快。更好的场景用于行为统计分析。

11、 Hive这个工具，大家一定很熟悉，大数据仓库的首选工具。可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能。

12、主要功能是可以将sql语句转换为相对应的MapReduce任务进行运行，这样可能处理海量的数据批量，

13、 Hive与HDFS结合紧密，在大数据开始初期，提供一种直接使用sql就能访问HDFS的方案，摆脱了写MapReduce任务的方式，极大的降低了大数据的门槛。

14、当然Hive的缺点非常明显，定义的是分钟级别的查询延迟，估计都是在比较理想的情况。但是作为数据仓库的每 *** 量工具，的确是一个稳定合格的产品。

15、 Presto极大的改进了Hive的查询速度，而且Presto本身并不存储数据，但是可以接入多种数据源，并且支持跨数据源的级联查询，支持包括复杂查询、聚合、连接等等。

16、 Presto没有使用MapReduce，它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中，这也是它的 *** 能很高的一个主要原因。

17、 Presto由于是基于内存的，缺点可能是多张大表关联 *** 作时易引起内存溢出错误。

18、另外Presto不支持OLTP的场景，所以不要把Presto当做数据库来使用。

19、 Presto相比ClickHouse优点主要是多表join效果好。相比ClickHouse的支持功能简单，场景支持单一，Presto支持复杂的查询，应用范围更广。

20、 Impala是Cloudera公司推出，提供对 HDFS、Hbase数据的高 *** 能、低延迟的交互式 SQL查询功能。

21、 Impala使用 Hive的元数据,完全在内存中计算。是CDH平台首选的 PB级大数据实时查询分析引擎。

22、 Impala的缺点也很明显，首先严重依赖Hive，而且稳定 *** 也稍差，元数据需要单独的mysql/pgsql来存储，对数据源的支持比较少，很多nosql是不支持的。但是，估计是cloudera的国内市场推广做的不错，Impala在国内的市场不错。

23、 SparkSQL的前身是Shark，它将 SQL查询与 Spark程序无缝集成，可以将结构化数据作为 Spark的 RDD进行查询。

时间序列数据库？时间序列数据在哪里可以找到-第1张图片-

24、 SparkSQL后续不再受限于Hive，只是兼容Hive。

25、 SparkSQL提供了sql访问和API访问的接口。

26、支持访问各式各样的数据源，包括Hive, Avro, Parquet, ORC, *** ON, and JDBC。

27、 Drill好像国内使用的很少，根据定义，Drill是一个低延迟的分布式海量数据交互式查询引擎，支持多种数据源，包括hadoop，NoSQL存储等等。

28、除了支持多种的数据源，Drill跟BI工具集成比较好。

29、 Druid是专为海量数据集上的做高 *** 能 OLAP而设计的数据存储和分析 *** 。

30、 Druid的架构是 Lambda架构，分成实时层和批处理层。

31、 Druid的核心设计结合了数据仓库，时间序列数据库和搜索 *** 的思想，以创建一个统一的 *** ，用于针对各种用例的实时分析。Druid将这三个 *** 中每个 *** 的关键特征合并到其接收层，存储格式，查询层和核心体系结构中。

32、目前 Druid的去重都是非精确的，Druid适合处理星型模型的数据，不支持关联 *** 作。也不支持数据的更新。

33、 Druid更大的优点还是支持实时与查询功能，解约了很多开发工作。

34、 kudu是一套完全 *** 的分布式存储引擎，很多设计概念上借鉴了HBase，但是又跟HBase不同，不需要HDFS，通过raft做数据 *** ；分片策略支持keyrange和hash等多种。

35、数据格式在parquet基础上做了些修改，支持二级索引，更像一个列式存储，而不是HBase sche *** -free的kv方式。

36、 kudu也是cloudera主导的项目，跟Impala结合比较好，通过impala可以支持update *** 作。

37、 kudu相对于原有parquet和ORC格式主要还是做增量更新的。

38、 Hbase使用的很广,更多的是作为一个KV数据库来使用，查询的速度很快。

39、 Hawq是一个Hadoop原生大规模并行SQL分析引擎，Hawq采用 MPP架构，改进了针对 Hadoop的基于成本的查询优化器。

40、除了能高效处理本身的内部数据，还可通过 PXF访问 HDFS、Hive、HBase、 *** ON等外部数据源。HAWQ全面兼容 SQL标准，还可用 SQL完成简单的数据挖掘和机器学习。无论是功能特 *** ，还是 *** 能表现，HAWQ都比较适用于构建 Hadoop分析型数据仓库应用。

三、时序数据库有哪些

解释：InfluxDB是一种专门设计用于处理时序数据的高 *** 能开源数据库。它可以存储大量具有时间序列属 *** 的数据，并且能快速读取这些数据以进行 *** 和分析。它支持灵活的查询语言，允许用户执行复杂的查询 *** 作。此外，InfluxDB提供了高可用 *** 和可扩展 *** ，使其适用于各种规模的部署。

解释：TimescaleDB是一个开源的时序数据库扩展，它为PostgreSQL提供了一个基于时间序列的存储解决方案。它允许用户在PostgreSQL上存储和查询时序数据，并且提供了强大的时间序列功能，如连续范围查询和高效的存储引擎。TimescaleDB适用于需要处理大量时序数据的场景。

解释：OpenTSDB是专门为时间序列数据设计的分布式存储 *** ，适合存储和分析大量时序数据。它具有灵活的查询接口，以及高可扩展 *** 和可靠 *** 。OpenTSDB常与Hadoop生态 *** 中的其他组件集成使用，用于处理大规模数据。

解释：KairosDB是一个基于时间序列的数据库，专为 *** 和度量数据设计。它具有良好的 *** 能，易于设置和使用。KairosDB适用于大型安装 *** 以及 *** 大规模服务器的环境。它是一个可水平扩展的解决方案，能够支持多个服务器之间的负载均衡和 *** 功能。此外，它还支持 *** 件架构，允许用户扩展其功能以适应特定的需求。

以上所述的时序数据库各有其特点和优势，适用于不同的应用场景和需求。在选择时序数据库时，需要根据实际的应用场景、数据量、 *** 能要求等因素进行综合考虑和选择。

文章分享结束，时间序列数据库和时间序列数据在哪里可以找到的 *** 你都知道了吗？欢迎再次光临本站哦！

标签：时间序列哪里找到数据库可以