数 据类型
DataFrame
DataFrame 表示具有相同命名列的逻辑行集,类似于 Pandas DataFrame 或 Spark DataFrame。
可以从 sql
创建一个 DataFrame:
from greptime import PyDataFrame, col
@copr(returns = ["value"])
def query_numbers() -> vector[f64]:
df = PyDataFrame.from_sql("select number from numbers")
return df.filter(col('number') <= 5).collect()[0]
这与 select number from numbers where number <=5
相同,但使用了 DataFrame API。
事实上,协处理器的 DataFrame API 是 Apache Datafusion DataFrame API 的一个封装器。请参考 API 文档以获得完整的 DataFrame API。
向量
向量是协处理器中的主要数据类型,它是同类值的向量。通常,它是查询结果中提取的一列,但也可以在 Python 脚本中构建它。
向量就像编 程语言中的数组类型,Apache Arrow 中的 Array
或 NumPy 中的 NDArray
。
向量类型
协处理器引擎支持以下类型的向量:
Type | Description |
---|---|
vector[str] | The string type |
vector[bool] | The boolean type |
vector[u8] | The 8-bit unsigned integer type |
vector[u16] | The 16-bit unsigned integer type |
vector[u32] | The 32-bit unsigned integer type |
vector[u64] | The 64-bit unsigned integer type |
vector[i8] | The 8-bit signed integer type |
vector[i16] | The 16-bit signed integer type |
vector[i32] | The 32-bit signed integer type |
vector[i64] | The 64-bit signed integer type |
vector[f32] | The 32-bit floating point type |
vector[f64] | The 64-bit floating point type |
vector[none] | The any type |
正如我们在 Hello, world 的例子中看到的那样,如果我们想把它作为 SQL UDF 使用,我们可以为协处理器定义返回向量类型。否则,我们可以忽略返回向量类型的声明:
@coprocessor(returns=['msg'])
def hello() -> vector[str]:
return "hello, GreptimeDB"
协处理器引擎会根据结果推断出返回向量的类型。但是如果没有声明,除非通过 HTTP API,不然就不能在 SQL 中调用它。
构建一个向量
之前已经展示了在查询数据中通过执行 @coprocessor
中的 sql
属性从查询结果中提取向量的例子。
我们可以从字面意义上创建一个向量:
@copr(returns=["value"])
def answer() -> vector[i64]:
return 42
结果 42
将被包装成 vector[i64]
的一个元素的向量。
mysql> select answer();
+----------+
| answer() |
+----------+
| 42 |
+----------+
1 row in set (0.01 sec)
我们可以从一个 Python 列表中创建一个向量:
from greptime import vector
@copr(returns=["value"])
def answer() -> vector[i64]:
return vector([42, 43, 44])
greptime
是一个内置模块,请参考 API 文档。
mysql> select answer();
+----------+
| answer() |
+----------+
| 42 |
| 43 |
| 44 |
+----------+
3 rows in set (0.02 sec)
事实上,vector
函数可以从 Python 的任何可迭代对象中创建一个向量。但是它要求所有的元素类型必须相同,而且它选择第一个元素的类型作为它的向量类型。