Apache Arrow官方文档-IPC进程间通信

王艳玲 · 发表于 2018-11-17 09:45:45

封装消息格式
　　&emsp;&emsp;流和文件格式中的数据组件表示为封装消息，包括：

指示元数据大小的长度前缀
消息元数据作为Flatbuffer 平铺缓冲区
将字节填充到8字节边界
消息体　　示意，我们有：

　　&emsp;所述metadata_size包括flatbuffer加填充的大小。所述 Message flatbuffer包括版本号，特定消息（作为flatbuffer联合），和消息体的大小：
　　

table Message {　　version: org.apache.arrow.flatbuf.MetadataVersion;
　　header: MessageHeader;
　　bodyLength: long;
　　
}
　　

　　&emsp;&emsp;目前，我们支持4种类型的消息：

Schema
RecordBatch
DictionaryBatch
Tensor

流式格式
　　&emsp;&emsp;我们提供用于RecordBatch的流格式。它被作为封装消息的序列呈现，每个消息遵循上述格式。该模式首先在流中，对于以后的所有RecordBatch都是相同的。如果模式中的任何字段都是字典编码的，则一个或多个 DictionaryBatch消息将跟随模式。
　　

　　

　　
...
　　

　　

　　
...
　　

　　

　　

　　&emsp;&emsp;当流读取器实现读取流时，在每个消息之后，它可以读取接下来的4个字节以知道以下消息元数据的大小。读取消息flatbuffer后，您可以读取消息体。
　　&emsp;&emsp;流写入器可以通过写入0长度作为int32或简单地关闭流接口来发送流终端（EOS）信号。

文件格式
　　&emsp;&emsp;我们以与流格式非常相似的格式定义支持随机访问的“文件格式”。该文件以魔术字符串ARROW1 （加上填充）开始和结束。文件中的内容与流格式相同。在文件末尾，我们编写一个页脚，包括文件中每个数据块的偏移量和大小，以便随机访问是可以实现的。有关文件页脚的精确细节，请参阅 format / File.fbs。
　　示意，我们有：
　　

　　

　　

　　

　　
　　

　　

RecordBatch体结构
　　所述RecordBatch元数据包含一个深度优先（先序）扁平化设置字段的元数据和物理内存缓冲区（Message.fbs 中的一些注释已经缩短/移除）：
　　

table RecordBatch {　　length: long;
　　nodes: [FieldNode];
　　buffers: [Buffer];
　　
}
　　

　　
struct FieldNode {
　　length: long;
　　null_count: long;
　　
}
　　

　　
struct Buffer {

　　/// The shared memory page>　　/// not used
　　page: int;
　　

　　/// The>　　/// buffer starts
　　offset: long;
　　

　　/// The absolute length (in bytes) of the memory buffer. The memory is found
　　/// from offset (inclusive) to offset + length (non-inclusive).
　　length: long;
　　
}
　　

　　&emsp;&emsp;在文件的上下文中，不使用page，Buffer偏移量用作消息正文开头的参考帧。因此，在通用IPC设置中，这些偏移量可能是一个或多个共享内存区域中的任何位置，在文件格式中偏移量从0开始。
　　&emsp;&emsp;RecordBatch的位置以及元数据块的大小以及缓冲区的大小存储在文件页脚中：
　　

struct Block {　　offset: long;
　　metaDataLength: int;
　　bodyLength: long;
　　
}
　　

　　&emsp;&emsp;一些关于这个的注释

该Block偏移量表示记录批次的起始字节。
元数据长度包括平缓缓冲区大小，记录批量元数据平缓缓冲区以及任何填充字节
字典Batches
　　&emsp;&emsp;字典Batch尚未实现，但它们在元数据中提供。目前，文件中显示的DICTIONARY细分片段不会出现在任何文件实现中。

Tensor（多维数组）信息格式
　　&emsp;&emsp;Tensor消息类型提供一种方式来编写使用Arrow的共享内存工具的固定大小的值（如一个NumPy的ndarray）的多维数组。尽管我们在C ++中提供了一个参考实现，但通常不需要实现这种数据格式的Arrow实现。
　　&emsp;&emsp;当编写独立封装的Tensor消息时，我们使用上述格式，但另外将起始偏移（如果写入共享内存区域）对齐为8的倍数：

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Apache Arrow官方文档-IPC进程间通信

浏览过的版块

扫码加入运维网微信交流群