首页 - 编程开发 - C/C++ - 编译问题

Boost的C++格式化输出函数库：Format

2015-11-09 08:35:45 苏内容

阅读：6441

不错的文章，原帖：viml.nchc.org.tw/blog/paper_info.php?CLASS_ID=1&SUB_ID=1&PAPER_ID=194

这篇是之前预告过的 Boost C++ Libraries 系列文章的第一篇。所介绍的，是在 Boost 裡用来格式化输出的函式库：boost::format。

他最大的特色是在于它可以使用 C 语言中 printf 的格式化字串，来针对 C++ 的 iostream 做输出、或是产生格式化的字串；相较于 C++ iostream 的 manipulator，boost::format 在使用上更为直觉、简单。而且和 printf 不同的地方在于，他又有 C++ iostream 的 type safe、可以支援自订类别的输出的优点∼

官方网站的介绍可以参考：http://www.boost.org/doc/libs/1_44_0/libs/format/index.html。

C printf 与 C++ iostream
一般在 C 语言的时候，大家应该都很习惯用 printf 这个函式（参考）来做输出的动作。由于 printf 有著强大、简单的格式化输出的能力，所以很多人就算是使用 C++，也会捨弃较为安全的 iostream（参考），而继续使用 printf、fprintf、sprintf 这类的函式来做字串的格式化处理、输出。（话说，Heresy 自己也不完全记得 iostream 要怎麽格式化输出…）

不过实际上，C 语言的 printf 在使用上并不是非常地安全。最主要的问题，在于使用 printf 的时候，并不是 type safe 的！一个很简单的例子就是：

char* x = "abcd";
printf( "%d", x );
由于在使用 printf 输出的时候，需要先指定输出资料的型别（%d、%f 等），所以其实一不小心就有可能弄错，变成像上面一样，指定了错误的输出型态。另外，也由于 printf 设计上的问题，所以如果要输出自定义的类别资料，会变得相对麻烦。

而如果是要用 sprintf 这个函式来产生格式化的字串的话，更有可能产生记忆体使用上的问题，Heresy 之前也有写过一篇《用 snprintf / asprintf 取代不安全的 sprintf》，就是在讲这部分的东西，有兴趣的人可以参考看看。

基本上 C++ 的 iostream 就已经解决这些问题了。如果是使用 C++ 的 iostream 的话，其实在各方面的问题相对都少很多，用起来也相对简单很多；对于自订类别的输出，更可以用 operator overloading 的方法，来为每一个类别都写一个属于自己、并且符合 iostream 使用方法的输出。

但是如果提到格式化输出的部份的话，虽然 C++ 的 iostream 有提供「manipulator」来让使用者针对输出的格式做控制（参考），但是包含 Heresy 自己本身在内，Heresy 知道有在写 C++ 程式的人，好像大多都还是习惯使用 printf 系列的函式来做，而不会使用 iostream 的 manipulator。毕竟，在 Heresy 看来，他既不好记、也不好用啊…

boost::format 基本使用
而 Boost 的 Format 这个函式库（官方介绍），基本上就是为了让程式设计师可以更简单地使用 C++ 的 iostream 来进行格式化输出而开发的！如同 Heresy 在一开始就提过的，boost::format 提供了一个和 C 的 printf 类似的格式化字串（format string）的语法定义，来让程式开发者可以非常简单地做到和 printf 一样效果的格式化输出∼而同时，他也保有了 C++ 的 iostraem 的各项优势，对于要做格式化输出的 C++ 程式开发人员来说，boost::format 应该是个相当好用、也值得一试的的函式库！

boost::format 是一个 header-only 的函式库，只要准备好 header 档，不用预先编译就可以使用了，在使用上相当地便利。而在这个函式库裡，主要是提供了一个 format 的类别（注一），来让程式开发者来做操作。下面是一个简单的例子：

#include <stdlib.h>
#include <iostream>
#include <boost/format.hpp>

using namespace std;

int main( ) { cout << boost::format( "%2.3f, %d" ) % 1.23456 % 12 << endl; }
黄底的部分，就是 boost::format 相关的程式了。首先，要使用 boost::format，我们必须要先 include「boost/format.hpp」这个档案；只要 include 了这个档案后，就可以使用 boost::format 的功能了。

而 boost::format 最接近 printf 的用法，也就是上面这样的形式（POSIX-printf style）了∼这样的写法在透过 cout 做输出后的结果，会和

printf( "%2.3f, %d", 1.23456, 12 );
完全一样。

实际上，这边是使用「"%2.3f, %d"」这个格式化字串，来建立一个 boost::format 的物件，并透过这个物件来做之后格式化的操作；而这边所使用的格式化字串，和使用 printf 时是完全相同的。

而除了上面这种「Posix-Printf style 」以外，也还有所谓的「simple style」（简单风格）的用法可以使用，下面就是一个简单的例子：

cout << boost::format( "%1%, %2%" ) % 1.23456 % 12 << endl;
在这种风格的写法中，是在格式化字串裡，用「%1%」来代表之后的第一个变数、用「%2%」来代表第二个变数；透过这样的定义，我们就可以自行调整变数的顺序、同时也可以重複地使用某一项变数了∼例如：

cout << boost::format( "%1%, %2%, %1%" ) % 1.23456 % 12 << endl;
这样写的话，输出的结果就会是「1.23456, 12, 1.23456」。不过由于这个写法没有特别指定格式化的设定，所以所有变数都会用预设的方法做输出。

boost::format 物件的操作
前面已经有提到，boost::format 实际上是一个类别，在使用时实际上会产生一个型别是 boost::format 的物件，来进行后续的操作；之后所有的变数，都是透过呼叫 operator% 的方式，依序传给这个物件（注二），最后再透过 operator<< 把他的资料输出传给 cout。

相较于此，printf 本身是一个参数数目可变（variable-length argument）的函示，所以所有要输出的变数，都是用逗号隔开、以函式引数的方式传进去的。所以这两者虽然在程式的写法上看起来很类似，但是在概念和实作方法上，是完全不同的。

像下面这个例子：

cout << boost::format( "%1%, %2%" ) % 1.23456 % 12 << endl;
实际上可以看成：

cout << ( ( boost::format( "%1%, %2%" ) % 1.23456 ) % 12 ) << endl;
而也由于 boost::format 实际上是以物件的形式在运作的，所以实际的执行过程，就相当于：

boost::format fmt( "%1%, %2%" );
fmt % 1.23456;
fmt % 12;
cout << fmt << endl;
这也代表程式开发者可以把 boost::format 这个物件记录下来，重複地使用∼例如下面就是一个重複使用 boost::format 物件的例子：

boost::format fmt( "Test:< %1.2f, %1.2f >" );
cout << ( fmt % 1.234 % 123.1 ) << endl;
cout << fmt % 5.678 % 1 << endl;
不过要注意的是，透过 operator% 传给 boost::format 物件（fmt）的变数是会储存在物件内部的，所以可以分批的传入变数；但是如果变数的数量不符合的话，在编译阶段虽然不会出现错误，可是到了执行阶段还是会让程式当掉，所以在使用上必须小心一点。不过，在有输出后，是可以再重新传入新的变数、重複使用同一个 boost::format 物件的。

透过 boost::format 产生字串
前面提的方法，都是把 boost::format 产生的结果直接输出到 ostream 的用法，那如果是要把格式化输出的结果产生成字串继续使用呢？很简单，因为 boost 已经有提供对应的函式可以做这件事了∼基本上有两种方法，第一个方法是用 boost::str() 这个函式：

string tmp = boost::str( boost::format("<%1%>") % "Hi!" );
另一个方法则是用 boost::format::str() 这个函式：

boost::format fmt("<%1%>"); fmt % "Hi!"; string tmp = fmt.str();
或是：

string tmp = ( boost::format("<%1%>") % "Hi!" ).str();
这两者基本上是一样的，只是程式的写法不同罢了。

语法细节
前面大概提到了所谓的 POSIX printf style 和 simple style 两种用法。实际上 boost::format 所使用的格式化字串的语法，是依照 Unix98 Open-group printf，再做一些延伸而定的；它的形式是：

%[N$][flags][width][.precision]type-char
其中大部分的内容都和传统的 printf 相同（参考），只有部分不一样。（注四）

像是在 flags 的部分，boost::format 除了本来的「-」是向左对齐外，还多了新的置中对齐的「=」、以及内部对齐（internal alignment）的「_」，这两者就是 printf 没有的。而除了可以用「%%」来输出「%」符号外，也多了可以用「%nt」来填入 n 个空格、或是用「%|nTX|」来填入 n 个 X（X 为单一字元）的功能。

此外，也有某些东西的行为会和 printf 不太一样，不过由于比较细节，在这边就不赘述了；有兴趣的请自行参考《Differences of behaviour vs printf》的部分。

而在实际使用上，大致应该分成下面几种形式：

%N%：（Simple style）最简单、没有格式化的简化写法，其中 N 只是单纯标记是第几个变数。
%spec：（POSIX-printf style 格式化字串）这部分主要是相容于 printf 的写法，基本上可以把本来用在 printf 上的写法直接拿来用。当然，spec 的部分也有支援 boost::format 额外定义的新东西可以用。
%|spec|：这是用「|」来做分隔的表示方法。spec 基本上和前者是相同的，这种写法主要的优点是可以省略指定型别的字元（printf 裡的「type-conversion character」），同时也可以加强程式码的可读性。
例如：「%|-5|」就是代表向左对齐、宽度是 5，根据变数型别的不同，和「%-5g」、「%-5f」等是等价的。

其中，看起来比较特别的写法，或许是「%|1$+4.2|」这样的形式吧∼它代表的意义基本上就是把第一个变数（1$），以「+4.2」的形式来做输出；而这边也没有特别指定输出的型别，所以在执行阶段的行为，可能会根据传入的变数的型别而有所不同。

范例
由于 boost::format 的应用变化非常地多，所以Heresy 在这边不打算针对 boost::format 举出太多的范例，基本上只由官方的范例裡，挑一组 Heresy 觉得有代表性的出来，下面就是程式码：

cout << boost::format("(x,y) = (%+5d,%+5d) ") % -23 % 35;
cout << boost::format("(x,y) = (%|+5|,%|+5|) ") % -23 % 35;

cout << boost::format("(x,y) = (%1$+5d,%2$+5d) ") % -23 % 35;
cout << boost::format("(x,y) = (%|1$+5|,%|2$+5|) ") % -23 % 35;
这四行不同的 boost::format 写法输出的结果都是一样的，会是：

(x,y) = ( -23, +35)
这组例子也大致上代表 boost::format 几种不同形式的写法了∼有兴趣的话，稍微研究一下，应该可以简单地找到这些写法间的差异了。

效能问题
boost::format 虽然在使用上算是满方便的，但是实际上在效能面来说，并不是非常地好，这点在官方的网页就有特别提出来。基本上，在一般状态下，使用 printf 的效能会是最好的，iostream 会比 printf 慢一些，而 boost::format 则由于又有其他的 overhead，所以又会更慢。官方也有提供一些测试数据，如果在 release 模式下，iostream 的操作所需的时间大约会是 printf 的 1.6 倍；而 boost::format 所需的时间则会是 iostream 的 2 ~ 3 倍左右，也就是大约是 printf 的 3 ~ 5 倍。

从这个测试数据应该就可以发现，其实 boost::format 的效能并不好。所以如果程式本身的效能瓶颈是在这类的字串输出、处理的话，那使用 boost::format 可能就不是一个好的选择，因为他确实有可能会让效能变差；所以在这种情况下，最好的方法应该还是回去用 printf 了∼

不过实际上，一般的程式主要的效能瓶颈应该不会是在这一部分，所以在这种状况下使用 boost::format 的话，应该不会对整体效能造成很大的影响；相对地，却有可能因为使用 boost::format 而减少不少开发时的时间成本。所以如果是在这种状况下的话，boost::format 应该还是有相当的实用性的。

结语
对于 boost::format 的介绍，大概就到这先告一个段落了。其实，讲的应该不算是很完整，有不少细节都被 Heresy 跳过了，只是一个简单地介绍罢了。真正要完全学会的话，可能还是得回官方网站看看了；相信如果愿意花时间的话，应该可以挖到更多进阶的用法才对！

另外，由于 boost::format 的语法定义主要是基于 printf 的语法来做沿伸的，所以 Heresy 在这边也就决定跳过了不少相关的说明；但是实际上在写这篇文章的过程中，却也发现其实 printf 的格式化字串的语法，有不少是 Heresy 之前也没注意到的、没搞懂的…或许，之后还是要再仔细研究看看吧…

附注
实作上是一个 template 的 class：basic_format。
boost::format 的 operator% 定义方法其实和 ostream 的 operator<< 很类似，它的形式是「format& format::operator%(const T& x)」，会回传一个 format 的参考，所以可以一直用 operator% 串下去。
对于使用者自订的型别，只要有定义 operator<<，让他可以透过 iostream 输出，就可以用在 boost::foramt 上。
Visual C++ 的 printf 似乎不支援格式化字串的「N$」（positional format specification），不过在 gcc 上应该是可以用的。

扩展阅读

[Format] Boost的C++格式化输出函数库：Format
[Boost] boost的named_mutex的一些坑
[Boost] Boost process在新窗口打开进程
[Boost] 用boost在共享内存上创建std::string的vetor容器
[Boost] 用boost在共享内存上创建一个复杂的map
[Boost] boost mpi库编译