练习36:更安全的字符串

最后更新于:2022-04-01 23:29:19

# 练习36:更安全的字符串 > 原文:[Exercise 36: Safer Strings](http://c.learncodethehardway.org/book/ex36.html) > 译者:[飞龙](https://github.com/wizardforcel) 我已经在练习26中,构建`devpkg`的时候介绍了[Better String](http://bstring.sourceforge.net/)库。这个练习让你从现在开始熟悉`bstring`库,并且明白C风格字符串为什么十分糟糕。之后你需要修改`liblcthw`的代码来使用`bstring`。 ## 为什么C风格字符串十分糟糕 当人们谈论C的问题时,“字符串”的概念永远是首要缺陷之一。你已经用过它们,并且我也谈论过它们的种种缺陷,但是对为什么C字符串拥有缺陷,以及为什么一直是这样没有明确的解释。我会试着现在做出解释,部分原因是C风格字符串经过数十年的使用,有足够的证据表明它们是个非常糟糕的东西。 对于给定的任何C风格字符串,都不可能验证它是否有效。 + 以`'\0'`结尾的C字符串是有效的。 + 任何处理无效C字符串的循环都是无限的(或者造成缓冲区溢出)。 + C字符串没有确定的长度,所以检查它们的唯一方法就是遍历它来观察循环是否正确终止。 + 所以,不通过有限的循环就不可能验证C字符串。 这个逻辑非常简单。你不能编写一个循环来验证C字符串是否有效,因为无效的字符串导致循环永远不会停止。就是这样,唯一的解决方案就是包含大小。一旦你知道了大小,你可以避免无限循环问题。如果你观察练习27中我向你展示的两个函数: > 译者注:检验C风格字符串是否有效等价于“停机问题”,这是一个非常著名的不可解问题。 ```c void copy(char to[], char from[]) { int i = 0; // while loop will not end if from isn't '\0' terminated while((to[i] = from[i]) != '\0') { ++i; } } int safercopy(int from_len, char *from, int to_len, char *to) { int i = 0; int max = from_len > to_len - 1 ? to_len - 1 : from_len; // to_len must have at least 1 byte if(from_len < 0 || to_len <= 0) return -1; for(i = 0; i < max; i++) { to[i] = from[i]; } to[to_len - 1] = '\0'; return i; } ``` 想象你想要向`copy`函数添加检查来确保`from`字符串有效。你该怎么做呢?你编写了一个循环来检查字符串是否已`'\0'`结尾。哦,等一下,如果字符串不以`'\0'`结尾,那它怎么让循环停下?不可能停下,所以无解。 无论你怎么做,你都不能在不知道字符串长度的情况下检查C字符串的有效性,这里`safercopy`包含了程度。这个函数没有相同的问题,因为他的循环一定会中止,即使你传入了错误的大小,大小也是有限的。 > 译者注:但是问题来了,对于一个C字符串,你怎么获取其大小?你需要在这个函数之前调用`strlen`,又是一个无限循环问题。 于是,`bstring`库所做的事情就是创建一个结构体,它总是包含字符串长度。由于这个长度对于`bstring`来说总是可访问的,它上面的所有操作都会更安全。循环是有限的,内容也是有效的,并且这个主要的缺陷也不存在了。BString库也带有大量所需的字串操作,比如分割、格式化、搜索,并且大多数都会正确并安全地执行。 `bstring`中也可能有缺陷,但是经过这么长时间,可能性已经很低了。`glibc`中也有缺陷,所以你让程序员怎么做才好呢? ## 使用 bstrlib 有很多改进后的字符串库,但是我最喜欢`bstrlib`,因为它只有一个程序集,并且具有大多数所需的字符串功能。你已经在使用它了,所以这个练习中你需要从[Better String](http://bstring.sourceforge.net/)获取两个文件,`bstrlib.c`和`bstrlib.h`。 下面是我在`liblcthw`项目目录里所做的事情: ```sh $ mkdir bstrlib $ cd bstrlib/ $ unzip ~/Downloads/bstrlib-05122010.zip Archive: /Users/zedshaw/Downloads/bstrlib-05122010.zip ... $ ls bsafe.c bstraux.c bstrlib.h bstrwrap.h license.txt test.cpp bsafe.h bstraux.h bstrlib.txt cpptest.cpp porting.txt testaux.c bstest.c bstrlib.c bstrwrap.cpp gpl.txt security.txt $ mv bstrlib.h bstrlib.c ../src/lcthw/ $ cd ../ $ rm -rf bstrlib # make the edits $ vim src/lcthw/bstrlib.c $ make clean all ... $ ``` 在第14行你可以看到,我编辑了`bstrlib.c`文件,来将它移动到新的位置,并且修复OSX上的bug。下面是差异: ```diff 25c25 < #include "bstrlib.h" --- > #include 2759c2759 < #ifdef __GNUC__ --- > #if defined(__GNUC__) && !defined(__APPLE__) ``` 我把包含修改为``,然后修复2759行`ifdef`的问题。 ## 学习使用该库 这个练习很短,只是让你准备好剩余的练习,它们会用到这个库。接下来两个联系中,我会使用`bstrlib.c`来创建Hashmap`数据结构。 你现在应该阅读头文件和实现,之后编写`tests/bstr_tests.c`来测试下列函数,来熟悉这个库: `bfromcstr` 从C风格字符串中创建一个`bstring`。 `blk2bstr` 与上面相同,但是可以提供缓冲区长度。 `bstrcpy` 复制`bstring`。 `bassign` 将一个`bstring`赋值为另一个。 `bassigncstr` 将`bsting`的内容设置为C字符串的内容。 `bassignblk` 将`bsting`的内容设置为C字符串的内容,但是可以提供长度。 `bdestroy` 销毁`bstring`。 `bconcat` 在一个`bstring`末尾连接另一个。 `bstricmp` 比较两个`bstring`,返回值与`strcmp`相同。 `biseq` 检查两个`bstring`是否相等。 `binstr` 判断一个`bstring`是否被包含于另一个。 `bfindreplace` 在一个`bstring`中寻找另一个,并且将其替换为别的。 `bsplit` 将`bstring`分割为`bstrList`。 `bformat` 执行字符串格式化,十分便利。 `blength` 获取`bstring`的长度。 `bdata` 获取`bstring`的数据。 `bchar` 获得`bstring`中的字符。 你的测试应该覆盖到所有这些操作,以及你从头文件中发现的更多有趣的东西。在`valgrind`下运行测试,确保内存使用正确。
';