数值运算 | Shell 编程范例

# 数值运算 [TOC=2,3] ## 前言从本文开始，打算结合平时积累和进一步实践，通过一些范例来介绍Shell编程。因为范例往往能够给人以学有所用的感觉，而且给人以动手实践的机会，从而激发人的学习热情。考虑到易读性，这些范例将非常简单，但是实用，希望它们能够成为我们解决日常问题的参照物或者是“茶余饭后”的小点心，当然这些“点心”肯定还有值得探讨、优化的地方。更复杂有趣的例子请参考 [Advanced Bash-Scripting Guide](http://www.tldp.org/LDP/abs/html/) (一本深入学习 Shell 脚本艺术的书籍)。该系列概要： - 目的：享受用 Shell 解决问题的乐趣；和朋友们一起交流和探讨。 - 计划：先零散地写些东西，之后再不断补充，最后整理成册。 - 读者：熟悉 Linux 基本知识，如文件系统结构、常用命令行工具、Shell 编程基础等。 - 建议：看范例时，可参考[《Shell基础十二篇》](http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=2198159)和[《Shell十三问》](http://bbs.chinaunix.net/thread-218853-1-1.html)。 - 环境：如没特别说明，该系列使用的 Shell 将特指 Bash，版本在 3.1.17 以上。 - 说明：该系列不是依据 Shell 语法组织，而是面向某些潜在的操作对象和操作本身，它们反应了现实应用。当然，在这个过程中肯定会涉及到 Shell 的语法。这一篇打算讨论一下 Shell 编程中的基本数值运算，这类运算包括： - 数值（包括整数和浮点数）间的加、减、乘、除、求幂、求模等 - 产生指定范围的随机数 - 产生指定范围的数列 Shell 本身可以做整数运算，复杂一些的运算要通过外部命令实现，比如 `expr`，`bc`，`awk` 等。另外，可通过 `RANDOM` 环境变量产生一个从 0 到 32767 的随机数，一些外部工具，比如 `awk` 可以通过 `rand()` 函数产生随机数。而 `seq` 命令可以用来产生一个数列。下面对它们分别进行介绍。 ## 整数运算 ### 范例：对某个数加 1 ~~~ $ i=0; $ ((i++)) $ echo $i 1 $ let i++ $ echo $i 2 $ expr $i + 1 3 $ echo $i 2 $ echo $i 1 | awk '{printf $1+$2}' 3 ~~~ 说明： `expr` 之后的 `$i`，`+`，1 之间有空格分开。如果进行乘法运算，需要对运算符进行转义，否则 Shell 会把乘号解释为通配符，导致语法错误； `awk` 后面的 `$1` 和 `$2` 分别指 `$i` 和 1，即从左往右的第 1 个和第 2 个数。用 Shell 的内置命令查看各个命令的类型如下： ~~~ $ type type type is a shell builtin $ type let let is a shell builtin $ type expr expr is hashed (/usr/bin/expr) $ type bc bc is hashed (/usr/bin/bc) $ type awk awk is /usr/bin/awk ~~~ 从上述演示可看出： `let` 是 Shell 内置命令，其他几个是外部命令，都在 `/usr/bin` 目录下。而 `expr` 和 `bc` 因为刚用过，已经加载在内存的 `hash` 表中。这将有利于我们理解在上一章介绍的脚本多种执行方法背后的原理。说明：如果要查看不同命令的帮助，对于 `let` 和 `type` 等 Shell 内置命令，可以通过 Shell 的一个内置命令 `help` 来查看相关帮助，而一些外部命令可以通过 Shell 的一个外部命令 `man` 来查看帮助，用法诸如 `help let`，`man expr` 等。 ### 范例：从 1 加到某个数 ~~~ #!/bin/bash # calc.sh i=0; while [ $i -lt 10000 ] do ((i++)) done echo $i ~~~ 说明：这里通过 `while [ 条件表达式 ]; do .... done` 循环来实现。`-lt` 是小于号 `<`，具体见 `test` 命令的用法：`man test`。如何执行该脚本？办法一：直接把脚本文件当成子 Shell （Bash）的一个参数传入 ~~~ $ bash calc.sh $ type bash bash is hashed (/bin/bash) ~~~ 办法二：是通过 `bash` 的内置命令 `.` 或 `source` 执行 ~~~ $ . ./calc.sh ~~~ 或 ~~~ $ source ./calc.sh $ type . . is a shell builtin $ type source source is a shell builtin ~~~ 办法三：是修改文件为可执行，直接在当前 Shell 下执行 ~~~ $ chmod ./calc.sh $ ./calc.sh ~~~ 下面，逐一演示用其他方法计算变量加一，即把 `((i++))` 行替换成下面的某一个： ~~~ let i++; i=$(expr $i + 1) i=$(echo $i+1|bc) i=$(echo "$i 1" | awk '{printf $1+$2;}') ~~~ 比较计算时间如下： ~~~ $ time calc.sh 10000 real 0m1.319s user 0m1.056s sys 0m0.036s $ time calc_let.sh 10000 real 0m1.426s user 0m1.176s sys 0m0.032s $ time calc_expr.sh 1000 real 0m27.425s user 0m5.060s sys 0m14.177s $ time calc_bc.sh 1000 real 0m56.576s user 0m9.353s sys 0m24.618s $ time ./calc_awk.sh 100 real 0m11.672s user 0m2.604s sys 0m2.660s ~~~ 说明： `time` 命令可以用来统计命令执行时间，这部分时间包括总的运行时间，用户空间执行时间，内核空间执行时间，它通过 `ptrace` 系统调用实现。通过上述比较可以发现 `(())` 的运算效率最高。而 `let` 作为 Shell 内置命令，效率也很高，但是 `expr`，`bc`，`awk` 的计算效率就比较低。所以，在 Shell 本身能够完成相关工作的情况下，建议优先使用 Shell 本身提供的功能。但是 Shell 本身无法完成的功能，比如浮点运算，所以就需要外部命令的帮助。另外，考虑到 Shell 脚本的可移植性，在性能不是很关键的情况下，不要使用某些 Shell 特有的语法。 `let`，`expr`，`bc` 都可以用来求模，运算符都是 `%`，而 `let` 和 `bc` 可以用来求幂，运算符不一样，前者是 `**`，后者是 `^` 。例如： ### 范例：求模 ~~~ $ expr 5 % 2 1 $ let i=5%2 $ echo $i 1 $ echo 5 % 2 | bc 1 $ ((i=5%2)) $ echo $i 1 ~~~ ### 范例：求幂 ~~~ $ let i=5**2 $ echo $i 25 $ ((i=5**2)) $ echo $i 25 $ echo "5^2" | bc 25 ~~~ ### 范例：进制转换进制转换也是比较常用的操作，可以用 `Bash` 的内置支持也可以用 `bc` 来完成，例如把 8 进制的 11 转换为 10 进制，则可以： ~~~ $ echo "obase=10;ibase=8;11" | bc -l 9 $ echo $((8#11)) 9 ~~~ 上面都是把某个进制的数转换为 10 进制的，如果要进行任意进制之间的转换还是 `bc` 比较灵活，因为它可以直接用 `ibase` 和 `obase` 分别指定进制源和进制转换目标。 ### 范例：ascii 字符编码如果要把某些字符串以特定的进制表示，可以用 `od` 命令，例如默认的分隔符 `IFS` 包括空格、 `TAB` 以及换行，可以用 `man ascii` 佐证。 ~~~ $ echo -n "$IFS" | od -c 0000000 t n 0000003 $ echo -n "$IFS" | od -b 0000000 040 011 012 0000003 ~~~ ## 浮点运算 `let` 和 `expr` 都无法进行浮点运算，但是 `bc` 和 `awk` 可以。 ### 范例：求 1 除以 13，保留 3 位有效数字 ~~~ $ echo "scale=3; 1/13" | bc .076 $ echo "1 13" | awk '{printf("%0.3fn",$1/$2)}' 0.077 ~~~ 说明： `bc` 在进行浮点运算时需指定精度，否则默认为 0，即进行浮点运算时，默认结果只保留整数。而 `awk` 在控制小数位数时非常灵活，仅仅通过 `printf` 的格式控制就可以实现。补充：在用 `bc` 进行运算时，如果不用 `scale` 指定精度，而在 `bc` 后加上 `-l` 选项，也可以进行浮点运算，只不过这时的默认精度是 20 位。例如： ~~~ $ echo 1/13100 | bc -l .00007633587786259541 ~~~ ### 范例：余弦值转角度用 `bc -l` 计算，可以获得高精度： ~~~ $ export cos=0.996293; echo "scale=100; a(sqrt(1-$cos^2)/$cos)*180/(a(1)*4)" | bc -l 4.934954755411383632719834036931840605159706398655243875372764917732 5495504159766011527078286004072131 ~~~ 当然也可以用 `awk` 来计算： ~~~ $ echo 0.996293 | awk '{ printf("%s\n", atan2(sqrt(1-$1^2),$1)*180/3.1415926535);}' 4.93495 ~~~ ### 范例：有一组数据，求人均月收入最高家庭在这里随机产生了一组测试数据，文件名为 `income.txt`。 ~~~ 1 3 4490 2 5 3896 3 4 3112 4 4 4716 5 4 4578 6 6 5399 7 3 5089 8 6 3029 9 4 6195 10 5 5145 ~~~ 说明：上面的三列数据分别是家庭编号、家庭人数、家庭月总收入。分析：为了求月均收入最高家庭，需要对后面两列数进行除法运算，即求出每个家庭的月均收入，然后按照月均收入排序，找出收入最高家庭。实现： ~~~ #!/bin/bash # gettopfamily.sh [ $# -lt 1 ] && echo "please input the income file" && exit -1 [ ! -f $1 ] && echo "$1 is not a file" && exit -1 income=$1 awk '{ printf("%d %0.2fn", $1, $3/$2); }' $income | sort -k 2 -n -r ~~~ 说明： - `[ $# -lt 1 ]`：要求至少输入一个参数，`$#` 是 Shell 中传入参数的个数 - `[ ! -f $1 ]`：要求输入参数是一个文件，`-f` 的用法见 `test` 命令，`man test` - `income=$1`：把输入参数赋给 income 变量，再作为 `awk` 的参数，即需处理的文件 - `awk`：用文件第三列除以第二列，求出月均收入，考虑到精确性，保留了两位精度 - `sort -k 2 -n -r`：这里对结果的 `awk` 结果的第二列 `-k 2`，即月均收入进行排序，按照数字排序 `-n`，并按照递减的顺序排序 `-r`。演示： ~~~ $ ./gettopfamily.sh income.txt 7 1696.33 9 1548.75 1 1496.67 4 1179.00 5 1144.50 10 1029.00 6 899.83 2 779.20 3 778.00 8 504.83 ~~~ 补充：之前的 `income.txt` 数据是随机产生的。在做一些实验时，往往需要随机产生一些数据，在下一小节，我们将详细介绍它。这里是产生 `income.txt` 数据的脚本： ~~~ #!/bin/bash # genrandomdata.sh for i in $(seq 1 10) do echo $i $(($RANDOM/8192+3)) $((RANDOM/10+3000)) done ~~~ 说明：上述脚本中还用到`seq`命令产生从1到10的一列数，这个命令的详细用法在该篇最后一节也会进一步介绍。 ## 随机数环境变量 `RANDOM` 产生从 0 到 32767 的随机数，而 `awk` 的 `rand()` 函数可以产生 0 到 1 之间的随机数。 ### 范例：获取一个随机数 ~~~ $ echo $RANDOM 81 $ echo "" | awk '{srand(); printf("%f", rand());}' 0.237788 ~~~ 说明： `srand()` 在无参数时，采用当前时间作为 `rand()` 随机数产生器的一个 `seed` 。 ### 范例：随机产生一个从 0 到 255 之间的数字可以通过 `RANDOM` 变量的缩放和 `awk` 中 `rand()` 的放大来实现。 ~~~ $ expr $RANDOM / 128 $ echo "" | awk '{srand(); printf("%d\n", rand()*255);}' ~~~ 思考：如果要随机产生某个 IP 段的 IP 地址，该如何做呢？看例子：友善地获取一个可用的 IP 地址。 ~~~ #!/bin/bash # getip.sh -- get an usable ipaddress automatically # author: falcon <zhangjinw@gmail.com> # update: Tue Oct 30 23:46:17 CST 2007 # set your own network, default gateway, and the time out of "ping" command net="192.168.1" default_gateway="192.168.1.1" over_time=2 # check the current ipaddress ping -c 1 $default_gateway -W $over_time [ $? -eq 0 ] && echo "the current ipaddress is okey!" && exit -1; while :; do # clear the current configuration ifconfig eth0 down # configure the ip address of the eth0 ifconfig eth0 \ $net.$(($RANDOM /130 +2)) \ up # configure the default gateway route add default gw $default_gateway # check the new configuration ping -c 1 $default_gateway -W $over_time # if work, finish [ $? -eq 0 ] && break done ~~~ 说明：如果你的默认网关地址不是 `192.168.1.1`，请自行配置 `default_gateway`（可以用 `route -n` 命令查看），因为用 `ifconfig` 配置地址时不能配置为网关地址，否则你的IP地址将和网关一样，导致整个网络不能正常工作。 ## 其他运算其实通过一个循环就可以产生一系列数，但是有相关工具为什么不用呢！`seq` 就是这么一个小工具，它可以产生一系列数，你可以指定数的递增间隔，也可以指定相邻两个数之间的分割符。 ### 范例：获取一系列数 ~~~ $ seq 5 1 2 3 4 5 $ seq 1 5 1 2 3 4 5 $ seq 1 2 5 1 3 5 $ seq -s: 1 2 5 1:3:5 $ seq 1 2 14 1 3 5 7 9 11 13 $ seq -w 1 2 14 01 03 05 07 09 11 13 $ seq -s: -w 1 2 14 01:03:05:07:09:11:13 $ seq -f "0x%g" 1 5 0x1 0x2 0x3 0x4 0x5 ~~~ 一个比较典型的使用 `seq` 的例子，构造一些特定格式的链接，然后用 `wget` 下载这些内容： ~~~ $ for i in `seq -f"http://thns.tsinghua.edu.cn/thnsebooks/ebook73/%02g.pdf" 1 21`;do wget -c $i; done ~~~ 或者 ~~~ $ for i in `seq -w 1 21`;do wget -c "http://thns.tsinghua.edu.cn/thnsebooks/ebook73/$i"; done ~~~ 补充：在 `Bash` 版本 3 以上，在 `for` 循环的 `in` 后面，可以直接通过 `{1..5}` 更简洁地产生自 1 到 5 的数字（注意，1 和 5 之间只有两个点），例如： ~~~ $ for i in {1..5}; do echo -n "$i "; done 1 2 3 4 5 ~~~ ### 范例：统计字符串中各单词出现次数我们先给单词一个定义：由字母组成的单个或者多个字符系列。首先，统计每个单词出现的次数： ~~~ $ wget -c http://tinylab.org $ cat index.html | sed -e "s/[^a-zA-Z]/\n/g" | grep -v ^$ | sort | uniq -c ~~~ 接着，统计出现频率最高的前10个单词： ~~~ $ wget -c http://tinylab.org $ cat index.html | sed -e "s/[^a-zA-Z]/\n/g" | grep -v ^$ | sort | uniq -c | sort -n -k 1 -r | head -10 524 a 238 tag 205 href 201 class 193 http 189 org 175 tinylab 174 www 146 div 128 title ~~~ 说明： - `cat index.html`: 输出 index.html 文件里的内容 - `sed -e "s/[^a-zA-Z]/\n/g"`: 把非字母字符替换成空格，只保留字母字符 - `grep -v ^$`: 去掉空行 - `sort`: 排序 - `uniq -c`：统计相同行的个数，即每个单词的个数 - `sort -n -k 1 -r`：按照第一列 `-k 1` 的数字 `-n` 逆序 `-r` 排序 - `head -10`：取出前十行 ### 范例：统计指定单词出现次数可以考虑采取两种办法： - 只统计那些需要统计的单词 - 用上面的算法把所有单词的个数都统计出来，然后再返回那些需要统计的单词给用户不过，这两种办法都可以通过下面的结构来实现。先看办法一： ~~~ #!/bin/bash # statistic_words.sh if [ $# -lt 1 ]; then echo "Usage: basename $0 FILE WORDS ...." exit -1 fi FILE=$1 ((WORDS_NUM=$#-1)) for n in $(seq $WORDS_NUM) do shift cat $FILE | sed -e "s/[^a-zA-Z]/\n/g" \ | grep -v ^$ | sort | grep ^$1$ | uniq -c done ~~~ 说明： - `if 条件部分`：要求至少两个参数，第一个单词文件，之后参数为要统计的单词 - `FILE=$1`: 获取文件名，即脚本之后的第一个字符串 - `((WORDS_NUM=$#-1))`：获取单词个数，即总的参数个数 `$#` 减去文件名参数（1个） - `for 循环部分`：首先通过 `seq` 产生需要统计的单词个数系列，`shift` 是 Shell 内置变量（请通过 `help shift` 获取帮助)，它把用户从命令行中传入的参数依次往后移动位置，并把当前参数作为第一个参数即 `$1`，这样通过 `$1`就可以遍历用户所有输入的单词（仔细一想，这里貌似有数组下标的味道）。你可以考虑把 `shift` 之后的那句替换成 `echo $1` 测试 `shift` 的用法演示： ~~~ $ chmod +x statistic_words.sh $ ./statistic_words.sh index.html tinylab linux python 175 tinylab 43 linux 3 python ~~~ 再看办法二，我们只需要修改 `shift` 之后的那句即可： ~~~ #!/bin/bash # statistic_words.sh if [ $# -lt 1 ]; then echo "ERROR: you should input 2 words at least"; echo "Usage: basename $0 FILE WORDS ...." exit -1 fi FILE=$1 ((WORDS_NUM=$#-1)) for n in $(seq $WORDS_NUM) do shift cat $FILE | sed -e "s/[^a-zA-Z]/\n/g" \ | grep -v ^$ | sort | uniq -c | grep " $1$" done ~~~ 演示： ~~~ $ ./statistic_words.sh index.html tinylab linux python 175 tinylab 43 linux 3 python ~~~ 说明：很明显，办法一的效率要高很多，因为它提前找出了需要统计的单词，然后再统计，而后者则不然。实际上，如果使用 `grep` 的 `-E` 选项，我们无须引入循环，而用一条命令就可以搞定： ~~~ $ cat index.html | sed -e "s/[^a-zA-Z]/\n/g" | grep -v ^$ | sort | grep -E "^tinylab$|^linux$" | uniq -c 43 linux 175 tinylab ~~~ 或者 ~~~ $ cat index.html | sed -e "s/[^a-zA-Z]/\n/g" | grep -v ^$ | sort | egrep "^tinylab$|^linux$" | uniq -c 43 linux 175 tinylab ~~~ 说明：需要注意到 `sed` 命令可以直接处理文件，而无需通过 `cat` 命令输出以后再通过管道传递，这样可以减少一个不必要的管道操作，所以上述命令可以简化为： ~~~ $ sed -e "s/[^a-zA-Z]/\n/g" index.html | grep -v ^$ | sort | egrep "^tinylab$|^linux$" | uniq -c 43 linux 175 tinylab ~~~ 所以，可见这些命令 `sed`，`grep`，`uniq`，`sort` 是多么有用，它们本身虽然只完成简单的功能，但是通过一定的组合，就可以实现各种五花八门的事情啦。对了，统计单词还有个非常有用的命令 `wc -w`，需要用到的时候也可以用它。补充：在 [Advanced Bash-Scripting Guide](http://www.tldp.org/LDP/abs/html/) 一书中还提到 `jot` 命令和 `factor` 命令，由于机器上没有，所以没有测试，`factor` 命令可以产生某个数的所有素数。如： ~~~ $ factor 100 100: 2 2 5 5 ~~~ ## 小结到这里，Shell 编程范例之数值计算就结束啦。该篇主要介绍了： - Shell 编程中的整数运算、浮点运算、随机数的产生、数列的产生 - Shell 的内置命令、外部命令的区别，以及如何查看他们的类型和帮助 - Shell 脚本的几种执行办法 - 几个常用的 Shell 外部命令： `sed`，`awk`，`grep`，`uniq`，`sort` 等 - 范例：数字递增；求月均收入；自动获取 `IP` 地址；统计单词个数 - 其他：相关用法如命令列表，条件测试等在上述范例中都已涉及，请认真阅读之如果您有时间，请温习之。 ## 资料 - [Advanced Bash-Scripting Guide](http://www.tldp.org/LDP/abs/html/) - [shell 十三问](http://bbs.chinaunix.net/thread-218853-1-1.html) - [shell 基础十二篇](http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=2198159) - SED 手册 - AWK 使用手册 - 几个 Shell 讨论区 - [LinuxSir.org](http://www.linuxsir.org/bbs/forumdisplay.php?f=60) - [ChinaUnix.net](http://bbs.chinaunix.net/forum-24-1.html) ## 后记大概花了 3 个多小时才写完，目前是 23:33，该回宿舍睡觉啦，明天起来修改错别字和补充一些内容，朋友们晚安！ 10 月 31 号，修改部分措辞，增加一篇统计家庭月均收入的范例，添加总结和参考资料，并用附录所有代码。 Shell 编程是一件非常有趣的事情，如果您想一想：上面计算家庭月均收入的例子，然后和用 `M$ Excel` 来做这个工作比较，你会发现前者是那么简单和省事，而且给您以运用自如的感觉。