《lua 程序设计》读书笔记（2）：数值 & 字符串

字符串

字符串用于表示文本， Lua 语言中的字符串是一串字节组成的序列 。Lua 核心并不关心这些字节以何种方式编码文本：

Lua 语言中的字符串可以存储包括空字符在内的所有数值代码，因此可以在字符串中存储任意的二进制数据

可以使用任意一种编码方法（UTF-8、UTF-16）来存储 Unicode 字符

Lua 中的字符串是不可变值，只能通过创建一个新的字符串的方式来达到修改目的。Lua 中的字符串也是自动内存管理的对象之一，即 Lua 语言会负责字符串内存的分配和释放。

..

）来进行字符串连接，如果操作数中存在数值，会先将数值转换成字符串

> a = "hello"
> print(#a)
5
> "hello".."world"
helloworld
> "3"..2
32
> 3..2
stdin:1: malformed number near '3..2'
> a = "hello"
> a.."world"
helloworld
> a
hello

字符串常量

使用一对双引号或者单引号来声明字符串常量。单引号、双引号两者是等价的，区别在于转义的时机：使用双引号声明的字符串中出现单引号时，单引号可以不用转义。使用单引号声明的字符串中出现双引号时，双引号可以不用转义。

Lua 字符串支持 C 语言风格的转义字符，例如 \n 等。也可以通过转义序列 \ddd 和 \xhh 来声明字符，其中 ddd 是由最多 3 个十进制数字组成的序列， hh 是由两个且必须是两个的十六进制数字组成的序列。

从 Lua5.3 开始，也支持使用转义序列 \u{h..h} 来声明 UTF-8 字符，花括号中可以支持任意有效的十六进制。

长字符串/多行字符串

可以使用一对 双括号 来声明长字符串/多行字符串常量，此时内容中的转义序列不会被转义。另外如果多行字符串的第一个字符是换行符，该换行符会被忽略。

当内容中本身含有双括号时，可以在两个左方括号之间加上任意数量的等号，例如 [===[ ，这样字符串常量只有在遇到了包含相同数量等号的两个右方括号时才会结束（本例中即 ]===] 。Lua 语法扫描器会忽略所含等号数量不相同的方括号。通过选择恰当数量的等号，就可以无需修改原字符串的情况下声明任意的字符串常量。对于注释，这种机制同样有效，例如使用 --[=[ 和 ]=] 来进行长注释，从而降低对内部已经包含注释的代码进行注释的难度。

从 Lua5.2 开始引入了转义序列 \z ，该转义符会跳过其后的所有空白字符，直到遇到第一个非空白字符。

强制类型转换

Lua 语言运行时提供了数值与字符串之间的自动转换：

当需要数值的地方出现了字符串，Lua 会自动尝试将字符串转换为数值

当需要字符串的地方出现了数值，Lua 会自动尝试将数值转换为字符串

> print(10 .. 20)
1020
> print(10..20)
stdin:1: malformed number near '10..20'
> print(10.."20")
stdin:1: malformed number near '10..'

注意，当数值之后紧接着使用字符串连接时，必须使用空格将它们分开，否则 Lua 语言会将第一个点当成小数点 。

使用 tonumber 可以显式地将一个字符串转换成数值。默认该函数使用十进制，但也可以指定二进制到三十六进制之间的任意进制。使用 tostring 可以将数值转换为字符串。

> tonumber("   -3")
-3
> tonumber(" 10e4 ")
100000.0
> tonumber("0x1.3p-4")
0.07421875
> tonumber("1010", 2)
10
> tonumber("ff", 16)
255
> tonumber("989", 8)
nil

> tostring(10)
10
> tostring(0x16)
22
> type(tostring(10))
string

注意，比较操作符不会对操作数进行强制类型转换。当比较运算符中混用了字符串和数值时，Lua 会抛出异常。

> 2 < "2"
stdin:1: attempt to compare number with string
stack traceback:
        stdin:1: in main chunk
        [C]: in ?
> 2 == "2"
false

字符串标准库

Lua 语言解释器本身处理字符串的能力有限。Lua 语言处理字符串的完整能力来自其字符串标准库：

函数


     string.len(s)

返回字符串 s 的长度，等价于

#s


     string.rep(s, n)

返回字符串 s 重复 n 次的结果


     string.reverse()

用于字符串翻转


     string.lower(s)

返回字符串 s 的小写版本


     string.uppper(s)

返回字符串 s 的大写版本


     string.sub(s, i, j)

从字符串 s 中提取第 i 个到第 j 个字符（包括 i 和 j，字符串第一个字符索引为 1）。也支持负数索引，从结尾开始计数：-1 代表字符串的最后一个字符、-2 代表倒数第二个字符，依此类推


     string.char 和 string.byte

用于转换字符及其内部数值表示。


     string.char

接收0或多个整数作为参数，然后将每个整数转换为对应的字符，最后返回这些字符连接而成的字符串。


     string.byte(s, i)

返回字符串 s 中的第 i 个字符的内部数值表示（如果没有指定 i，则默认为第一个。i 也支持负数索引）。


     string.byte(s, i, j)

则返回索引 i 到 j 之间的所有字符的数值表示。例如


     {string.byte(s, 1, -1)}

会创建一个由字符串 s 中的所有字符代码组成的表


     string.format

用于进行字符串格式化，它可以将数值输出位字符串。格式化字符串中的指示符与 C 中 printf 函数的规则类似（其实 Lua 就是通过调用 C 语言标准库来完成这项工作的）


     string.find

用于在指定的字符串中进行模式搜索。如果找到了匹配的模式，则返回模式的开始和结束位置，否则返回 nil。


     string.gsub

则把所有匹配的模式用另一个字符串替换，其还会在第二个返回值中返回发生替换的次数

> string.lower("Hello")
hello
> string.upper("Hello")
HELLO

> string.char(65, 66, 67)
ABC
> string.byte("ABC", 2)
66
> string.byte("ABC", -1)
67

> string.format("%s %d %d", "1", 10, -1)
1 10 -1
> string.format("%x", 31)
1f
> string.format("<%s>%s<%s>", "h1", "hello", "h1")
<h1>hello<h1>

> string.find("hello world", "wor")
7       9
> string.find("hello world", "war")
nil
> string.gsub("hello world", "wor", "xxx")
hello xxxld     1

也可以可以使用冒号操作符像调用字符串的一个方法那样来调用字符串标准库中的所有函数 ：

> s = "ABC"
> string.sub(s, 1, 2)
AB
> s:sub(1, 2)
AB

Unicode 编码

UTF-8 使用变长的多个字节编码一个 Unicode 字符。首先字符串标准库中的函数 reverse、upper、lower、byte、char 不适用于 UTF-8 字符串，因为他们针对的都是一字节字符。 format、rep 适用于 UTF-8 字符串（格式选项 %c 除外，该格式选项针对一字节字符）。 len 、 sub 可以用于 UTF-8 字符串，其中的索引以字节为单位而不是以字符为单位。

从 Lua5.3 开始，Lua 引入了用于操作 UTF-8 编码的 Unicode 字符串的标准库：


     utf8.len

返回指定字符串中 UTF-8 字符的个数。此外该函数还会验证字符串，如果该函数发现字符串中包含无效的字节序列，则返回 false 外加第一个无效字节的位置。

函数


     utf8.char

和


     utf8.codepoint

是 UTF-8 环境中的


     string.char

和


     string.byte

。此时索引仍然是以字节为单位，如果想以字符位置作为索引，可以通过函数


     utf8.offset

把字符位置转换为字节位置


     utf8.codes

用于遍历 UTF-8 字符串中的每一个字符，并将每个字符对应的字节索引和编码赋给两个局部变量

> utf8.len('中国')
2
> utf8.codepoint('中国', 1, 3)
20013
> utf8.char(20013)
中
> utf8.offset('中国', 2)
4
> for i, c in utf8.codes('中国') do
>>      print(i, c)
>> end
1       20013
4       22269

Lua 并没有提供其他 Unicode 字符相关的特性，因为 Unicode 本身的复杂性，想要支持完整地 Unicode 需要巨大的表，而这与 Lua 精简的大小相矛盾。因此对于这些特殊需求来说，最好就是选择外部库。

Reference

十六进制浮点数

数值

数值常量

算术运算

关系运算符

数学库

表示范围