Swift 2中字符串设计的背后思想

分享到

Swift 2中字符串设计的背后思想

作者： Apple 来源：Apple Developer's Blog 火龙果软件发布于 2015-08-18

摘要：Swift提供高性能、兼容Unicode的String作为标准库的一部分。在Swift 2.0中，String类型不再符合CollectionType协议，转而提供一个公开字符集视图的charactes属性。为什么会变？苹果在其Swift官方博客中给出了答案。

Swift提供高性能、兼容Unicode的String作为标准库的一部分，在Swift 2.0中，String类型不再符合CollectionType协议，曾经String是字符的集合，类似于array。现在，String提供了一个公开字符集视图的charactes属性。

为什么会变？虽然模拟一个字符串作为字符集合看起来很自然，但是String类型的行为还是与Array、Set、Dictionary这种集合类型有很大的区别。这一直存在着，但是随着Swift 2协议扩展的增加，这些差异使得有必要做出一些基本的改变。

与之不同的Sum

当你添加一个元素到集合中，你期望集合将包含这个元素。就是说，当你将一个值添加到数组中时，该数组包含该值。就像应用dictionary或set。然而，当你在一个string中添加一个组合标记字符串，字符串本身的内容被更改。

考虑字符串cafe，其中有四个字符串：c、a、f和e：

var letters: [Character] = ["c", "a", "f", "e"]  
var string: String = String(letters)  
   
print(letters.count) // 4  
print(string) // cafe  
print(string.characters.count) // 4

如果你添加一个组合字符U+0301和′，字符串仍然有四个字符，但是现在最后一位是é。

let acuteAccent: Character = "\u{0301}" // ′ COMBINING ACUTE ACCENT' (U+0301)  
   
string.append(acuteAccent)  
print(string.characters.count) // 4  
print(string.characters.last!) // é

在刚刚这个字符串的字符属性不包涵原始的小写字母e，也不包涵只是附加的′。相反，字符串中现在包涵一个小写“e”，带有é：

string.characters.contains("e") // false  
string.characters.contains("′") // false  
string.characters.contains("é") // true

如果我们像其它集合那样处理字符串，这个结果将会让我们惊讶，添加UIColor.redColor()和UIColor.greenColor()，然后设置他包涵UIColor.yellowColor()。

根据文字内容判断

字符串和集合之间的另一个区别是它们确定相等的方式：

如果两个array都有相同的数目，并且每对元素在相应的指数是相等的，两个array相等。
如果两个sets都有相同的数目，并且每个元素包含在第一个元素也包含在第二个。
如果两个dictionaries有相同的key、value，则两个dictionaries相等。

然而string基于正则等价平等。如果有相同的语言意思和外观特征，甚至如果它们由不同的Unicode组成，则表示等效。

考虑下韩语协作系统，由24个字母组成，或是Jamo，代表个别的辅音和元音。当把这些字母写出来的时候，每个音节都是字母组合起来的。字符“?”（[GA]）是由字母“?”（[ ]）和“?”[一]。在Swift中，字符串是相同的，无论是由分解或预作字符序列：

string.characters.contains("e") // false  
string.characters.contains("′") // false  
string.characters.contains("é") // true

同样，这种行为与任何快速的收集类型有很大的不同。这将是令人惊讶的价值和被认为等于阵列。

取决于你的观点

characters is a collection of Character values, or extended grapheme clusters.
unicodeScalars is a collection of Unicode scalar values.
utf8 is a collection of UTF–8 code units.
utf16 is a collection of UTF–16 code units.

如果我们把“CAFé”前面的例子，由分解的特征[C，A，F，E ]和[′]，这里有各种字符串的视图将包括：

characters属性段的文本扩展字形集群，这是一个近似的用户感知的字符（在这种情况下，c, a, f, and é）。因为一个字符串必须遍历它的每一个位置（每个位置称为一个代码点），为了确定字符边界.访问此属性的线性输出O(n)时间。当处理字符串包含人类可读的文本，高级语言环境敏感的Unicode编码算法，尤其使用localizedstandardcompare用（_：）方法和localizedlowercasestring财产，应优先采用字符处理的特点。
UTF8，UTF16性质为UTF 8和16表示–utf–提供代码.这些值对应于将实际的字节写入到一个文件，当翻译到和从一个特定的编码。UTF-8编码单元被许多POSIX字符串处理API.而UTF-16代码单元中使用的Cocoa & Cocoa Touch表示字符串的长度和偏移量。

分享到