Boring Studff

text show in screen: symbols and characters
text store in disk:bits and bytes
我们有charater encoding 用来映射你在屏幕上看到的和你存储在内存和磁盘
character encoding用来表示解密的键,可以将bytes编码成character
ASCii encoding: 0到127来存储
他可以用一个byte表示明白
对于特别复杂的character可以用2个byte表示
这种想法在网络中十分复杂,你需要发送”plain text with decryption key”,这是十分复杂的

Unicode

Unicode用来从所有的语言中表示每一个字符
unicode用来将每一个字符,字母,表意文字用四个byte表示.
这样的缺点:4个字符太浪费
我们可以通过指定UTF-32或UTF-16指定编码需要的字符,UTF-16可以将0-65535以内编码在2个字符内,大于的用hacker skill
大端机器和小端机器如何交流:
在ducument前加入byte order mark用来区别
由于ascii码的存在,utf-16也不太好使用
UTF-8是一个变量长度的编码系统
不同的字符以不同的bytes编码
缺点:找到第n个字符不再是常数级
优点: 可以很好的处理ascii,utf-16, utf-32, 并且不用考虑不同电脑byte端的区别