导读:今天恰卡编程网来给各位分享关于python字符串占多少字节的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
字符数组占多少字节?
在定义字符数组用字符串常量进行初始化时,系统会自动在结尾加'\0'做结束标志,所以数组array所占的空间为6个字节。
所谓数组,是有序的元素序列。[若将有限个类型相同的变量的集合命名,那么这个名称为数组名。组成数组的各个变量称为数组的分量,也称为数组的元素,有时也称为下标变量。
用于区分数组的各个元素的数字编号称为下标。数组是在程序设计中,为了处理方便, 把具有相同类型的若干元素按无序的形式组织起来的一种形式。 这些无序排列的同类数据元素的集合称为数组。
特点
1、数组是相同数据类型的元素的集合。
2、数组中的各元素的存储是有先后顺序的,它们在内存中按照这个先后顺序连续存放在一起。
3、数组元素用整个数组的名字和它自己在数组中的顺序位置来表示。例如,a[0]表示名字为a的数组中的第一个元素,a[1]代表数组a的第二个元素,以此类推。
以上内容参考:百度百科-数组
某个字符串 占了多少个字节
不同的字符所占的字节是不同的。
ASCII码:
一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。如一个ASCII码就是一个字节。
UTF-8编码:
一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。
Unicode编码:
一个英文等于两个字节,一个中文(含繁体)等于两个字节。
符号:
英文标点占一个字节,中文标点占两个字节。举例:英文句号“.”占1个字节的大小,中文句号“。”占2个字节的大小。
Python 字符集编码 - UTF-8 编码
Unicode 的编码范围为 0~0x10FFFF ,如此大的范围,显然没办法像 ASCII 编码一样使用一个字节存储。为此,Unicode 制定了各种储存编码的方式,如: UTF-8 、 UTF-16 和 UTF-32 ,这些存储格式被称为 Unicode 转换格式 UTF 。
每种 Unicode 转换格式都会把一个编码存储为一到多个编码单元,如 UTF-8 的编码单元为 8 位的字节; UTF-16 的编码单元为 16 位,即 2 个字节; UTF-32 的编码单元为 32 位,即 4 个字节。
其中, UTF-8 是在互联网上使用最广泛的一种 Unicode 转换格式,具有以下显著的优势。下面,我们就先来看看 UTF-8 具有哪些有点吧~
1. UTF-8 中每个 ASCII 字符只需要一个字节去存储,因此一个 ASCII 文本本身也是一个 UTF-8 文本,即做到了向后兼容。
比如 A 的 ASCII 码对应为 0x41 , a 的 ASCII 码对应为 0x61 ,那么 UTF-8 兼容 ASCII 也就意味着:
这里,需要再次提醒一下:Unicode 是表现形式,UTF-8 是存储形式;即 UTF-8 解码之后为 Unicode ,Unicode 可以编码成 UTF-8 。
2. UTF-8 采用字节为存储单元,因此不存在字节的大端和小段的问题。
UTF-16 和 UTF-32 的存储单元分别是 2 字节和 4 字节,因此在存储时会涉及到大小端的问题。那什么是大小端模式呢?下面我们来暂停补充一下~
关于如何获知你的环境使用的是大端模式还是小端模式,这里有个简单的方式:定义一个 short 类型的数组即可:
数字 1 在 short 类型中表示为 0x0001 ,高位为 0x00 ,低位为 0x01 。我们可以很直观地看到,数组在保存数据时,将高位 0x00 放在了高地址处,将低位 0x01 放在了低地址处。因此使用的就是小端模式。
那 UTF-8 为什么可以使用字节来作为存储单元,而不用担心字节序的问题呢?这就涉及到了 UTF-8 巧妙的编码规则~
UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号,根据不同的符号而变化字节长度。UTF-8的编码规则很简单,只有二条:
1)对于单字节符号,字节的第一位设为 0 ,后 7 位为这个符号的 Unicode 码。也就是我们上文提到的向后兼容:对于英文字母,UTF-8 编码和 ASCII 码是相同的。
2)对于使用 X 个字节存储的符号,第一个字节的前 X 位设置为 1 ,第 X+1 位设置为 0 ,后面字节的前 2 位一律设置为 10 ,剩下的位置一次填充这个符号的 Unicode 码。
下表总结了编码规则,字母 x 表示可用于编码的位:
跟据上表,解读 UTF-8 编码也非常简单:如果一个字节的第一位是 0 ,则这个字节单独就是一个字符;如果第一位是 1 ,则连续有多少个 1 ,就表示当前字符占用多少个字节。
下面,我们就来演示一下 UTF-8 编码的过程。
首先,获取汉字 鱼 的 Unicode 码:
我们不妨先对 鱼 这个汉字使用 utf-8 编码看看使用几个字节存储:
鱼 在 UTF-8 编码中使用 3 个字节存储,因此其存储的二进制的形式为 1110xxxx 10xxxxxx 10xxxxxx ,将 Unicode 1001 110001 111100 依次填充到占位符 x 的位置就得到: 11101001 10110001 10111100 。
下面,我们将上述推导得出的 11101001 10110001 10111100 转换为十六进制,验证一下是否为 b'\xe9\xb1\xbc' :
验证无误!
python字符串里转义字符占几个个数
python字符串里转义字符占5个个数。转义字符是以为开头的字符,后面跟一个或几个字符,其意思是将反斜杠后面的字符转变成为另外的意义。
请问这个字符串占多少字节?
char
*s="\ta\017bc";
一个个分析:
\t,制表符,占一个字节
a,字母,占一个字节
\017,转义八进制数,占一个字节(这里容易误认为是结束符\0,其实不是)
b,字母,占一个字节
c,字母,占一个字节
字符串连续字符5个字节,最后还要加上一个字符串结束符\0,占一字节
所以总共6字节
如何理解Python中字符
学过c的朋友都知道,字符(‘ ’)和字符串(“ ”)是不一样的,可是在python中,这些东西的方方面面的门道比较多,在我刚学习的时候也懵比了好一阵子,也就想着总结总结
首先我们需要了解的是在学习python中,可以简单地理解单引号,双引号,三引号,他们括起来的东西都是字符串,也就是说在开始学习python的过程中,就当做是没有字符一说
1,
通过上面的例子可以很容易的看清楚s,s1, s2 , s3都是字符串(通过type类型测试)
2,转义字符
我们简单提一下c的转义字符(’\xhh‘, 注意这里的hh是两个,过多的话可能会超过,产生警告out of range),(’\ddd‘,这里需要的是1-3位8进制的数,希望大家不要弄混)
[cpp] view plain copy
#include stdio.h
#include conio.h
int main(){
int a = '\113';
int b = '\x13';
printf("%d,, ,%d,,", a, b);
getch();
}
结果如下:
75,, ,19,,
但是在python中,他们还是有挺大的区别的
我们可以看到,在上面的字符串s4里面有一个转义字符(\n)存在,所以编译器对它的处理肯定和简单地字符串处理是不一样的
s4直接输出和print S4输出之所以不同,是因为S4的直接输出就是输出s4本身,我们一开始就给了s4赋值了,而对于print S4的输出,是因为print函数(python自带库函数)对S4进行了处理,在输出是发现里面有转义字符(\n也就是换行的意思),所以是先输出abc,然后换行,紧接着输出456
这里还有一个是raw(破坏转义字符)python中将r放在包含有转义字符的字符串前面
这里我们也能直接看到,在print中转义字符的作用被破坏了,也就是说并不能起到换行的作用了
unicode编码也是如此,就是在带有转义字符的字符串前面加了一个u
unicode编码用两个字节(16位)来表示,而ascii码(8位)有一个字节来表示,汉子在ascii中不是很好的被支持,但是在unicode中可以好一点,16位,也就是65535个,容纳一般的汉子是够了,而且还知道字符编码是用十六进制来表示的,也就是说前面加上一个’0x‘,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97,
但是千万注意c和python的区别
而且我们知道,python中本就不谈论对象的类型(并不像c分的那么细),所以我们可以理解为上面的那些字符串都是常量,我们并不可以更改这些内容,也是在一定的区域存放的
由上可知,我们随意更改一定会导致错误的,所以我们一定要注意
对于函数的返回值,我们也要值得注意:
[plain] view plain copy
def tur_a(val1, val2= 3):
n = val1 + val2
m = val1 - val2
l = val1 * val2
z = val1 /val2
return n, m, l, z
print "go , go , go"
b = tur_a(9)
print b
print b[0], b[1], b[2], b[3]
print "game over"
输出结果:
我们可以看到,对于一个函数返回多个值的时候,应该依次赋给相应个数的值,但是如果我们赋值给了一个变量的话,就相当于赋值了一个元组,当然,我们也可以通过加’【】‘的办法来获取具体的值,就如同c中的数组
对于字符串,当然我们也就不能忽略输入的这两个函数(input,raw_input),这里,我们应该注意的是它的返回值
input()的返回值是整数
raw_input()的返回值是字符型的
但是,这里我们可以通过int类型强转
最后简单提一下常用字符函数:
startswith:endswith,isalnum,isalpha,isdigit
s.startswith(s1):判断s字符串是不是以s1开头的,返回值为布尔类型
s.endswith(s1):同理,判断s字符串是不是以s1结束的,返回值同样为布尔类型
s.isalnum():判断s中是不是全是由数字和字母构成,并没有特殊字符,(哈哈,可以增加密码强度)
s.ialpha():判断s中是不是全是字母,返回布尔类型
s.isdigit();判断是否全为数字
哈哈,其实也挺好记的
结语:以上就是恰卡编程网为大家整理的关于python字符串占多少字节的全部内容了,感谢您花时间阅读本站内容,希望对您有所帮助,更多关于python字符串占多少字节的相关内容别忘了在本站进行查找喔。
相关文章
本站已关闭游客评论,请登录或者注册后再评论吧~