python 字符串处理-白红宇

python 字符串处理

阅读量：5060 次

发布时间：2019-06-12

本文共 3936 字，大约阅读时间需要 13 分钟。

介绍字符串相关的：比较,截取,替换,长度,连接,反转,编码,格式化,查找,复制,大小写,分割等操作

什么是字符串

字符串

字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为 s=“a1a2···an”(n>=0)。它是编程语言中表示文本的数据类型。通常以串的整体作为操作对象，如：在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个字符串相等的充要条件是：长度相等，并且各个对应位置上的字符都相等。

python 字符串相关特性

1 属于python基本数据类型和结构的一种。2 本身是不可变的数据类型。 3 有很多内置的方法

字符串连接

方法1：用字符串的join方法

a = [ 'a' , 'b' , 'c' , 'd' ]

content = ''

content = '' . join( a)

print content

方法2：用字符串的替换占位符替换

a = [ 'a' , 'b' , 'c' , 'd' ]

content = ''

content = ' %s%s%s%s ' % tuple( a)

print content

想要了解更多,请看

字符串截取

我们可以通过索引来提取想要获取的字符，可以把python的字符串也做为字符串的列表就更好理解

python的字串列表有2种取值顺序

1是从左到右索引默认0开始的，最大范围是字符串长度少1

s = 'ilovepython'

s[0]的结果是i

2是从右到左索引默认-1开始的，最大范围是字符串开头

s = 'ilovepython'

s[-1]的结果是n

上面这个是取得一个字符，如果你的实际要取得一段子串的话，可以用到变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。

比如

s = 'ilovepython'

s[1:5]的结果是love

当使用以冒号分隔的字符串，python返回一个新的对象，结果包含了以这对偏移标识的连续的内容，左边的开始是包含了下边界，比如

上面的结果包含了s[1]的值l，而取到的最大范围不包括上边界，就是s[5]的值p

想要了解更多,请看

字符串替换

字符串替换可以用内置的方法和正则表达式完成。

1用字符串本身的replace方法:

a = 'hello word'

b = a . replace( 'word' , 'python')

print b

2用正则表达式来完成替换:

import re

a = 'hello word'

strinfo = re . compile( 'word')

b = strinfo . sub( 'python' , a)

print b

想要了解更多,请看

字符串比较

cmp方法比较两个对象，并根据结果返回一个整数。cmp(x,y)如果X< Y,返回值是负数如果X>Y 返回的值为正数。

sStr1 = 'strch'

sStr2 = 'strchr'

print cmp( sStr1 , sStr2) ##-1

字符串相加

我们通过操作符号+来进行字符串的相加，不过建议还是用其他的方式来进行字符串的拼接，这样效率高点。

原因：在循环连接字符串的时候，他每次连接一次，就要重新开辟空间，然后把字符串连接起来，再放入新的空间，再一次循环，又要开辟新的空间，把字符串连接起来放入新的空间，如此反复，内存操作比较频繁，每次都要计算内存空间，然后开辟内存空间，再释放内存空间，效率非常低。

sStr1 = 'strch'

sStr2 = 'strchr'

newstr = sStr1 + sStr2

print newstr

字符串查找

python 字符串查找有4个方法，1 ,2 方法，3 rfind方法,4 rindex方法。

1 find()方法：

info = 'abca'

print info . find( 'a') ##从下标0开始，查找在字符串里第一个出现的子串，返回结果：0

info = 'abca'

print info . find( 'a' , 1) ##从下标1开始，查找在字符串里第一个出现的子串：返回结果3

info = 'abca'

print info . find( '333') ##返回-1,查找不到返回-1

2 index()方法：

python 的index方法是在字符串里查找子串第一次出现的位置，类似字符串的find方法，不过比find方法更好的是，如果查找不到子串，会抛出异常，而不是返回-1

info = 'abca'

print info . index( 'a')

print info . index( '33')

字符串分割

字符串分割，可以用split,rsplit方法，通过相应的规则来切割成生成列表对象

info = 'name:haha,age:20$name:python,age:30$name:fef,age:55'

content = info . split( '$')

print content

字符串翻转

通过步进反转[::-1]

a = 'abcd'

b = a [:: - 1 ] ##[::-1]通过步进反转

print b

字符串编码

通过字符串的decode和encode方法

1 encode([encoding,[errors]])

#其中encoding可以有多种值，比如gb2312 gbk gb18030 bz2 zlib big5 bzse64等都支持。errors默认值为"strict"，意思是UnicodeError。可能的值还有'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 和所有的通过codecs.register_error注册的值。

S.decode([encoding,[errors]]) 下面是字符串编码应用:

a = '你好'

b = 'python'

print a . decode( 'utf-8') . encode( 'gbk') ##decode方法把字符串转换为unicode对象，然后通过encode方法转换为指定的编码字符串对象

print b . decode( 'utf-8') ##decode方法把字符串转换为unicode对象