Python 简单字符替换

这里仅仅是作了一个简单的操作,即,将一个含有很多汉字的文本中的所有汉字都替换成 unicode 表中对应的下一个字符。然后输出。

# -*- coding: utf-8 -*-

# print all the Chinese characters
# for i in range(0x4e00,0x9fa6):
# 	print (chr(i))

str = """
【第一章】道可道,非常道;名可名,非常名。无名天地之始,有名万物之母。故常无欲,以观其妙;常
有欲,以观其徼(jiào)。此两者同出而异名,同谓之玄,玄之又玄,众妙之门。〖译文〗
【第二章】天下皆知美之为美,斯恶(è)已;皆知善之为善,斯不善已。故有无相生,难易相成,长短相
较,高下相倾,音声相和(hè),前后相随。是以圣人处无为之事,行不言之教,万物作焉而不辞,生而
不有,为而不恃,功成而弗居。夫(fú)唯弗居,是以不去。 〖译文〗
"""

# judge whether a char is a chinese character
def is_chinese(char):
    if char >= u'\u4e00' and char <= u'\u9fa5':
        return True
    else:
        return False

reverted_str = """"""

for char in str:
    if char == "\n":
        print(r"\n", '\t', ord(char), '\t', r'\n')
        reverted_str = reverted_str + char
        continue
    if char == ' ':
        print(r"blank", '\t', ord(char), '\t', char)
        reverted_str = reverted_str + char
        continue
    if is_chinese(char) == False:
        print(char, '\t', ord(char), '\t', char)
        reverted_str = reverted_str + char
        continue
    print(char, '\t', ord(char), '\t', chr(ord(char) + 1))
    reverted_str = reverted_str + chr(ord(char) + 1)

print(reverted_str)

# print('>', '\t', ord('>'), '\t', chr(ord('>') + 1))

output:

\n       10      \n
【       12304   【
第       31532   笭
一       19968   丁
章       31456   竡
】       12305   】
道       36947   達
可       21487   台
道       36947   達
,       65292   ,
非       38750   靟
常       24120   帹
道       36947   達
;       65307   ;
名       21517   后
可       21487   台
名       21517   后
,       65292   ,
非       38750   靟
常       24120   帹
名       21517   后
。       12290   。
无       26080   旡
名       21517   后
天       22825   太
地       22320   圱
之       20043   乌
始       22987   姌
,       65292   ,
有       26377   朊
名       21517   后
万       19975   丈
物       29289   牪
之       20043   乌
母       27597   毎
。       12290   。
故       25925   敆
常       24120   帹
无       26080   旡
欲       27442   欳
,       65292   ,
以       20197   仦
观       35266   觃
其       20854   具
妙       22937   妚
;       65307   ;
常       24120   帹
\n       10      \n
有       26377   朊
欲       27442   欳
,       65292   ,
以       20197   仦
观       35266   觃
其       20854   具
徼       24508   徽
(       65288   (
j        106     j
i        105     i
à        224     à
o        111     o
)       65289   )
。       12290   。
此       27492   步
两       20004   严
者       32773   耆
同       21516   名
出       20986   击
而       32780   耍
异       24322   弃
名       21517   后
,       65292   ,
同       21516   名
谓       35859   谔
之       20043   乌
玄       29572   玅
,       65292   ,
玄       29572   玅
之       20043   乌
又       21448   叉
玄       29572   玅
,       65292   ,
众       20247   优
妙       22937   妚
之       20043   乌
门       38376   闩
。       12290   。
〖       12310   〖
译       35793   诒
文       25991   斈
〗       12311   〗
\n       10      \n
【       12304   【
第       31532   笭
二       20108   亍
章       31456   竡
】       12305   】
天       22825   太
下       19979   丌
皆       30342   皇
知       30693   矦
美       32654   羏
之       20043   乌
为       20026   主
美       32654   羏
,       65292   ,
斯       26031   新
恶       24694   恷
(       65288   (
è        232     è
)       65289   )
已       24050   巳
;       65307   ;
皆       30342   皇
知       30693   矦
善       21892   喅
之       20043   乌
为       20026   主
善       21892   喅
,       65292   ,
斯       26031   新
不       19981   与
善       21892   喅
已       24050   巳
。       12290   。
故       25925   敆
有       26377   朊
无       26080   旡
相       30456   盹
生       29983   甠
,       65292   ,
难       38590   隿
易       26131   昔
相       30456   盹
成       25104   我
,       65292   ,
长       38271   門
短       30701   矮
相       30456   盹
\n       10      \n
较       36739   辄
,       65292   ,
高       39640   髙
下       19979   丌
相       30456   盹
倾       20542   倿
,       65292   ,
音       38899   韴
声       22768   壱
相       30456   盹
和       21644   咍
(       65288   (
h        104     h
è        232     è
)       65289   )
,       65292   ,
前       21069   剎
后       21518   吏
相       30456   盹
随       38543   隐
。       12290   。
是       26159   昰
以       20197   仦
圣       22307   圤
人       20154   亻
处       22788   夅
无       26080   旡
为       20026   主
之       20043   乌
事       20107   二
,       65292   ,
行       34892   衍
不       19981   与
言       35328   訁
之       20043   乌
教       25945   敚
,       65292   ,
万       19975   丈
物       29289   牪
作       20316   佝
焉       28937   焊
而       32780   耍
不       19981   与
辞       36766   辟
,       65292   ,
生       29983   甠
而       32780   耍
\n       10      \n
不       19981   与
有       26377   朊
,       65292   ,
为       20026   主
而       32780   耍
不       19981   与
恃       24643   恄
,       65292   ,
是       26159   昰
以       20197   仦
不       19981   与
去       21435   厼
。       12290   。
blank    32
〖       12310   〖
译       35793   诒
文       25991   斈
〗       12311   〗
\n       10      \n

【笭丁竡】達台達,靟帹達;后台后,靟帹后。旡后太圱乌姌,朊后丈牪乌毎。敆帹旡欳,仦觃具妚;帹
朊欳,仦觃具徽(jiào)。步严耆名击耍弃后,名谔乌玅,玅乌叉玅,优妚乌闩。〖诒斈〗
【笭亍竡】太丌皇矦羏乌主羏,新恷(è)巳;皇矦喅乌主喅,新与喅巳。敆朊旡盹甠,隿昔盹我,門矮盹
辄,髙丌盹倿,韴壱盹咍(hè),剎吏盹隐。昰仦圤亻夅旡主乌二,衍与訁乌敚,丈牪佝焊耍与辟,甠耍
与朊,主耍与恄,加我耍弘屆。夬(fú)唰弘屆,昰仦与厼。 〖诒斈〗

Python 简单字符替换
http://fanyfull.github.io/2021/11/26/Python-简单字符替换/
作者
Fany Full
发布于
2021年11月26日
许可协议