http://www.cnn.com/2009/HEALTH/04/29/swine.flu/index.html
ဒါေပမယ့္ H1N1 ေသနွုန္းကေတာ့ ငွက္တုပ္ေကြးေလာက္ မျပင္းဘူးလို့ျကားမိပါတယ္။ အရမ္းမဆိုးရြားသြားေလာက္ဘူး ထင္ရပါတယ္။
ဒုတိယအၾကိမ္ ဘားကမ့္(မႏၱေလး)
14 hours ago
သင္ေကာင္းလွ်င္ ကြ်ႏု္ပ္မဆိုးပါ။ သင္ဆိုးလွ်င္ သင့္ထက္ပိုဆိုးလွ်င္ ဆိုးမည္။
C:\spell> server.py
"Spell Suggestion Server Started"
C:\spell> client.py
>>> ကခ်ြာေကခြွတ်
%%% ကခ်ာေျကခွျတ်
>>>
>>> အကြပ်အတည်း
%%% အကျပ်အတည်း
>>>
#!/usr/bin/python- Need to put exact python location, use which python to check
# coding: utf8- need to have 3 parts coding, :, utf8, others like -*- in -*- coding: utf-8 -*- are just bla bla.
print "Content-type: text/html"- to print out html, need to have put Content-type and blank line for end of Header
<meta http-equiv="Content-Type" content="text/html;charset=utf-8">'- print out meta tag to tell browser about UTF-8 encoding
print "က" # direct output- many ways to print out unicode characters like above :-)
print "\xe1\x80\x80" # utf8 encoding for က
print u"\u1000".encode("utf8") #ucs2 or ucs4 to utf8 encoding
print "က" #html entity hex
print "က" #html entity numeric
import cburglish- just testing my cburglish library
print cburglish.detect(u"\u1000\u1031") # က - 13 - Unicode 5.1
print cburglish.detect(u"\u1031\u1000") # ေက - 6 - Zawgyi
print cburglish.zawgyi2unicode(u"\u1031\u1000") # ေက - to - က
import cgi- to get information like form input or query string.
f=cgi.FieldStorage()
print f
【最新スポット情報】မက္ကဆီကို အျခို့နေရာျမားတွင် ဖြဈပွားခြင်းတွ့ေရိ (ဧပြီလ ၂၅ရက်)
メキシコ及び米国の一部の州:H1N1亜型由来豚インフルエンザの発生について (2009/04/25)
# Codes - Soe Min (Mark)
# License - Only for Research, Not Redistributable, Not Allowed for Commercial/Advertisment Use for any part of the codes.
import re,codecs,cburglish,collections
s,m,w,c={},collections.defaultdict(lambda:[]),{},codecs.open('my-MM.dic',"rb+",'utf8').read()for x in re.findall(u'[\u1000-\u103f]+',c):w[x]=1
for x in cburglish.syllable(re.sub(u'[^\u1000-\u103f]+','',c)).split("|"):s[x]=1[m[cburglish.magic(x)].append(x) for x in s.keys() if cburglish.magic(x)>0]
t=lambda x:len(x)<2 and x[0] or len(x)>2 and t([[j+i for j in x[0] for i in x[1]]]+x[2:]) or [j+i for j in x[0] for i in x[1]]
correct=lambda y:[x for x in t([m[cburglish.magic(x)] for x in cburglish.syllable(y).split("|") if cburglish.magic(x) in m]) if x in w]>>> correct(u"ကခ်ြာေကခြွတ်")
[u"ကခ်ာေျကခွျတ်"]
>>> for i in range(10000):
>>> x=correct(u"ကခ်ြာေကခြွတ်")
အက်ီးအျကယ္
အ|က်ီး|အ|ျကယ္
အ - 0x14000000
က်ီး - 0x1000105
အ - 0x14000000
ျကယ္ - 0x11a0001
အ - 0x14000000 - [အ]
က်ီး - 0x1000105 - [ျကီး,က်ီး]
အ - 0x14000000 - [အ]
ျကယ္ - 0x11a0001 - [က်ယ္,ျကယ္]
အျကီးအက်ယ္
အျကီးအျကယ္
အက်ီးအက်ယ္
အက်ီးအျကယ္
အျကီးအက်ယ္
ကဏ္ [ကန္,ကံ,ကဏ္] [228,59,1] (0x1000008)
ကတ္ [ကတ္,ကက္] [56,20] (0x1010000)
ကန္ [ကန္,ကံ,ကဏ္] [228,59,1] (0x1000008)
ကန့္ [ကန့္,ကံ့] [45,6] (0x1000018)
ကန္း [ကမ္း,ကန္း] [73,57] (0x1000108)
...
လ်ွမ္း [ရွမ္း,ရွံး,ရြွန္း,လ်ွမ္း,ရြွမ္း] [22,16,12,4,2] (0x18000108)
လ်ွာ [ရွာ,လ်ွာ,လ်ာ,ရြွာ] [42,40,17,1] (0x18000020)
လ်ွား [ရွား,လ်ား,လ်ွား,သ်ွား] [51,39,4,2] (0x18000120)
လ်ွို [လ်ွို,ရွို,သ်ွို] [17,1,1] (0x18000006)
...
#ps ယူနီကုတ္ ၅.၁ ေနာက္ဆံုးထြက္ထားတဲ့ ဖြန့္မွာ အဲဒီ ေရွ့ထိုး ကိစဿစ ကို ေျဖရွင္းဖို့ ေအာက္ကျမစ္နဲ့ အသတ္ကို ေျပာင္းျပန္ထားထားတယ္လို့ ယူဆပါတယ္။ ေဟာသလို ကင့္နဲ့ေကာ္ ဆိုတဲ့စာလံုးကို က---င---့--္ ၊ --ေက--ာ--္ အသတ္ေရွ့မွာ ေရးခ်တို့ ေအာက္ကျမစ္တို့ရွိသင့္ျပီး ဗ်ည္းမရွိသင့္ဘူး ဆိုသလိုလုပ္ထားပါတယ္။
က်ေနာ္ အဲဒါကို အခုအခ်ိန္အထိ လက္မခံေသးပါဘူး။ Its doesnot make sense for me.
အသတ္ေရွ့မွာ ဗ်ည္းရွိကိုရွိရပါမယ္။ ေရးခ်အေပါ္ကဟာျဖစ္တဲ့ ေရွ့ထိုးဆိုတဲ့ စာလံုးသပ္သပ္ရွိသင့္ပါတယ္။
unsigned int map[]={ 1,2,3,4,
5,SA,SA,6,7,NYA,NYA,8,9,10,
11,NA,12,13,DA,DA,NA,14,15,BA,
BA,16,YA,YA,LA,17,18,19,LA,20,YAYCHA,
YAYCHA,LGLG,LGLG,T1T2,T1T2,THAWAYHTOE,NAUTPYIT,0,0,0,
ANAN,AUTMYIT,WITSAPAUT,0,0,YPYY,YPYY,WASWEL,HAHTOE
}#define NYA 23
do{
if(*s>=0x1000 && *s<=0x103e){
if(s[1]==0x103a){
if(*s<=0x1021)//a that
ret|=map[*s-0x1000]<<KILLER,s++;
}else if(map[*s-0x1000]!=0 && *s>0x1021){//parts
ret|=map[*s-0x1000];
}else{//consonents
ret|=map[*s-0x1000]<<CONS;
}
}
}while(*s++);#define CONS 24
#define KILLER 16
ကေျခာ္ကျခြတ္ (ကေခ်ာ္ကခ်ြတ္)
ဝန္းေျကာင္း (ဝမ္းေက်ာင္း)
အျခင္းခ်င္း (အခ်င္းခ်င္း)
ထိန္းမ်ား (ထိမ္းျမား)
ကန္းပါး (ကမ္းပါး)
ကန္စန္း (ကံစမ္း)
မိးလ်ံ (မီးလ်ွံ)
အျကပ္အတည္း (အက်ပ္အတည္း)
အျကံုးဝင္ (အက်ံုးဝင္)
အက်ီးအျကယ္ (အျကီးအက်ယ္)
အူပ္ထီမ္းသု (အုပ္ထိန္းသူ)
သ်ွာရွည္ (လ်ွာရွည္)
ရွာရွည္ (လ်ွာရွည္)
ေဗးရမ္ (ေဘးရန္)
ျကိန္လုန္း (ျကိမ္လံုး)
က်ိုးက်ာ (ျကိုးျကာ)
ကုမ္ျမိုးဆံုစီူင္ (ကုန္မ်ိုးစံုဆိုင္)
ကန် [ကန်,ကံ,ကဏ်]
ကန့် [ကံ့,ကန့်]
ကန်း [ကန်း,ကမ်း]
ကုန်း [ကုန်း,ကံုး]
ကျဉ်း [ကျဉ်း,ကျည်း,ကြည်း,ကြဉ်း]
ျကိုင်း [ျကိုင်း,ကြိုင်း]
ကာေျက် [ကာေျက်,ကြာေက်]
ျကံ့ [ကြံ့,ကြန့်,ျကံ့]
ကွံျ [ကွျန်,ကွံျ]
ကွံး [ကွံး,ကွန်း,ကွမ်း]
ျလာ [ျလာ,ရာ,လာျ]
ျလား [ျလား,လားျ,ရား,သားျ]
ျလူ [ရူ,ရူ,သူျ,ျလူ]
လာေျ [လာေျ,လာေျ,ရာေ]
လာေျက် [လာေျက်,လာေျက်,ရာေက်]
% python
>>> import cburglish
>>> cburglish.magic(u"ကန်")
0x1000008
>>> cburglish.similar(u"ကန်")
[u"ကန်",u"ကံ",u"ကဏ်"]
import codecs,re,urllib2
f = urllib2.urlopen('http://www.soemin.net/2009/04/font-encoding-detection-for-zawgyi-and.html')
htm=re.sub("(\d+);",lambda x:unichr(int(x.group(1))),f.read().decode("utf8"))
txt=re.findall('<div[^>]+post-body[^>]+>\s*(.*?)\s*<div[^>]+clear:\s*both[^>]+></div>',htm,re.DOTALL)[0]
codecs.open("crawl.txt", 'w+',"utf8").write(txt)
ေဇာ္ဂ်ီနဲ့ ယူနီကုတ္ ၅.၁ ခြဲျခားျခင္း (Font Encoding Detection for Zawgyi and Unicode 5.1)
.....
အဓိကအားျဖင့္ကေတာ့
၁။ သေဝထိုး၊ ရရစ္၊ ရပင္းစတာေတြ နဲ့
....
.....
Cheers,
do{
if(*s>0x104f) return Zawgyi;
else if(*s==0x1039){
if(*&s[1]>0x1021 || *&s[1]<0x1000) return Zawgyi;
}else if(*s==0x1031){
if(*&s[1]==0x103b) return Zawgyi;
else if(*&s[-1]<0x1000) return Zawgyi;
else if(*&s[-1]>=0x102b && *&s[-1]<=0x103a) return Zawgyi;
}else if(*s==0x103b){
if(*&s[-1]<0x103b && *&s[-1]>=0x102b) return Zawgyi;
}else if(*s==0x1033 || *s==0x1034) return Zawgyi;
else if(*s==0x103e || *s==0x103f) return Myanmar3;
}while(*s++);
return Myanmar3;ပလုပ္ပေလာင္း
မ်ိုးမ်ိုးျမက္ျမက္
တခုခု
တိုးတိုးေလး
က်ိက်ိတက္
တဖြဲဖြဲ
ခပ္သည္းသည္း
ပ|လုပ္|ပ|ေလာင္း
မ်ိုး|မ်ိုး|ျမက္|ျမက္
တ|ခု|ခု
တိုး|တိုး|ေလး
က်ိ|က်ိ|တက္
တ|ဖြဲ|ဖြဲ
ခပ္|သည္း|သည္း
(ပလုပ္ပေလာင္း)
(မ်ိုးမ်ိုးျမက္ျမက္)
(တခုခု)
(တိုးတိုးေလး)
(က်ိက်ိတက္)
(တဖြဲဖြဲ)
(ခပ္သည္းသည္း)
ေတာင္ကုန္းေလး တစ္ခုေပါ္က ဘယ္ေတာ့မွ ျပန္မေတြ့ေတာ့တဲ့ ေနျကာပန္းမ်ားအေျကာင္း
(၁)
ရြာသြန္းတဲ့ မိုးေရစက္တိုင္းဟာ
ညီမေလး ျဖစ္သြားတဲ့အခါ
က်ြန္ေတာ္ဟာ ထီးမပါဘဲ လမ္းထြက္ေလ်ွာက္ခဲ့မိတယ္
မိုးရြာထဲမွာေပါ့
ေကာင္းကင္ျကီး တစ္ခုလံုး
ညီမေလးရဲ့ နွုတ္ခမ္းတြန့္ အျပံုးေလးေတြနဲ့ ျပည့္သြားလိုက္တာ
က်ြန္ေတာ့္မွာ နားခိုရာ ရွာဖို့ေတာင္
သတိရမရေတာ့ပါဘူး။
တဖြဲဖြဲနဲ့ ခပ္သည္းသည္း က်လာတဲ့ မိုးေရစက္ေတြေျကာင့္ က်ြန္ေတာ့္ေျခလွမ္းေတြကို အရွိန္ျမွင့္လိုက္တယ္။
....
(ေတာင္ကုန္း)(ေလး) (တစ္)(ခု)(ေပါ္)(က) (ဘယ္)(ေတာ့)(မွ) (ျပန္)(မ)(ေတြ့)(ေတာ့)တဲ့ (ေနျကာ)(ပန္း)(မ်ား)(အေျကာင္း)
(၁)
(ရြာ)(သြန္း)တဲ့ (မိုးေရ)စက္(တိုင္း)(ဟာ)
(ညီမ)(ေလး) (ျဖစ္)(သြား)တဲ့(အခါ)
(က်ြန္ေတာ္)(ဟာ) (ထီး)(မ)(ပါ)(ဘဲ) (လမ္း)(ထြက္)(ေလ်ွာက္)(ခဲ့)(မိ)(တယ္)
(မိုးရြာ)(ထဲ)(မွာ)(ေပါ့)
(ေကာင္းကင္)(ျကီး) (တစ္)(ခု)(လံုး)
(ညီမ)(ေလး)(ရဲ့) (နွုတ္ခမ္း)(တြန့္) (အျပံုး)(ေလး)(ေတြ)(နဲ့) (ျပည့္)(သြား)(လိုက္)(တာ)
(က်ြန္)ေတာ့္(မွာ) (နား)(ခို)(ရာ) (ရွာ)(ဖို့)(ေတာင္)
(သတိရ)(မ)ရ(ေတာ့)(ပါ)(ဘူး)။
....
(၂)
(ျမို့)(ကေလး)(မွာ) (အဲဒီ)(ေန့)(ကေတာ့) (ရာသီဥတု) (သာသာယာယာ) (ရွိ)(ေန)(ခဲ့)(ပါ)(တယ္)။ (ပံုမွန္)(အားျဖင့္)(ဆို)(ရင္)(ျမို့)(ကေလး)(မွာ) (ေနြရာသီ)(က)(လြဲ)(ျပီး) (က်န္)တဲ့(အခ်ိန္) (ေတာ္ေတာ္)(မ်ား)(မ်ား)(မွာ) (မိုးရြာ)(တတ္)(တယ္)။ (ဒီ)(မွာ)(က) (မိုးရြာ)(ျပီ)(ဆို)(ရင္)(လည္း) (မ)(စဲ)(ေတာ့)(ဘဲ) (တရိပ္ရိပ္)(နဲ့) (ရြာ)(ေန)(တတ္)(တာ)(မ်ိုး)။(ျမို့ေတာ္)(ျကီး)(က) (သူငယ္ခ်င္း) (တစ္)(ေယာက္)(ကေတာ့) (မင္း)(တို့)(ျမို့)(ေလး)(ဟာ) လြမ္း(လြမ္းေဆြး)ေဆြး(နဲ့) (အံု့မွိုင္း)(ေန)(တာ)(လို့) (ကဗ်ာဆန္)ဆန္ (ေျပာ)(ဖူး)(တယ္)။ (ဒါ)(ေျကာင့္)(ပဲ)(လား)(ေတာ့) (မ)(သိ)(ဘူး)၊ (တခ်ို့) (ကဗ်ာဆရာ)(ေတြ) (စာေရးဆရာ)(ေတြ) (တ)(ခါ)(တ)(ရံ) (ဒီ)(ျမို့)(ေလး)(မွာ) (ရက္)(ေပါင္း)(မ်ား)(စြာ) (လာ)(ေန)(တတ္)(ျက)(တယ္)။ (က်ြန္)ေတာ့္(အတြက္)(ကေတာ့) (ဒီ)(ျမို့)(ေလး)(ဟာ) (စိတ္)(ရဲ့)(ျငိမ္သက္)(မွု) (တစ္စံုတစ္ခု)(ကို) (ေပး)(နိုင္)(တယ္)(လို့) (ထင္)(မိ)(တယ္)။ (လတ္ဆတ္)တဲ့ (ေလထု)၊ (စိမ္းလန္း)တဲ့ (သစ္ေတာ)အုပ္၊ (အနီ)(ေရာင္)(ရင့္)(ရင့္)(ထ)(ေန)တဲ့ (ေျမျပင္)၊ (ဟန္ေဆာင္)(မွု)(ကင္း)(မဲ့)တဲ့ (တိုင္းရင္းသား)(ေတြ)၊ (နံနက္ခင္း)(ဆို) (မီးခိုး)(ေငြ့)(ေတြ) (တ)(လူ)(လူ)(ထ)(ေန)(တ)တ္(တ)ဲ့ (အိမ္)(ေခါင္မိုး)(ေတြ)၊ (ညေနခင္း)(ဆို) (နနြင္းတက္) (အနံ့)(ေလး)(ေတြ) (လြွမ္းျခံု)(ေန)တဲ့ (မီးလင္းဖို)(ေတြ)(နဲ့)(ျငိမ္သက္)(ဆိတ္)ညိမ္(လို့) (ဆူ)(သံ)(ညံ)(သံ) (ဘာ)(တစ္)(ခု)(မွ) (မ)(ရွိ)(ဘူး)။ (မူးယစ္)(ျပီး) (ဆဲဆို)(ေန)(တတ္)(သူ)(ေတြ) (မ)(ရွိ)(ဘူး)။ (မ)(ျပံုး)(ခ်င္)(ဘဲ) (အတင္း)(ျပံုး)(ျပ)(ေန)(တတ္)တဲ့ (ေကာင္မေလး)(ေတြ) (မ)(ရွိ)(ဘူး)။ ေလာ္(စ)(ပီ)(ကာ)(နဲ့) (တရား)(ရြတ္ဖတ္)(သံ)(ေတြ) (မ)(ရွိ)(ဘူး)။
....
ေတာင္ကုန္းေလး တစ္ခုေပါ္က ဘယ္ေတာ့မွ ျပန္မေတြ့ေတာ့တဲ့ ေနျကာပန္းမ်ားအေျကာင္း
(၁)
ရြာသြန္းတဲ့ မိုးေရစက္တိုင္းဟာ
ညီမေလး ျဖစ္သြားတဲ့အခါ
က်ြန္ေတာ္ဟာ ထီးမပါဘဲ လမ္းထြက္ေလ်ွာက္ခဲ့မိတယ္
မိုးရြာထဲမွာေပါ့
ေကာင္းကင္ျကီး တစ္ခုလံုး
ညီမေလးရဲ့ နွုတ္ခမ္းတြန့္ အျပံုးေလးေတြနဲ့ ျပည့္သြားလိုက္တာ
က်ြန္ေတာ့္မွာ နားခိုရာ ရွာဖို့ေတာင္
သတိရမရေတာ့ပါဘူး။
.......
တာေင်ကုန်းလး (ေတာေင်ကုန်း,လး)
ေတဈခုပ်ါေက (တဈ,ခု,ပ်ါ,ေက)
ဘယ်တာ့ေမ (ဘယ်,တာ့,ေမ)
ပြန်မတွ့ေတာ့ေတဲ့ (ပြန်,မ,တွ့,ေတာ့)
ေနေကြာပန်းမားျအကြာေင်း (နေကြာ,ပန်း,မား,ျအကြာေင်း)
ရွာသွန်းတဲ့ (ရွာ,သွန်း)
မိုးရေစက်တိုင်းဟာ (မိုးရ,ေရေစက်,တိုင်း,ဟာ)
ညီမလး (ေညီမ,လး)
ေဖြဈသွားတဲ့အခါ (ဖြဈ,သွား,အခါ)
ကွျန်တ်ာေဟာ (ကွျန်တ်ာ,ေဟာ)
ထီးမပါဘဲ (ထီး,မ,ပါ,ဘဲ)
လမ်းထွက်လာေျက်ခဲ့မိတယ် (လမ်း,ထွက်,လာေျက်,ခဲ့,မိ,တယ်)
မိုးရွာထဲမာပါ့ (ေမိုးရွာ,ထဲ,မာ,ပါ့)
ေကာေင်းကင်ကြီး (ကာေင်းကင်,ကြီး)
တဈခုလံုး (တဈ,ခု,လံုး)
ညီမလးေရဲ့ (ညီမ,လး,ေရဲ့)
နုတ်ခမ်းတွန့် (နုတ်ခမ်း,တွန့်)
အပြံုးလးေတွေနဲ့ (အပြံုး,လး,ေတွ,ေနဲ့)
ပြည့်သွားလိုက်တာ (ပြည့်,သွား,လိုက်,တာ)
ကွျန်တ်ာ့ေမာ (ကွျန်,မာ)
နားခိုရာ (နား,ခို,ရာ)
ရာဖို့တာေင် (ရာ,ဖို့,တာေင်)
သတိရမရတာ့ေပါဘူး (သတိရ,မ,တာ့,ေပါ,ဘူး)
တဖွဲဖွဲနဲ့ (ဖွဲ,နဲ့)
ခပ်သည်းသည်း (ခပ်,သည်း,သည်း)
ကျလာတဲ့ (က,ျလာ)
မိုးရေစက်တွေကြာေင့် (မိုးရ,ေရေစက်,တွ,ေကြာေင့်)
ကွျန်တ်ာ့ေခြေလမ်းတွေကို (ကွျန်,ခြေလမ်း,တွ,ေကို)
အရိန်မြင့်လိုက်တယ် (အရိန်,မြင့်,လိုက်,တယ်)
Bijli ဘိဂ်လိလို့ နာမည္ရတဲ့ မုန္တိုင္းတစ္လံုး ျမန္မာျပည္ထဲ ဝင္ပါဦးမယ္။ ခန့္မွန္းခ်က္ေတြအရ ရန္ကုန္ကေတာ့ .....
....
နာမည်ရတဲ့ (နာမည်ရ,နာမည်)
မုန်တိုင်းတဈလံုး (မုန်တိုင်း)
မြန်မာပြည်ထဲ (မြန်မာ)
ခန့်မန်းချက်တွေအရ (ခန့်မန်း,မန်းချက်,အရ)
ရန်ကုန်ကတာ့ (ေရန်ကုန်,ကတာ့)
ေရခိုင် (ရခိုင်)
မြန်မာပြည် (မြန်မာ)
အလယ်ပိုင်းကတာ့ (ေအလယ်ပိုင်း,ကတာ့)
ေမုန်တိုင်း (မုန်တိုင်း)
ရိုက်ခတ်တာ (ရိုက်ခတ်)
ခံရနိုင်ပါတယ် (ရနိုင်)
ဒီမုန်တိုင်းဟာ (မုန်တိုင်း)
မြန်မာပြည်ထဲကို (မြန်မာ)
မနက်ဖြန် (မနက်ဖြန်)
မြန်မာနဈသဈကူးန့ေမာ (မြန်မာ,နဈသဈကူး)
မုန်တိုင်းဟာ (မုန်တိုင်း)
အင်အား (အင်အား)
ပြင်းထန်လွန်းတဲ့ (ပြင်းထန်)
မုန်တိုင်းတာ့ (ေမုန်တိုင်း)
တဈနာရီကို (နာရီ)
အဆင့် (အဆင့်)
နဲ့ (နဲ့)
ကတာ့ (ေကတာ့)
ေဒီအချက်အလက်တွေဟာ (အချက်အလက်,အချက်,အလက်)
...
...
က-K-0x4000-\u1000
ကကဿက-KKX2K-0x4001-\u1000\u1000\u1039\u1000
ကကဿကု-KKX2Ku-0x4002-\u1000\u1000\u1039\u1000\u102f
ကက္-KKX1-0x4003-\u1000\u1000\u103a
ကဂဿဂ-KGX2G-0x4004-\u1000\u1002\u1039\u1002
ကင္-KIN-0x4005-\u1000\u1004\u103a
ကင္း-KIN0-0x4006-\u1000\u1004\u103a\u1038
ကကဿငာ-KINX2KAR1-0x4007-\u1000\u1004\u103a\u1039\u1000\u102c
ကစဿစည္း-KSX2SNYX10-0x4008-\u1000\u1005\u1039\u1005\u100a\u103a\u1038
ကစ္-KSX1-0x4009-\u1000\u1005\u103a
ကဉဿစ-KNY5X2S-0x400a-\u1000\u1009\u1039\u1005
ကဋ္-KTTX1-0x400b-\u1000\u100b\u103a
ကဏဿဋ-KNNX2TT-0x400c-\u1000\u100f\u1039\u100b
ကဏဿဌ-KNNX2HTT-0x400d-\u1000\u100f\u1039\u100c
ကဏဿဍဍ-KNNX2DD-0x400e-\u1000\u100f\u1039\u100d
ကဏဿဏ-KNNX2NN-0x400f-\u1000\u100f\u1039\u100f
ကဏ္-KNNX1-0x4010-\u1000\u100f\u103a
ကတဿတ-KTX2T-0x4011-\u1000\u1010\u1039\u1010
ကတဿတား-KTX2TAR10-0x4012-\u1000\u1010\u1039\u1010\u102c\u1038
ကတဿတီ-KTX2TII-0x4013-\u1000\u1010\u1039\u1010\u102e
ကတဿတူ-KTX2TUu-0x4014-\u1000\u1010\u1039\u1010\u1030
ကတ္-KTX1-0x4015-\u1000\u1010\u103a
ကနဿတ-KNX2T-0x4016-\u1000\u1014\u1039\u1010
ကနဿတာ-KNX2TAR1-0x4017-\u1000\u1014\u1039\u1010\u102c
ကနဿတိ-KNX2TI-0x4018-\u1000\u1014\u1039\u1010\u102d
ကနဿနား-KNX2NAR10-0x4019-\u1000\u1014\u1039\u1014\u102c\u1038
...
#define K 0x4000 // က
#define KKX2K 0x4001 // ကကဿက
#define KKX2Ku 0x4002 // ကကဿကု
#define KKX1 0x4003 // ကက္
#define KGX2G 0x4004 // ကဂဿဂ
#define KIN 0x4005 // ကင္
#define KIN0 0x4006 // ကင္း
#define KINX2KAR1 0x4007 // ကကဿငာ
#define KSX2SNYX10 0x4008 // ကစဿစည္း
#define KSX1 0x4009 // ကစ္
#define KNY5X2S 0x400a // ကဉဿစ
#define KTTX1 0x400b // ကဋ္
#define KNNX2TT 0x400c // ကဏဿဋ
#define KNNX2HTT 0x400d // ကဏဿဌ
#define KNNX2DD 0x400e // ကဏဿဍဍ
#define KNNX2NN 0x400f // ကဏဿဏ
#define KNNX1 0x4010 // ကဏ္
#define KTX2T 0x4011 // ကတဿတ
#define KTX2TAR10 0x4012 // ကတဿတား
#define KTX2TII 0x4013 // ကတဿတီ
#define KTX2TUu 0x4014 // ကတဿတူ
#define KTX1 0x4015 // ကတ္
#define KNX2T 0x4016 // ကနဿတ
#define KNX2TAR1 0x4017 // ကနဿတာ
#define KNX2TI 0x4018 // ကနဿတိ
#define KNX2NAR10 0x4019 // ကနဿနား
...
အ(4755) 5.32%
မ(1289) 1.44%
က(959) 1.07%
သ(940) 1.05%
တ(743) 0.83%
လက္(713) 0.8%
ျကီး(626) 0.7%
ပ(591) 0.66%
ေရ(560) 0.63%
စ(545) 0.61%
ရာ(529) 0.59%
ရ(506) 0.57%
စာ(462) 0.52%
စား(403) 0.45%
သား(388) 0.43%
တစ္(386) 0.43%
သာ(366) 0.41%
.....
အ(24) 4.44%
ေတြ(21) 3.89%
က(18) 3.33%
တာ(15) 2.78%
မ(15) 2.78%
ေန(10) 1.85%
သိ(9) 1.67%
Font converting 29MB - 450.0 ms
Syllable breaking for 29MB - 691.0 ms
Character Reordering for 29MB - 251.0 ms
Normalizing Zawgyi-One for 29MB - 652.0 ms
Font converting 31MB - 401.0 ms
Syllable breaking for 31MB - 471.0 ms
Character Reordering for 31MB - 170.0 ms
Normalizing Zawgyi-One for 31MB - 330.0 ms
Filesize = 29MB (UTF8) Encoded Big Text File
Computer Specs = Mobile Celeron 1.6 GHz, RAM 512MB, Windows 2000
Font converting 29MB - 450.0 ms
Syllable breaking for 29MB - 691.0 ms
Character Reordering for 29MB - 251.0 ms
Normalizing Zawgyi-One for 29MB - 652.0 ms
Python string copy for 29MB - 160.0 ms (for eg, A="TEXT STRING")
Normal string copy with C/C++ wcscpy, while(*d++=*s++); Ported as Python Extension for 29MB - 280.0 ms
2009/04/06 00:48 29,134,048 test1.txt
1 個のファイル 29,134,048 バイト
>zawgyi2unicode.py test1.txt 6
converted in 470.0 ms and total time including file read/write 4817.0 ms

2009/04/05 22:41 27,453,936 test.txt
1 個のファイル 27,453,936 バイト
> zawgyi2unicode.exe test.txt
converted in 1157.0 ms and total time including file writing 3016.0 ms
ေမာင္ ္ ္ ္ ္ က ု ိ က ိ ု ၏၏၏၏၏၏၏။။။။။။။။။။။။။။။။။။။
ျမျကျခ ျကျကိ ျကြ ျကြိ ျခ ျခြ ျခိ ျခြိ ျခ ျခြ ျခိ ျခြီ
ေမာင္္ ကို ကို၏။
ျမျကျချကျကိျကြျကြိျချခြျခိျခြိျချခြျခိျခြီ
acclimatize -ise
authorize ,-ise
amortization , -ise
agonizing,-ise
aggrandizement -ise
>>> r="(\w+iz\w*)\s*,?\s*\-(is\w*)"
>>> [re.sub(r,"\\1",INPUT),re.sub(r,lambda x:x.group(1).replace("iz","is"),INPUT]
[acclimatize,acclimatise]
[authorize,authorise]
[amortization,amortisation]
[agonizing,agonising]
[aggrandizement,aggrandisement]
