ኮምፒውተሮችፕሮግራም

በ UTF-8 - ቁምፊ ኢንኮዲንግ

ዩኒኮድ ማለት ይቻላል, ሁሉም ነባር የቁምፊ ስብስቦች ይደግፋል. ዩኒኮድ ቁምፊ ስብስብ ኢንኮዲንግ ምርጥ ቅጽ በ UTF-8 በኮድ ነው. ይህ ውሂብ, ቅልጥፍና እና ሂደት ዘና ማዛባቱን ወደ ASCII ጋር ተኳኋኝነት, የመቋቋም ይደግፋል. በመጀመሪያ ግን የመጀመሪያው ነገሮች.

አደራረግ ቅጽ

ባይት እና 32-ቢት ቃላት - ኮምፒውተሮች ረቂቅ የሂሳብ ነገሮችን, እንዲሁም ማከማቻ አሃዶች መካከል ያለውን ጥምረት እና አያያዝ ቋሚ መጠን ውሂብ ብቻ ሳይሆን እንደ ቁጥሮች ማንቀሳቀስ. ማቅረብ እንዴት በሚገመት ጊዜ በኮድ መደበኛ መለያ ይህን መውሰድ አለባቸው የቁምፊዎች ብዛት.

የኮምፒውተር ስርዓቶች ውስጥ, ኢንቲጀሮች 8 ቢት (1 ባይት), 16 ወይም 32 ቢት ትውስታ ሕዋሳት ውስጥ የተከማቸ. እያንዳንዱ ቅጽ ትውስታ ሕዋሳት ተከታታይ አንድ የተወሰነ ምልክት ጋር የሚዛመድ አንድ ኢንቲጀር ነው የዩኒኮድ በኮድ ያስቀምጣል. ደረጃውን ውስጥ የዩኒኮድ ቁምፊዎችን 8, 16 እና 32-ቢት ብሎኮች ኮድ ሶስት የተለያዩ ዓይነቶች አሉ. በዚህ መሠረት, እነሱ በ UTF-8, UTF-16 እና በ UTF-32 በመባል የሚታወቀው ነው. ስም UTF ዩኒኮድ ትራንስፎርሜሽን ቅርጸት ያመለክታል. ኢንኮዲንግ ማለት ሦስት ዓይነቶች እያንዳንዱ እኩል ውክልና ዩኒኮድ ቁምፊ በተለያዩ መተግበሪያዎች ውስጥ ጥቅሞች አሉት ነው.

የውሂብ ምስጠራ የዩኒኮድን ስታንዳርድ ሁሉ ቁምፊዎች ይወክላል ጥቅም ላይ ሊውል ይችላል. ስለዚህ, እነዚህ, በተለያዩ ምክንያቶች ለ መፍትሄ ወደ ሙሉ ተኳሃኝ ናቸው ኮድ የተለያዩ ቅጾች በመጠቀም. እያንዳንዱ ኮድ በማያሻማ የውሂብ መጥፋት ያለ ሌላ ሁለት ማንኛውም ወደ ሊቀየር ይችላል.

nenalozheniya መርህ

ወደ ቅጾች ዩኒኮድ በኮድ እያንዳንዱ ያልሆኑ ከፊል መደራረብ አንጻር ውስጥ የዳበረ. ለምሳሌ, በ Windows-932 ኮድ አንድ ወይም ሁለት ባይት መካከል ቁምፊዎች ይመሰረታል. በ ቅደም ተከተል ርዝመት በመጀመሪያው ባይት ላይ የተመካ ነው, ስለዚህ ሁለት-ባይት እና ነጠላ ባይት የየቅል ያለውን ተከታታይ ምሪት ባይት እሴቶች. ይሁን እንጂ አንድ ነጠላ ባይት ዋጋ እና የሚከተሉ ባይት ቅደም የተገጣጠመ ይችላል. ይህ ቁምፊ ፍለጋ መ (ኮድ 44) ይህ በስህተት ሁለት-ባይት ቁምፊ "መ" ያለውን ቅደም ተከተል ሁለተኛ ክፍል ገብቶ (ኮድ 84 44) ማግኘት ይችላሉ ለምሳሌ ያህል ማለት ነው. ትክክል ነው ይህም ቅደም ለማወቅ, ፕሮግራሙ ቀደም ባይት መለያ ወደ መውሰድ አለበት.

ሁኔታው ከሆነ በመምራት እና የሚከተሉ ባይት ግጥሚያ, የተወሳሰበ ነው. ይህ አሻሚነት ለማስወገድ ሲሉ ውስጥ ያለውን ጽሑፍ ወይም ልዩ ኮድ ቅደም መጀመሪያ ከመድረሱ በፊት በግልባጭ ፍለጋ ይሆናል ማለት ነው. ይህ ብቻ አይደለም አክሳሪ ነው, ነገር ግን ሙሉ ጽሑፉን ብቻ አንድ የተሳሳተ ባይት የማይነበብ ሆኗል በመሆኑ, በተቻለ ስህተቶች ከ የተጠበቀ አይደለም.

የ እየመራ, ትሬሊንግ ዋጋ, እና ማከማቻ አንድ ነጠላ መለኪያ ተመሳሳይ መረጃ አይደሉም ምክንያቱም ቅርጸት ልወጣ ዩኒኮድ ይህን ችግር መጸጸታችንን. ይህ ፈጽሞ ምክንያት ገጸ ኮድ የተለያዩ ክፍሎች መካከል በአጋጣሚ ወደ የተሳሳተ ውጤት መስጠት, በፍለጋ እና ንጽጽር ስለ ሁሉ ዩኒኮድ ያረጋግጣል. ኮድ እነዚህን ቅጾች መርህ nenalozheniya እንዲጠብቁ እውነታ, ሌሎች የምሥራቅ እስያ የብዝሃ-ባይት ኮድ ግቤቶችን ከ እነሱን ይለያል.

nonintersection ሌላው ገጽታ ዩኒኮድ የአፈታት ዘዴዎች እያንዳንዱ ቁምፊ ግልጽ ድንበር እንዳለው ነው. ይህ ቀደም ምልክቶች ላልተወሰነ ቁጥር ለመቃኘት አስፈላጊነት አያስቀርም. ይህ ባህሪ አንዳንድ ጊዜ በራስ-clocking በኮድ ይባላል. ኮድ ክፍሎች ማዛባቱን ብቻ አንድ ቁምፊ ያዛባል ማስተዋወቅ, እና በዙሪያው ገጸ አሁንም እንደተጠበቀ ነው. የ 8-ቢት ቅርጸት ልወጣ ውስጥ, ባይት, (ሁለትዮሽ ኮድ ውስጥ) 10xxxxxx ጀምሮ ወደ ጠቋሚ ነጥቦች ምልክት መጀመሪያ አንድ ሦስት በግልባጭ ሽግግር ያስፈልጋል ማግኘት ከሆነ.

መጣጣምን

የዩኒኮድ ሙሉ በሙሉ የአፈታት ዘዴዎች ሁሉንም 3 ዓይነቶች ይደግፋል. የ ዩኒኮድ ቁምፊ-በኮድ መስፈርት መካከል ተምሳሌት መካከል እኩል ተቀባይነት ቅርጾች - ይህ ሁሉ ልወጣ ቅርጸቶች እንደ UTF-8 እና ዩኒኮድ, ለመቃወም ሳይሆን አስፈላጊ ነው.

ባይት-አቀማመጥ

የ ዩኒኮድ ኮድ ጋር የሚገጣጠመው ይህም የ 32-bit ኮድ ዩኒት, ያስፈልግዎታል በ UTF-32 ቁምፊዎች ይወክላል. በ UTF-16 - ሁለት 16-ቢት መለኪያዎች አንድ. አንድ በ UTF-8 4 ባይት ድረስ ይጠቀማል.

በ UTF-8 በኮድ ባይት-ተኮር ASCII ላይ የተመሠረተ ስርዓቶች ጋር ተኳሃኝ እንዲሆን የተነደፈ ነው. ለረጅም ጊዜ ያለውን ሶፍትዌር እና የመረጃ ቴክኖሎጂ ልምምድ አብዛኛዎቹ ባይት ከተከታታይ ውስጥ ቁምፊዎች ውክልና ላይ ይተማመን. በርካታ ፕሮቶኮሎች መካከል ሁልጊዜ ይወሰናል አስኪ በኮድ እና ይጠቀማል ወይ ልዩ ቁጥጥር ቁምፊዎች ይጠነቀቃል. አንድ ቀላል መንገድ የዩኒኮድ ቁምፊዎችን, ማንኛውም ተመጣጣኝ ASCII ቁምፊ ወይም ቁጥጥር ገጸ የሚወክሉ 8-ቢት ኮድ በመጠቀም, ሁኔታዎች ዩኒኮድ ይችላል ጋር መላመድ. ይህን መጨረሻ ድረስ, እና በ UTF-8 በኮድ ነው.

ተለዋዋጭ ርዝመት

በ UTF-8 -, ተለዋዋጭ ርዝመት ኮድ 8-ቢት ማከማቻ ክፍሎችን የያዘ, በላይኛው ቢት ይህም እያንዳንዱ ግለሰብ ባይት ያለውን ቅደም ተከተል መካከል የትኛውን ክፍል የርሱ ያመለክታሉ. ኮድ ቅደም ተከተል የመጀመሪያ አባል የተመደበለትን እሴቶች አንዱ ክልል, ሌላ - በሚቀጥለው ለ. ይህ disjointness ኢንኮዲንግ ይሰጣል.

አስኪ

በ UTF-8 በኮድ ሙሉ በሙሉ የተደገፈ ነው ASCII ኮዶች (0x00-0x7F). ይህ የዩኒኮድ ቁምፊዎችን U + 0000-U + 007F ነጠላ ባይት 0x00-0x7F በ UTF-8 ወደ የሚቀየር በዚህም አስኪ አይለይም ይሆናሉ ማለት ነው. ከዚህም በላይ, አሻሚነት ለማስቀረት, ዋጋ የዩኒኮድ ቁምፊዎችን አንድ በነጠላ ባይት ውክልና ውስጥ ምንም ተጨማሪ ጥቅም አይደለም 0x00-0x7F. ምልክቶችን ሁለት ባይት ተከታታይ በመጠቀም, አስኪ ሌላ neideograficheskih እንዲረዱት. ምልክቶች U + 0800-U + FFFF ሦስት ባይት ይወከላሉ ክልል እና U + FFFF በላይ ጋር ተጨማሪ ኮዶች አራት ባይት ይጠይቃሉ.

ማመልከቻ ሉል

በ UTF-8 በኮድ አብዛኛውን ጊዜ ኤች ቲ ኤም ኤል ፕሮቶኮል ውስጥ ምርጫ የተሰጠ, እና የመሳሰሉትን ነው.

የ XML በ UTF-8 በኮድ ሙሉ ድጋፍ ጋር የመጀመሪያ መስፈርት ሆኗል. መስፈርቶች ድርጅቶች በተጨማሪ እንመክራለን. የ በጊዜያዊ W3C እና IETF ምህንድስና ቡድን ሁሉ ኮዲንግ ላይ ስምምነት በመጣላቸው ጊዜ ASCII-ቁምፊዎች የተለየ ነው ዩ አር ኤል አድራሻ ውስጥ የድጋፍ ችግር, መፍትሔ ነበር ዩአርኤል አድራሻዎች ብቻ በ UTF-8 ነው.

ASCII ጋር የሚጣጣም አዲስ ሶፍትዌር ወደ ሽግግር የሚያመቻች. በ UTF-8 JEdit, Emacs, BBEdit, Eclipse, እና በ Windows ስርዓተ "የኖትፓድን" ጨምሮ አብዛኞቹ የጽሑፍ አርታኢዎች, እንደሚሰራ ጋር. በኮድ የዩኒኮድ ምንም ሌላ ቅጽ መሣሪያ እንዲህ ያለ ድጋፍ እመካለሁ አይችልም.

ጥቅም ኮድ ይህ ባይትስ የሆነ ቅደም ተከተል ያካተተ መሆኑን ነው. በ UTF-8 ሕብረቁምፊ ጋር C እና ሌሎች የፕሮግራም ማድረጊያ ቋንቋዎች ውስጥ ለመስራት ቀላል ነው. ይህ በኮድ ብቸኛ ቅርጽ ነው, መለያዎች አያስፈልገውም ትዕዛዙ BOM ወይም XML ውስጥ በኮድ መግለጫ ባይቶች.

ራስን ማመሳሰል

ሌሎች የብዝሃ-ባይት ቁምፊ ስብስቦች ጋር ሲነጻጸር የ ሂደት 8-ቢት ምልክቶች የሚጠቀም አንድ አካባቢ ላይ, በ UTF-8 የሚከተሉት ጥቅሞች አሉት:

  • የመጀመሪያው ባይት ኮድ ቅደም ተከተል ርዝመቱ መረጃ ይዟል. ይህ ቀጥተኛ ፍለጋ ብቃት ይጨምራል.
  • መነሻ ባይት እሴቶች የሆነ ቋሚ ክልል የተወሰነ ነው እንደ ምልክት መጀመሪያ ለማግኘት ቀለል.
  • ምንም መገናኛ ባይት እሴቶች.

ጥቅሞች አወዳድር

በ UTF-8 በኮድ የታመቀ ነው. የምሥራቅ እስያ ቁምፊዎች በኮድ ጥቅም ላይ በሚውልበት ጊዜ ግን (ቻይንኛ, ጃፓንኛ, ኮሪያኛ, ምልክቶችን በመጠቀም የቻይና ጽሑፍ) 3-ባይት ተከታታይ ተጠቅሟል. በተጨማሪም በ UTF-8 በኮድ ሂደት ፍጥነት ኮድ ሌላ ዓይነት ያነሳችሁበት ነው. አንድ የሁለትዮሽ ድርደራ መስመሮች ዩኒኮድ መደርደር ወደ ሁለትዮሽ ተመሳሳይ ውጤት ያመጣል.

ቁምፊ ኢነኮዲንግ ስኬማ

ቁምፊ ኢነኮዲንግ ስኬማ በኮድ ምልክቶች ቅጽ እና ነጠላ ባይት የአካባቢ ኮድ አሃዶች ለ ዘዴ ይይዛል. ዩኒኮድ መስፈርት የመጀመሪያ ባይት ትዕዛዝ ምልክት (BOM, ባይት ትዕዛዝ ምልክት) መጠቀም ያቀርባል በኮድ መርሃግብር ለመወሰን.

በ UTF-8 ባህሪ መለያ ውስጥ BOM ኮድ ዓይነቶች መጠቀምን ብቻ ማጣቀሻ የተገደበ ነው ጊዜ. በውስጡ በኮድ ዩኒት መጠን አንድ ባይት ነው እንደ endian በ UTF-8 ለመወሰን ችግር አለን. ኮዲንግ ለዚህ ቅጽ የ BOM መጠቀም ያስፈልጋል ወይም ይመከራል ቢሆን. BOM በ UTF-8 በኮድ ለ ባይት ትዕዛዝ ምልክት ወይም ፊርማ በመጠቀም ከሌሎች codings ከ የሚለወጠው ወደ ጽሑፍ ውስጥ ሊከሰት ይችላል. EF BB 16 16 ቢ ኤፍ 16 3 ባይት ከተከታታይ ነው.

በ UTF-8 በኮድ ማዘጋጀት እንደሚቻል

የ አደራረግ ኤችቲኤምኤል በ UTF-8 የሚከተለውን ኮድ ጋር ተጭኗል:

ራስ

ሜታ http-እኩያ = "በይዘት አይነት« ይዘት = "ፅሁፍ / html; የማይስተናገዱ = UTF-8" ˃

ፒኤችፒ ውስጥ በ UTF-8 በኮድ የውጽአት ደረጃ እሴት ስህተት ቅንብር በኋላ ፋይሉን መጀመሪያ ላይ የራስጌ () ተግባር በመጠቀም ተዘጋጅቷል:

˂? ይመክራቸዋል

error_reporting (-1);

ራስጌ ( "የይዘት አይነት: ፅሁፍ / HTML; የማይስተናገዱ = UTF-8 ');

በ UTF-8 በኮድ ከተዋቀረ አንድ MySQL ውሂብ ጎታ ጋር ለመገናኘት:

˂? ይመክራቸዋል

mysql_set_charset ( 'UTF8');

የ CSS-ፋይል ኢንኮዲንግ እንደሚከተለው በ UTF-8 ቁምፊዎች የተገለጹ ነው:

@charset "UTF-8";

ሁሉንም ዓይነቶች መካከል ፋይሎች, BOM ያለ በ UTF-8 በኮድ ለመምረጥ ለማስቀመጥ ጊዜ ካልሆነ ጣቢያውን አይሰራም. በ UTF-8 በኮድ ለመቀየር DreamWeave ውስጥ ይህን ማድረግ ምናሌ ንጥል «ርእስ / ኮድ ከተታ - - ገጽ Properties ለውጦች" መምረጥ አለብህ. ገጹ ዳግም ከተጫነ ተከትሎ, "አያይዝ ዩኒኮድ ፊርማ (BOM)» ከ ቼክ ምልክት ለማስወገድ እና ለውጦች ይተገበራሉ. በአንድ ገጽ ላይ ወይም ጎታ ውስጥ ማንኛውንም ጽሑፍ ኮዲንግ ሌላ መልክ ተጀመረ ከሆነ, ዳግም ማስገባት ወይም ዳግም መረጃችንን ማስቀመጥ አስፈላጊ ነው. አንተም መደበኛ መግለጫዎች ጋር ለመስራት ጊዜ, መቀየሪያ U ለመጠቀም እርግጠኛ መሆን.

በተጨማሪም የ Windows በ "የኖትፓድን" ውስጥ በ UTF-8 በኮድ ውስጥ ፋይል ማስቀመጥ ይችላሉ. ምናሌ ንጥል በመምረጥ በኋላ "ፋይል - አስቀምጥ እንደ ..." በኮድ ውስጥ አስፈላጊውን ቅጽ መጫን እና በ UTF-8 ላይ ያለውን ፋይል ለማስቀመጥ.

ምናሌ ንጥል በኩል, በ UTF-8 ሌላ ከተዋቀረ አንድ ጽሑፍ አርታኢ ደብተር ++, በ "BOM ያለ በ UTF-8 ቀይር» ገጸ መለወጥ እና በ UTF-8 ውስጥ ማስቀመጥ.

ምንም አማራጭ የለም

የፖለቲካ እና የቋንቋ ድንበር ይደመሰሳሉ ቦታ ግሎባላይዜሽን, አውድ ውስጥ, በአካባቢው ባሕርይ ያላቸው ገጸ ስብስቦች, ትንሽ ጥቅም የሌላቸው ናቸው. ዩኒኮድ ይህን ሁሉ ትርጉሞች የሚደግፍ የሆነ ነጠላ ቁምፊ ስብስብ ነው. አንድ በ UTF-8 - ነው የዩኒኮድ በተገቢው ትግበራ, ምሳሌ:

  • ይህ ASCII በኮድ ጋር የተኳሃኝነት ጨምሮ መሳሪያዎች, ሰፊ ክልል ይደግፋል;
  • ይህ ማዛባቱን ውሂብ ወደ ተከላካይ ነው;
  • ቀላል እና ህክምና ውጤታማ;
  • መድረኩ ነጻ ነው.

የተሻለ ነው በኮድ ወይም የፊደላት ስብስብ ምን ዓይነት ስለ UTF-8 ክርክር መፈልሰፍ ጋር, ይህ ትርጉም የለሽ ይሆናል.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 am.birmiss.com. Theme powered by WordPress.