Тема: UTF8 Приблуда - нащо?
Хочу запитати товариство, які переваги несе UTF8 - для програмістів? Бо мене цей "костиль"- чомусь не дуже радує.
(Перепрошую якщо не в той розділ вліз)
Ви не увійшли. Будь ласка, увійдіть або зареєструйтесь.
Ласкаво просимо вас на україномовний форум з програмування, веб-дизайну, SEO та всього пов'язаного з інтернетом та комп'ютерами.
Будемо вдячні, якщо ви поділитись посиланням на Replace.org.ua на інших ресурсах.
Для того щоб створювати теми та надсилати повідомлення вам потрібно Зареєструватись.
Український форум програмістів → Алгоритми та структури даних, технології → UTF8 Приблуда - нащо?
Для відправлення відповіді ви повинні увійти або зареєструватися
Хочу запитати товариство, які переваги несе UTF8 - для програмістів? Бо мене цей "костиль"- чомусь не дуже радує.
(Перепрошую якщо не в той розділ вліз)
То не в UTF-8 проблема, а у вас.
То не в UTF-8 проблема, а у вас.
Мені здається - ця картинка застаріла.
То не в UTF-8 проблема, а у вас.
Я не сказав що у мене проблема, я питав про інше.
Тобто ви хочете сказати, що перевага в популярності?
Ой не помітив, це ви про використання в Веб - я не це запитував.
Сумісність з ASCII, себто не ASCII символи розглядаються програмами як кодова сторінка, тому легко працювати з таким юнікодом як зі звичайними однобайтовими стрічками.
Так в тому то діло коли програма англомовна та написана для англомовців то все чудово, але якщо великі об'єми даних кирилицею?
Кириличні тексти жадна кодова сторінка нормально не відображає (дореформенну російську ять наприклад, хоча та ять це засіб запозичення з нашої мови і тексти українською з ятями існують), воно все лайно, а будова юнікода протирічить власним принципам - кажній графемі по коду, тож "***** жаба гадюку".
Кириличні тексти жадна кодова сторінка нормально не відображає (дореформенну російську ять наприклад, хоча та ять це засіб запозичення з нашої мови і тексти українською з ятями існують), воно все лайно, а будова юнікода протирічить власним принципам - кажній графемі по коду, тож "***** жаба гадюку".
Це так є можливість відобразити навіть глаголичні тексти тисячолітньої давнини в UTF8, при умові якщо шрифт підтримає, а якщо не підтримає то приплили, перевага UTF8 зразу пропадає.
Хочу запитати товариство, які переваги несе UTF8 - для програмістів?
Переваги порівняно із чим? З ASCII? Тоді усе дуже просто: не треба вгадувати кодову сторінку тексту, бо вона для усіх одна. І у той же час на усілякі технічні тексти типу логів (чи розмітки) витрачається усього по одному байту на літеру.
https://w3techs.com/technologies/overvi … coding/all
UTF-8 90.6%
ISO-8859-1 4.3%
Windows-1251 1.5%
https://w3techs.com/technologies/overvi … coding/all
UTF-8 90.6%
ISO-8859-1 4.3%
Windows-1251 1.5%
Гм-м яке відношення до програмування має текст збережений в MS Word, чи цей текст зконвертований в HTML, чи наприклад набраний в TinyMCE.
чи то людина не доганяє нічого, чи то надто товстий жирний тролінг ...
Хочу запитати товариство, які переваги несе UTF8 - для програмістів?
Чітко вкажіть де застосування UTF8 вам не подобається, в коментарях програм чи в HTML документації, чи, перепрошую, в сральні. Чим і де ви послуговувалися до того, а тепер вас змушують(чи пропонують?) послуговуватися UTF8? Якщо ви писали мовою С, а тепер вам доводиться писати Рапірою чи 1С, то вас зрозуміти можна, але питання все одно не в ЮТФ8.
koala написав:https://w3techs.com/technologies/overvi … coding/all
UTF-8 90.6%
ISO-8859-1 4.3%
Windows-1251 1.5%Гм-м яке відношення до програмування має текст збережений в MS Word, чи цей текст зконвертований в HTML, чи наприклад набраний в TinyMCE.
Ну, якщо ви можете без програм конвертувати текст в MS Word чи HTML, то будь ласка, ніхто ж не проти.
А я користуюся програмами для цього. І пишу такі програми
vsprosto написав:koala написав:https://w3techs.com/technologies/overvi … coding/all
UTF-8 90.6%
ISO-8859-1 4.3%
Windows-1251 1.5%Гм-м яке відношення до програмування має текст збережений в MS Word, чи цей текст зконвертований в HTML, чи наприклад набраний в TinyMCE.
Ну, якщо ви можете без програм конвертувати текст в MS Word чи HTML, то будь ласка, ніхто ж не проти.
А я користуюся програмами для цього. І пишу такі програми
а чим ви ще займаєтесь в секретаріаті?
koala написав:https://w3techs.com/technologies/overvi … coding/all
UTF-8 90.6%
ISO-8859-1 4.3%
Windows-1251 1.5%Гм-м яке відношення до програмування має текст збережений в MS Word, чи цей текст зконвертований в HTML, чи наприклад набраний в TinyMCE.
Я не хотів би вас засмутити - але все ж таки пряме. "Документ MS Word" або інше - не міфічні артефакти, це продут роботи програм. SURPRISE!
Все що в світі не є має своі недоліки і привади. В усьому є щось гарне і погане.
УТФ8 нормально чітається всіма нормальними браузерами та текстовими редагувачами.
Ну добре спробую трохи "підсумувати" та трохи розшифрувати.
які переваги несе UTF8 - для програмістів?
програмісти це люди які мають "Інструмент" із допомогою "інструменту" пишуть програми - чим зручний цей "інструмент" в процесі використання в парі з utf8- які переваги отримуємо?
Інструмент не є продукт -(utf8 не є молоко. якщо програма, що написана з використанням utf8 - інструмент -керує доїльним комплексом і ми отримуємо як результат - продукт - молоко)
Бо мене цей "костиль"- чомусь не дуже радує
Тобто при використанні "інструменту" + utf8 задоволення не принесло.
Більшість з вас бачать в основному переваги UTF8.
А по перше модно популярно.
для програміста - всі вимагають підтримки, всі програми обов'язково з utf8.
По друге універсально- текст написаний в utf8 кругом однаковий та не вимагає перекодування, особливо цінно в Веб (але за умови наявності символів вашої національності в шрифті відображення інакше побачимо пустий квадратик)
для програміста - не треба шукати таблиці перекодування для локалізації достатньо просто текст перекласти.
По третє utf8 стає стандартом.
для програміста, відходять ті часи коли в редакторі замість символів національного алфавіту ми бачимо крякозябри.
Недоліки
по перше великий розмір даних- для не латинських символів -для кирилиці в два рази.(Зауважу для веб сторінок це менше- багато займають службові слова)
по друге складність оперування посимвольно для не латинських символів - не можна звернутись як до масиву байт, програмно оперувати з utf8 стрічкою складніше.
по третє на великих обємах падає продуктивність.
З реальних давніх випадків - була база 17 тис абонентів - доступ був через базу sql firebird писана була спочатку на delfi 7 потім на codetyphon без підтримки потім з підтримкою utf8 - швидкість виборки з utf8 - в два рази повільніше.
ну от ще приклад коду визначення довжини стрічки
UTF8Length (дивитись знизу догори)
function UTF8CodepointSizeFull(p: PChar): integer;
begin
case p^ of
#0..#191: // %11000000
// regular single byte character (#0 is a character, this is Pascal ;)
Result:=1;
#192..#223: // p^ and %11100000 = %11000000
begin
// could be 2 byte character
if (ord(p[1]) and %11000000) = %10000000 then
Result:=2
else
Result:=1;
end;
#224..#239: // p^ and %11110000 = %11100000
begin
// could be 3 byte character
if ((ord(p[1]) and %11000000) = %10000000)
and ((ord(p[2]) and %11000000) = %10000000) then
Result:=3
else
Result:=1;
end;
#240..#247: // p^ and %11111000 = %11110000
begin
// could be 4 byte character
if ((ord(p[1]) and %11000000) = %10000000)
and ((ord(p[2]) and %11000000) = %10000000)
and ((ord(p[3]) and %11000000) = %10000000) then
Result:=4
else
Result:=1;
end;
else
Result:=1;
end;
end;
\\------------------------------------------------
function UTF8CodepointSize(p: PChar): integer; inline;
begin
if p=nil then exit(0);
if p^<#192 then exit(1);
Result:=UTF8CodepointSizeFull(p);
end;
\\---------------------------------------------
function UTF8Length(p: PChar; ByteCount: PtrInt): PtrInt;
var
CharLen: LongInt;
begin
Result:=0;
while (ByteCount>0) do begin
inc(Result);
CharLen:=UTF8CodepointSize(p);
inc(p,CharLen);
dec(ByteCount,CharLen);
end;
end;
\\---------------------------------------
function UTF8Length(const s: string): PtrInt;
begin
Result:=UTF8Length(PChar(s),length(s));
end;
І ще одне якщо ваші тексти латиницею та ваш utf8 і самий простий мікроконтролер "з'їсть" ,бо робота буде виглядати як з ASCII.
та досить уже utf8 називати костилем !!
майте совість
таке враження що ви все життя прожили в Лондоні і нічого крім latin1 не знаєте і не хочете знати,
вам не потрібна кирилиця і купа всього ще, чи що?
чи можливо ви чомусь думаєте що потрібно поскиглити декілька днів на форум на тему того що utf8 вас обіжає,
і utf8 у вас попросить вибачення, тепло обійме, чаю вам зробить?
чому ви так думаєте?
vsprosto
Якою кодовою сторінкою ви послуговувалися до того?
З реальних давніх випадків - була база 17 тис абонентів - доступ був через базу sql firebird писана була спочатку на delfi 7 потім на codetyphon без підтримки потім з підтримкою utf8 - швидкість виборки з utf8 - в два рази повільніше.
Ну то ведіть БД кодовою сторінкою, але імпортуйте дані з УТФ8. Я вважаю, що всі кодові сторінки гидотні і юнікод гидотний, нема людської кодової сторінки для ціє ї ж кирилиці(не лише чинний правопис) з псевдографікою і грецькою абеткою.
Для відправлення відповіді ви повинні увійти або зареєструватися