Основы японских многобайтных кодировок
Японские символы могут быть представлены только в многобайтных кодировках, и многие стандарты кодирования зависят от платформы и назначения текста. Осложняет ситуацию то, что эти стандарты немного друг от друга отличаются. Чтобы создать веб-приложение, правильно работающее в японском окружении, разработчику необходимо держать все эти расхождения в уме, чтобы быть уверенным, что в каждый момент используется правильная кодировка.
- Кодовое пространство для символа может занимать до шести байт
- Большинство японских многобайтных символов требуют для хранения вдвое больше пространства, чем однобайтные символы. Такие символы называют "zen-kaku" по-японски, что означает "полная ширина". Другие, более узкие символы называют "han-kaku", что значит "полуширина". Графические свойства символов, однако, зависят от шрифта, которым они отображаются.
- В некоторых кодировках для смены кодовой разметки определенной области кодов (00h на 7fh) используются клавиши shift(escape), определенные в стандарте in ISO-2022.
- ISO-2022-JP должен использоваться в SMTP/NNTP, а заголовки и сущности должны перекодироваться в соответствии с требованиями RFC. Даже, если перекодировка не требуется, все же она будет не лишней, так как некоторые популярные почтовые клиенты не умеют работать с другими кодировками.
- Веб-страницы, создаваемые для служб мобильных телефонов, таких как » i-mode или » EZweb должны использовать кодировку Shift_JIS.
- В PHP 5.4.0 поддерживаются символы пиктограмм, используемые в сервисах мобильных телефонов, таких как » i-mode или » EZweb.
- PHP Руководство
- Функции по категориям
- Индекс функций
- Справочник функций
- Поддержка языков и кодировок
- Введение
- Установка и настройка
- Предопределенные константы
- Краткий список поддерживаемых кодировок
- Основы Японских многобайтных кодировок
- HTTP Ввод и Вывод
- Поддерживаемые кодировки символов
- Механизм перегрузки функций
- Требования, предъявляемые к кодировкам символов в PHP
- Функции для работы с Многобайтными строками
Коментарии
For ISO-2022-JP encoding. If you convert data into this encoding it is highly recommended you use ISO-2022-JP-MS for the extended character set, eg the 1 in a circle ①.
For the mail header on the other hand you have to use ISO-2022-JP *without* the -MS extension.