Кодирование Cyrillic->Unicode 0

Et cetera → Программирование

Steck написал 19 октября 2005 года в 07:25 (1000 просмотров) Ведет себя как мужчина; открыл 125 тем в форуме, оставил 550 комментариев на сайте.

Народ подскажите как перекодировать

К примеру слово «Привет» в Unicode?

Вроде надо из байта вычесть C0H и прибавить 410H

Ммм помогите с примерчиком?

Ответить Цитировать

rgo 08:23, 19 октября 2005

во-первых, что значит cyrillic: koi8-r, cp1251, cp866?

а во-вторых, что значит unicode: utf8, utf16, utf32? le или be?

судя по всему не utf8… но их же ещё два остаётся.

но в общем если cp1251->utf16le, то ты почти прав. Буковки 'ё' и 'Ё' кодируются значениями 0×451 и 0×401 соответственно.

но «почти прав» это если (что наиболее вероятно), у тебя ix86…

а проблемы могут быть от того, что тебе на самом деле нужен utf16be… байтики местами обменяй, в каждом 16-bit слове.

Ответить Цитировать

Steck 12:02, 19 октября 2005

мне надо koi8-r и если быть точным UCS2. вот

Чтобы передавать SMS сообщения на русском ;o)

Прогу пишу.

И заметил только сейчас что….Хех

Интерфейс на gtk2. Только сейчес написал слово «Привет» выделил его и

вставил в коноль результат….

«\u041f\u0440\u0438\u0432\u0435\u0442»

Можно сказать проблема решена?

Ответить Цитировать

rgo 13:24, 19 октября 2005

я пользовался такой конструкцией:

echo «Привет» | iconv -f koi8-r -t utf16 | hexdump -C

Ответить Цитировать

Steck 06:40, 20 октября 2005

А как это можно реализовать в С?

Есть же проще способ чем юзать iconv.h

а потом смотреть сырцы hexdump…

Ответить Цитировать

rgo 07:10, 22 октября 2005

а что iconv сложно использовать? Если не iconv, то тебе придётся вручную переупорядочивать последовательность букв. в koi8-r буквы упорядочены с хитрым умыслом: юабцдефгхи… А это значит либо огромный switch либо таблица.

ЗЫ. Кстати, мне кажется что gtk2 использует utf8 в качестве внутренней кодировки.

Ответить Цитировать

Steck 17:17, 22 октября 2005

rgo
а что iconv сложно использовать? Если не iconv, то тебе придётся вручную переупорядочивать последовательность букв. в koi8-r буквы упорядочены с хитрым умыслом: юабцдефгхи… А это значит либо огромный switch либо таблица.
ЗЫ. Кстати, мне кажется что gtk2 использует utf8 в качестве внутренней кодировки.

Да gtk2 utf8 пользует. Попробую iconv если не выдет придется брать бубен и..)

Ответить Цитировать

Steck 12:28, 23 октября 2005

Так с iconv подружился..а теперь надо получить то что выдает hexdump…

Вот это как сделать..? Кто подскажет.

Ответить Цитировать

rgo 20:43, 23 октября 2005

слушай, а зачем тебе hexdump? Я до конца задачу не понимаю. Работать с utf8 строками надо? перебирать отдельные символы в них? Поройся в glib там были какие-то функции для этого.

Ответить Цитировать

Genie 20:47, 23 октября 2005

что только народ не начнёт делать, лишь бы документацию не читать….

при установленных пакетах разработчика очень советуется почитать:

$ apropos utf8

ну, и для затравки,

$ man 7 utf8

Ответить Цитировать

rgo 20:59, 23 октября 2005

:)))

Это я всё никак от дурных привычек приобретённых в виндовс и дос не могу избавиться. Там ведь чуть что, в руки hexview, дебуггер, дизассемблер и вперёд.

Ответить Цитировать

Steck 07:32, 25 октября 2005

у меня с этими кодировками и 0410 0411 уже голова кругом.

надо просто превратить слово «Привет» в

041F 0440 0438 0432 0435 0442

и все и будет мне счастье)

Ответить Цитировать

Последние комментарии

OlegL, 17 декабря 2023 года в 15:00 → Перекличка 21
REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1

DevOps as a Service from Palark

24/7 SRE & DevOps service to cover all your Kubernetes needs.