green_fr: (Default)
В апреле собираемся к [livejournal.com profile] catpad в Японию, начал учить язык. Меня, очевидно, больше всего интересует письменность. И с ней японцы не подвели, оправдали свой имидж инопланетян :-)
Известно, что письменность у них состоит как минимум из трёх разных кусочков:
  • кандзи — заимствованные из китайского иероглифы: смысл тот же, пишутся так же, читаются совершенно по-другому. К этой части я пока что даже не думал подступаться...
  • хирагана — слоговая азбука, используемая для того, чего нет в кандзи. Например, для грамматики — японские глаголы имеют разные окончания в разных формах, эти формы записываются хираганой после корня кандзи. Плюс, в детских книжках можно писать слова кандзи хираганой. В более продвинутых детских книжках (таких, как мой учебник) над каждым знаком кандзи можно записать его произношение хираганой.
  • катакана — ещё одна слоговая азбука, в точности для тех же слогов, просто, чтобы иметь две :-) На практике используется для записи иностранных слов, для смыслового выделения и пр. — очень похоже на использование у нас курсива.
Наряду с этим есть какие-то иероглифы, которые были придуманы в Японии (не имеют китайских предков), в тексте могут использоваться латинские буквы, есть свои цифры, но арабские тоже в ходу, свои знаки препинания — учить очень весело. Я пока что на хирагане.
Много букв, причём не все русские... )
green_fr: (Default)
Сделал серию задачек на деванагари.
После корейского ожидал халяву - деванагари действительно очень простая письменность:
- пишем слева направо;
- есть знаки для слогов "согласная + А";
- есть знаки, меняющие гласную предыдущего знака (Unicode называет их "dependent vowels" - "зависимые гласные");
- есть особая "гласная" означающая "отмену предыдущей гласной".
- есть "независимые гласные" (пока что видел применения только для начала слова);
Вроде как всё. Первые две задачки на этом прокатили. Третья - нет...

Требуется написать слог "сви". Кодируется эта последовательность довольно очевидно: "са" + "отмена гласной" + "ва" + "замена гласной на и". А вот отрисовываться это должно так:
1) нарисовать знак "са";
2) "отмена гласной" пририсовывается обычно как аксантик под знаком;
3) но поскольку это ещё не конец слова, вместо 2) нужно склеить два "согласных" знака (лигатура), точнее склеить левую половинку первого знака с целым вторым;
4) приписать зависимую "И", которая является исключением и рисуется не сверху-снизу (что я уже видел в предыдущих задачах) и не справа (что выглядело бы просто как следующая буква), а слева от лигатуры.
Тут я серьёзно задумался о судьбе бедных программистов, реализовывавших это в шрифтах.

Проверил - шрифт Chrysanthi, справившийся с простыми задачками, забуксовал. Т.е. он просто тупо отрисовывал комбинацию "са" + "отмена гласной", затем "ва", затем (справа!) зависимую "и".
Arial Unicode MS рисует отлично (в очередной раз "Ура Майкрософту!"), но не поставляется бесплатно.
Перебрад ещё - только 4-й шрифт (Chandas) корректно отрисовывал этот слог.

Но при этом он рисовал некоторые знаки (NNA и независимую A) не так, как у меня в книжке. Смотрю на том же сайте лежит ещё один шрифт деванагари. Chandas - южный стиль, Uttara - северный. Проверил - действительно моя книга набрана северным стилем (Arial при этом, очевидно, реализует только одно написание, как выяснилось - южное).
Первая мысль - какой ужас! Никогда не встречал подобного. Два "принципиально" разных написания одного алфавита.
Потом вспомнил про "готический шрифт", который (в сегодняшнем понимании) есть не что иное, как альтернативная отрисовка стандартых латинских букв. И далеко не всегда тривиально опознаваемо.

Затем задумался о copy-paste. Выяснил, что лигатуры типа описанного выше "сви" копируются только целиком.
Тоже первая мысль "ужас", затем вспоминаю про букву "Ё", в которой нельзя скопировать только букву "Е". Или там "Ы". Мы просто привыкли.

Результат мне скорее нравится, единственное отличие в написании от "книжного" - склейка VA и JA в лигатурах (всё тот же "сви"). И южный, и северный варианты выглядят немного не так. Какие там ещё стороны света остались? Ладно, и так почти сутки на это убил...
green_fr: (Default)
Провозился пол дня, разбираясь с корейскими символами Unicode для очередной лингвистической задачки из книжки.
Непередаваемый кайф копаться в таблицах Unicode в поисках нужного символа. Символе на пятом начинаешь понимать структуру их "алфавита" - я о слоговой азбуке Hangul, в которой 11000 символов, PDF на 45 страниц, так что структуру понять нужно. Под конец уже почти на автомате находишь нужный символ. Ну, а набив весь текст, я нашёл формулу, по которой можно вычислить код слога по кодам составляющих его букв...

Вообще, замечательная система письма. Изначальный постулат - слог состоит из трёх букв: согласная + гласная + согласная. И пишется как комбинация этих трёх символов (согласная ᄇ + гласная ᅡ + согласная ᆨ = слог 박).
Затем начинаются поправки.
1. Последняя согласная может отсутствовать в произношении, тогда она должна быть опущена на письме, например 가.
2. Первая согласная может отсутствовать в произношении, тогда на письме она заменяется на специальную "отсутствующую согласную" ᄋ (эта же согласная на конце слога прекрасно читается).
3. Последняя согласная может быть не одной согласной, а двумя, а то и тремя. Для этого в алфавит вводятся двойные и тройные буквы (например ᇗ при существующих ᆯ и ᇫ).

Соответственно, в Unicode присутствуют все согласные, все гласные, ещё раз все согласные (для последней позиции, потому что "Unicode различает буквы по их функциям, а не по их форме") и все возможные варианты кратных согласных.
Слоги предлагается писать простыми последовательностями составляющих их букв.
При этом, если нам нужно по каким-то причинам написать не весь слог, а только часть его, Unicode поддерживает специальные fillers (коды 115F и 1160), правда у меня не получилось заставить их работать. Впрочем, и автоматическую сборку слогов по буквам не получилось - вроде как никто этот геморрой пока не поддерживает.

Для того, чтобы всё таки как-то писать корейские слоги, нужно использовать другую таблицу Unicode, т.е. 11 с чем-то тысяч слогов, возвращаемся к началу поста и поиску в таблицах нужного символа.

Следующая задачка в книге на санскрите...

Profile

green_fr: (Default)
green_fr

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10 11 12 1314
15 16 1718 192021
22 23 24 25262728

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 26th, 2026 01:58 am
Powered by Dreamwidth Studios