![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
В апреле собираемся к
catpad в Японию, начал учить язык. Меня, очевидно, больше всего интересует письменность. И с ней японцы не подвели, оправдали свой имидж инопланетян :-)
Известно, что письменность у них состоит как минимум из трёх разных кусочков:
С хираганой ты сталкиваешься с самого начала. Вот, например, глагол «кушать» (с него, мне кажется, нужно начинать изучение любого языка) в инфинитиве (японские знаки я буду писать очень крупно, чтобы непривычный взгляд мог рассмотреть все закорючки):
食べる
Первый символ — это кандзи, китайский иероглиф, обозначающий «кушать». По-японски он читается «ta», а инфинитив читается как «taberu», и два следующих символа — это как раз хирагана для «be» и «ru».
А вот этот же глагол в «обычной» форме — она соответствует «кушаю», «кушаешь», «кушает» и многим другим (в японском есть понятие спряжения, но оно отличается от русского):
食べます
Видно, что корень остался тем же, как и в русском языке при спряжении изменилось лишь окончание, эта форма читается как «tabemasu» (точнее, произносится «табемас» — не только у русских с их «суши / суси» есть флеймы о том, как правильно транскрибировать японский текст).
В моём учебнике подразумевается, что рано или поздно ученик запомнит 46 знаков хираганы, а вот тысячи кандзи сразу считаются вне досягаемости, поэтому последняя форма пишется как:
食 べます
Над кандзи появляется транскрипция хираганой (это называется «фуригана»), символ «ta».
Мне немедленно стало интересно, как всё это поддерживается в Unicode. И действительно, Unicode предусматривает три специальных символа: FFF9 — начало текста кандзи, FFFA — начало транскрипции хираганой и FFFB — конец всего блока. Точнее даже, эти символы были придуманы не исключительно для японского языка, а в общем случае для аннотации текста сверху другим текстом. Символы эти придуманы, но никем не поддерживаются (я проверил на своём компе).
Зато HTML поддерживает таг <ruby>, этим тагом я и набирал этот пост.
История термина ruby тоже прекрасна. Изначально у британских типографов ruby назывался мелкий шрифт, которым они в частности набирали аннотации к японским символам. В Америке шрифт, использовавшийся для тех же целей, назывался agate. Японцы переняли британский термин ruby, обозначив им уже шрифт, использующийся исключительно для фуриганы, записывая его японскими символами (катаканой). Из японского слово вернулось в английский, но уже по правилам транскрипции японских слов, то есть rubi. Бардак усугубился тем, что в стандарт HTML таг вошёл в версии ruby, но я уже не вижу ничего удивительного в том, что в русской википедии статья, ведущая с Ruby character называется «Агат (кегль)».
В хирагане есть нечто, похожее на диакритику — грубо говоря, берём букву, приписываем над ней пару точек и получаем букву, немного отличающуюся в прочтении. Как русские «е» и «ё». Например, добавив две чёрточки к слогу со звуком «к», мы получим слог со звуком «г»:
か (ka) -> が (ga)
Unicode предлагает как отдельный символ для «ga» (304C), так и специальный символ «добавить вон те две чёрточки к предыдущему знаку» (3099), который можно написать после «ka» (304B), чтобы получить в точности тот же результат:
が (ga) が (ka + две чёрточки)
Этот же символ используется для того, чтобы превратить слоги с «с» в слоги с «з», слоги с «т» в слоги с «д». В тот момент, когда к читателю приходит озарение «да это же просто знак перехода от глухой согласной к звонкой!», он видит, что точно так же из слогов с «х» получаются слоги с «б»:
さ (sa) -> ざ (za), た (ta) -> だ (da), は (ha) -> ば (ba)
А на закуску ещё один символ (309A), который превращает слоги с «х» в слоги в «п»:
は (ha) -> ぱ (pa)
Помимо стандартных слогов «согласная + гласная» в хирагане есть, очевидно, знаки для одиноких гласных: あ (a), い (i), う (u), え (e) и お (o).
Плюс, менее очевидно, знак для одинокой буквы «н»: ん.
Не все варианты «согласная + гласная» существуют. Например, для «д» есть формы «da», «de» и «do», но нет «di» и «du». Более того, некоторые согласные смешиваются — в одном ряду стоят «sa», «shi», «su», «se» и «so». Аналогично «ta», «chi», «tsu», «te» и «to». Частично это можно списать на несовершенство транслитерации, но пример ниже с «с» и «ш» показывает, что не только в транслитерации дело.
У некоторых знаков есть малая и большая формы. Но смысл у них не такой, как у заглавных и прописных букв в кириллице или латиннице. Если знак пишется маленьким, значит он читается не как обычно, а выступает в качестве модификатора соседнего знака.
Например, как мы видели выше, для «ш» есть только форма «shi». Для «sha» есть хитрость: если написать «shi», а затем приписать маленький «ya» (в Unicode это рассматривается как отдельная буква, 3084 для обычной ya и 3083 для маленькой), то всё вместе будет читаться как «sha».
しゃ (sha) しや (shiya) — примеры дурацкие, просто для иллюстрации.
Аналогично «shi» + маленькое «yo» = «sho», «shi» + маленькое «yu» = «shu». Аналогично с «ч» — «cho», «cha», «chu». И даже «ryo», «ryu» и «kyo», «kyu» — везде берётся слог на «i» и приписывается маленький слог с «y».
А ещё, если знак «u» идёт непосредственно за слогом, заканчивающимся на «o», то это «о» читается как «о длинное» (транскрибируется как «ô»). И это правило, конечно же, суммируется с предыдущим. Таким образом, чтобы написать «shô», мы пишем «shi» + «маленькое yo» + «u»:
し (shi) しょ (sho) しょう (shô)
Или вот: есть знак つ (tsu). А если его написать маленьким — っ, то это означает удвоение следующей согласной:
いっか (ikka) いつか (itsuka).
Это я пока что на 20 уроке...
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Известно, что письменность у них состоит как минимум из трёх разных кусочков:
- кандзи — заимствованные из китайского иероглифы: смысл тот же, пишутся так же, читаются совершенно по-другому. К этой части я пока что даже не думал подступаться...
- хирагана — слоговая азбука, используемая для того, чего нет в кандзи. Например, для грамматики — японские глаголы имеют разные окончания в разных формах, эти формы записываются хираганой после корня кандзи. Плюс, в детских книжках можно писать слова кандзи хираганой. В более продвинутых детских книжках (таких, как мой учебник) над каждым знаком кандзи можно записать его произношение хираганой.
- катакана — ещё одна слоговая азбука, в точности для тех же слогов, просто, чтобы иметь две :-) На практике используется для записи иностранных слов, для смыслового выделения и пр. — очень похоже на использование у нас курсива.
С хираганой ты сталкиваешься с самого начала. Вот, например, глагол «кушать» (с него, мне кажется, нужно начинать изучение любого языка) в инфинитиве (японские знаки я буду писать очень крупно, чтобы непривычный взгляд мог рассмотреть все закорючки):
食べる
Первый символ — это кандзи, китайский иероглиф, обозначающий «кушать». По-японски он читается «ta», а инфинитив читается как «taberu», и два следующих символа — это как раз хирагана для «be» и «ru».
А вот этот же глагол в «обычной» форме — она соответствует «кушаю», «кушаешь», «кушает» и многим другим (в японском есть понятие спряжения, но оно отличается от русского):
食べます
Видно, что корень остался тем же, как и в русском языке при спряжении изменилось лишь окончание, эта форма читается как «tabemasu» (точнее, произносится «табемас» — не только у русских с их «суши / суси» есть флеймы о том, как правильно транскрибировать японский текст).
В моём учебнике подразумевается, что рано или поздно ученик запомнит 46 знаков хираганы, а вот тысячи кандзи сразу считаются вне досягаемости, поэтому последняя форма пишется как:
Над кандзи появляется транскрипция хираганой (это называется «фуригана»), символ «ta».
Мне немедленно стало интересно, как всё это поддерживается в Unicode. И действительно, Unicode предусматривает три специальных символа: FFF9 — начало текста кандзи, FFFA — начало транскрипции хираганой и FFFB — конец всего блока. Точнее даже, эти символы были придуманы не исключительно для японского языка, а в общем случае для аннотации текста сверху другим текстом. Символы эти придуманы, но никем не поддерживаются (я проверил на своём компе).
Зато HTML поддерживает таг <ruby>, этим тагом я и набирал этот пост.
История термина ruby тоже прекрасна. Изначально у британских типографов ruby назывался мелкий шрифт, которым они в частности набирали аннотации к японским символам. В Америке шрифт, использовавшийся для тех же целей, назывался agate. Японцы переняли британский термин ruby, обозначив им уже шрифт, использующийся исключительно для фуриганы, записывая его японскими символами (катаканой). Из японского слово вернулось в английский, но уже по правилам транскрипции японских слов, то есть rubi. Бардак усугубился тем, что в стандарт HTML таг вошёл в версии ruby, но я уже не вижу ничего удивительного в том, что в русской википедии статья, ведущая с Ruby character называется «Агат (кегль)».
В хирагане есть нечто, похожее на диакритику — грубо говоря, берём букву, приписываем над ней пару точек и получаем букву, немного отличающуюся в прочтении. Как русские «е» и «ё». Например, добавив две чёрточки к слогу со звуком «к», мы получим слог со звуком «г»:
か (ka) -> が (ga)
Unicode предлагает как отдельный символ для «ga» (304C), так и специальный символ «добавить вон те две чёрточки к предыдущему знаку» (3099), который можно написать после «ka» (304B), чтобы получить в точности тот же результат:
が (ga) が (ka + две чёрточки)
Этот же символ используется для того, чтобы превратить слоги с «с» в слоги с «з», слоги с «т» в слоги с «д». В тот момент, когда к читателю приходит озарение «да это же просто знак перехода от глухой согласной к звонкой!», он видит, что точно так же из слогов с «х» получаются слоги с «б»:
さ (sa) -> ざ (za), た (ta) -> だ (da), は (ha) -> ば (ba)
А на закуску ещё один символ (309A), который превращает слоги с «х» в слоги в «п»:
は (ha) -> ぱ (pa)
Помимо стандартных слогов «согласная + гласная» в хирагане есть, очевидно, знаки для одиноких гласных: あ (a), い (i), う (u), え (e) и お (o).
Плюс, менее очевидно, знак для одинокой буквы «н»: ん.
Не все варианты «согласная + гласная» существуют. Например, для «д» есть формы «da», «de» и «do», но нет «di» и «du». Более того, некоторые согласные смешиваются — в одном ряду стоят «sa», «shi», «su», «se» и «so». Аналогично «ta», «chi», «tsu», «te» и «to». Частично это можно списать на несовершенство транслитерации, но пример ниже с «с» и «ш» показывает, что не только в транслитерации дело.
У некоторых знаков есть малая и большая формы. Но смысл у них не такой, как у заглавных и прописных букв в кириллице или латиннице. Если знак пишется маленьким, значит он читается не как обычно, а выступает в качестве модификатора соседнего знака.
Например, как мы видели выше, для «ш» есть только форма «shi». Для «sha» есть хитрость: если написать «shi», а затем приписать маленький «ya» (в Unicode это рассматривается как отдельная буква, 3084 для обычной ya и 3083 для маленькой), то всё вместе будет читаться как «sha».
しゃ (sha) しや (shiya) — примеры дурацкие, просто для иллюстрации.
Аналогично «shi» + маленькое «yo» = «sho», «shi» + маленькое «yu» = «shu». Аналогично с «ч» — «cho», «cha», «chu». И даже «ryo», «ryu» и «kyo», «kyu» — везде берётся слог на «i» и приписывается маленький слог с «y».
А ещё, если знак «u» идёт непосредственно за слогом, заканчивающимся на «o», то это «о» читается как «о длинное» (транскрибируется как «ô»). И это правило, конечно же, суммируется с предыдущим. Таким образом, чтобы написать «shô», мы пишем «shi» + «маленькое yo» + «u»:
し (shi) しょ (sho) しょう (shô)
Или вот: есть знак つ (tsu). А если его написать маленьким — っ, то это означает удвоение следующей согласной:
いっか (ikka) いつか (itsuka).
Это я пока что на 20 уроке...
no subject
Date: 2017-02-17 10:53 am (UTC)no subject
Date: 2017-02-17 11:01 am (UTC)Наверняка в словарях они идут отдельно, то есть для той же "алфавитной сортировки" нужно чётко понимать, какой символ перед тобой. Это "А" катаканы или "А" хираганы. Как с кириллической и латинской - там вообще буквы одинаковые, но это всё равно две разные буквы.
А так да, теоретически можно было бы считать одной азбукой.
no subject
Date: 2017-02-17 11:11 am (UTC)no subject
Date: 2017-02-17 01:13 pm (UTC)no subject
Date: 2017-02-17 01:19 pm (UTC)no subject
Date: 2017-02-17 02:56 pm (UTC)no subject
Date: 2017-02-19 10:07 am (UTC)no subject
Date: 2017-02-17 11:02 am (UTC)no subject
Date: 2017-02-17 11:22 am (UTC)no subject
Date: 2017-02-17 01:15 pm (UTC)no subject
Date: 2017-02-17 01:19 pm (UTC)И вообще, я так сразу не могу вспомнить ни одного случая удвоения гласной в японском. Не уверен, что они вообще существуют.
no subject
Date: 2017-02-19 10:05 am (UTC)no subject
Date: 2017-02-17 12:19 pm (UTC)no subject
Date: 2017-02-17 01:17 pm (UTC)no subject
Date: 2017-02-17 01:25 pm (UTC)И, кстати, твоё сравнение с "произношением в скобочках" мне кажется очень точным, и в случае седия работает на мой фураганный тезис :).
no subject
Date: 2017-02-17 12:22 pm (UTC)Ты читаешь английский источник. Человеку из языка, где нет палатализации (смягчения), очень трудно понять, что она такое. Ну разве что он профессиональный фонетист. Ты пишешь sh. В японском нет никакого Ш. В японском есть мягкий вариант С, который в разных языках претерпевает чуть разную палатализацию: в русском мягкое С почти не шипящее, в польском оно почти шь. Но не совсем. И не Ш. Ну так ровно то же самое в японском. То, что обозначается ch, и что по-русски правильно передаётся как ть, это то же самое: среднее между русским ть и русским ч (которое мягкое всегда). В японском попросту есть мягкие согласные. Произношение "суси" ближе к оригиналу, хоть и не совсем, чем "суши" (которое очень далеко от него). Там мягкое второе С. Первый элемент в "джиу-джитсу" ровно тот же, что в "дзю-до", и он ближе к "дзю". Польские эквиваленты были бы просто точны.
Если ты послушаешь фильмы Миядзаки, ты услышишь абсолютно разное произношение имени Джулия (Юлька говорит, сейчас очень многие в Японии научились произносить часть английских согласных, в том числе Дж) или слова "энджинир" ( в "Поднимается ветер") и японских слов, где латиницей пишут j, а по--русски пишут ди, дё, дю и т.д.
no subject
Date: 2017-02-17 01:45 pm (UTC)Лично у меня "суси" вызывают ту же реакцию, что транскрипция "эн" для французского "in". Facepalm. Например слово 趣味 нужно произносить как шюми или сюми? Впрочем, наверное - дело вкуса.
no subject
Date: 2017-02-17 02:59 pm (UTC)Русское мягкое Т тоже не то чтобы вполне было мягким Т. Оно, в отличие от французского (но не от квебекского!), содержит "присвист", оно почти мягкое Ц. По-украински даже вроде есть слово "цьвенькать" для просто нормального нашего произношения. Набоков, когда его спрашивали, в чём проявляется русский акцент, говорил "пти" вместо p'tit. Слышно было очень даже. И однако же все согласны, в России и вне, что это один из вариантов мягкого Т. Более того: Д смягчается как Т, но его носовой вариант Н смягчается совершенно иначе, сдвигаясь в сторону ng.
Когда я говорю "я слышу", я имею в виду, что я таки слышу. Бывает лучше, потому что я, скажем, с трудом на слух отличаю k от q в языках, где второе обозначает более горловой звук, и совсем не отличаю часть грузинских согласных (забыл, как называются те, которые без голоса, но с мгновенным освобождением горловой перегородки или как там она), но всё же я слышу сильно лучше среднего.
no subject
Date: 2017-02-17 04:02 pm (UTC)Ну, прост Поливанов был лингвистом и разбирался в вопросах языкознания в отличие от кухонных, дворовых и мамкиных знатоков.
Первое, что вы должны понять - невозможно точно передать японское звучание русскими букавками, для это используют не русские букавки, а специальные закорючки - международный фонетический алфавит.
Второе, у Поливанова мозг был, в отличие от многих его мамкиных критекаф и любителей мультиков для японских детей, и он понимал, что вариант с "ЩИ" за который вы агитируете - сосёт, ибо в японском есть помимо し есть и っし - и что русский человек говоря "ЩИ" изображает именно это っし.
Это куда хуже, чем все недостатки "СИ" - потому "СИ" и лучше.
Про "ШИ", которое у русских всегда "ШЫ" и упоминать нет смысла - это вообще ни вкакие ворота.
no subject
Date: 2017-02-19 10:02 am (UTC)no subject
Date: 2017-02-19 09:57 am (UTC)А как они там это читают - я с подачи того же
no subject
Date: 2017-02-19 10:09 am (UTC)no subject
Date: 2017-02-19 10:15 am (UTC)no subject
Date: 2017-02-20 10:12 am (UTC)no subject
Date: 2017-02-20 10:16 am (UTC)no subject
Date: 2017-02-19 10:17 am (UTC)no subject
Date: 2017-02-20 10:09 am (UTC)no subject
Date: 2017-02-20 10:15 am (UTC)no subject
Date: 2017-02-17 02:02 pm (UTC)Одним из японских знаков, с помощью которого я в детстве и юности отличал японские надписи от китайских иероглифов, был no. Я его "задницей" - по ассоциации с его видом - называл. :)
no subject
Date: 2017-02-19 10:03 am (UTC)