Pour la Science (№ 406) — Ngram
Sep. 1st, 2011 10:01 amМного раз видел результаты google Ngram, но ни разу сам не игрался, а тут замечательная статья о них. В двух словах — создан корпус текстов на разных языках (грубо говоря, отсканировали кучу книжек), по которому можно искать и анализировать употребление тех или иных слов.
Поскольку автор статьи — математик (это всё тот же Jean-Paul Delahaye развлекается, которого я регулярно цитирую, и которого называю французским коллегой Мартина Гарднера), первый поиск — по цифрам (я все поиски перевёл на русский корпус).

По теории здесь можно наблюдать закон Бенфорда (чем бы мы не мерили что бы то ни было, чаще всего результат будет начинаться с единицы), но «круглость» пятёрки выкидывает её чуть выше четвёрки.
Это легко исправляется другим поиском (в статье приводится пример с 135, 235 и т.д., но по-русски он тоже выкидывает 535 выше 435, я так и не понял, почему, поэтому сжульничал :->)
Другой пример, когда кривые имеют совершенно другую форму — поиск по годам. Очевидно, что упоминание каждого конкретного года растёт с приближением к этому году, а затем постепенно спадает. Во французской версии чётко виден эффект 1968 года, упоминание которого спадало существенно медленнее (и сейчас о нём говорят чаще, чем о любом другом годе того десятилетия), русская же версия выпячивает1965-й — то ли из-за пятилеток, то ли 20-летие Победы.
Ещё один красивый поиск — по дням недели. Во-первых, видно наличие второго смысла у слова «среда» (с «воскресеньем» непонятно, т.к. по-французски оно тоже вырывается вверх — по воскресеньям больше всего происходит, об этом чаще пишут). Во-вторых, видна реформа русского языка 1918 года, а также слова, которые она затронула (если кто-нибудь знает, как писался «понедельник» до реформы, интересно было бы взглянуть на его кривую).
Поиск сильно затрудняет склонение в русском языке — система пока что не принимает во внимание тот факт, что «понедельник» и «понедельнику» — это одно и то же слово. Во французском с этим проще.
Вторая проблема — буква «ё», которая в половине случаев пишется как «е». Автор проводит сравнение частот упоминаний математиков (Тьюринг, Гёдель, Кантор и Бурбаки), которое из-за этих двух факторов практически нереально повторить по-русски.
Ещё один график — использование слова «война». Хорошо видны периоды, когда Россия воевала с кем-то.
Поиск по главам государства — история страны как на ладони. Вот смерть Сталина. Вот скромный холмик Хрущёва — никакого культа личности. Вот период, когда о Хрущёве уже, а о Брежневе ещё не пишут — тут же Ленин идёт вверх (ну и100-летие со дня рождения, конечно, помогает). Вот перестройка, Сталина опять вытащили на первые полосы, а Ленин стал откровенно немодным.
Какой простор для игр, оказывается!
Поскольку автор статьи — математик (это всё тот же Jean-Paul Delahaye развлекается, которого я регулярно цитирую, и которого называю французским коллегой Мартина Гарднера), первый поиск — по цифрам (я все поиски перевёл на русский корпус).
По теории здесь можно наблюдать закон Бенфорда (чем бы мы не мерили что бы то ни было, чаще всего результат будет начинаться с единицы), но «круглость» пятёрки выкидывает её чуть выше четвёрки.
Это легко исправляется другим поиском (в статье приводится пример с 135, 235 и т.д., но по-русски он тоже выкидывает 535 выше 435, я так и не понял, почему, поэтому сжульничал :->)
Другой пример, когда кривые имеют совершенно другую форму — поиск по годам. Очевидно, что упоминание каждого конкретного года растёт с приближением к этому году, а затем постепенно спадает. Во французской версии чётко виден эффект 1968 года, упоминание которого спадало существенно медленнее (и сейчас о нём говорят чаще, чем о любом другом годе того десятилетия), русская же версия выпячивает
Ещё один красивый поиск — по дням недели. Во-первых, видно наличие второго смысла у слова «среда» (с «воскресеньем» непонятно, т.к. по-французски оно тоже вырывается вверх — по воскресеньям больше всего происходит, об этом чаще пишут). Во-вторых, видна реформа русского языка 1918 года, а также слова, которые она затронула (если кто-нибудь знает, как писался «понедельник» до реформы, интересно было бы взглянуть на его кривую).
Поиск сильно затрудняет склонение в русском языке — система пока что не принимает во внимание тот факт, что «понедельник» и «понедельнику» — это одно и то же слово. Во французском с этим проще.
Вторая проблема — буква «ё», которая в половине случаев пишется как «е». Автор проводит сравнение частот упоминаний математиков (Тьюринг, Гёдель, Кантор и Бурбаки), которое из-за этих двух факторов практически нереально повторить по-русски.
Ещё один график — использование слова «война». Хорошо видны периоды, когда Россия воевала с кем-то.
Поиск по главам государства — история страны как на ладони. Вот смерть Сталина. Вот скромный холмик Хрущёва — никакого культа личности. Вот период, когда о Хрущёве уже, а о Брежневе ещё не пишут — тут же Ленин идёт вверх (ну и
Какой простор для игр, оказывается!
no subject
Date: 2011-09-01 08:13 am (UTC)Простор для бесстрашных исследователей тут, конечно, бесконечный.
no subject
Date: 2011-09-01 11:25 am (UTC)no subject
Date: 2011-09-01 12:39 pm (UTC)1. Дореволюционная орфография у марта была такая же, как и сейчас, а другие месяцы (апрель и июнь как минимум) изменились. При этом google ставит дату выхода книги, а не написания, поэтому в 1990-х есть и дореволюционные книги.
2. Март может быть корнем слов и имён.
3. Более длинные названия месяцев сокращают, например могут написать "март - апр."
Меня в этом графике скорее заинтересовал вопрос, почему в 1990-1996 годах так много писали про разные месяцы?
no subject
Date: 2011-09-01 12:49 pm (UTC)no subject
Date: 2011-09-01 01:07 pm (UTC)спасибо
Date: 2011-09-01 11:44 am (UTC)no subject
Date: 2011-09-01 01:51 pm (UTC)можно смотреть на популярность в литературе различных имен
no subject
Date: 2011-09-01 01:53 pm (UTC)no subject
Date: 2011-09-01 01:53 pm (UTC)