green_fr: (Default)
[personal profile] green_fr
Много раз видел результаты google Ngram, но ни разу сам не игрался, а тут замечательная статья о них. В двух словах — создан корпус текстов на разных языках (грубо говоря, отсканировали кучу книжек), по которому можно искать и анализировать употребление тех или иных слов.

Поскольку автор статьи — математик (это всё тот же Jean-Paul Delahaye развлекается, которого я регулярно цитирую, и которого называю французским коллегой Мартина Гарднера), первый поиск — по цифрам (я все поиски перевёл на русский корпус).


По теории здесь можно наблюдать закон Бенфорда (чем бы мы не мерили что бы то ни было, чаще всего результат будет начинаться с единицы), но «круглость» пятёрки выкидывает её чуть выше четвёрки.
Это легко исправляется другим поиском (в статье приводится пример с 135, 235 и т.д., но по-русски он тоже выкидывает 535 выше 435, я так и не понял, почему, поэтому сжульничал :->)

Другой пример, когда кривые имеют совершенно другую форму — поиск по годам. Очевидно, что упоминание каждого конкретного года растёт с приближением к этому году, а затем постепенно спадает. Во французской версии чётко виден эффект 1968 года, упоминание которого спадало существенно медленнее (и сейчас о нём говорят чаще, чем о любом другом годе того десятилетия), русская же версия выпячивает 1965-й — то ли из-за пятилеток, то ли 20-летие Победы.

Ещё один красивый поиск — по дням недели. Во-первых, видно наличие второго смысла у слова «среда» (с «воскресеньем» непонятно, т.к. по-французски оно тоже вырывается вверх — по воскресеньям больше всего происходит, об этом чаще пишут). Во-вторых, видна реформа русского языка 1918 года, а также слова, которые она затронула (если кто-нибудь знает, как писался «понедельник» до реформы, интересно было бы взглянуть на его кривую).

Поиск сильно затрудняет склонение в русском языке — система пока что не принимает во внимание тот факт, что «понедельник» и «понедельнику» — это одно и то же слово. Во французском с этим проще.
Вторая проблема — буква «ё», которая в половине случаев пишется как «е». Автор проводит сравнение частот упоминаний математиков (Тьюринг, Гёдель, Кантор и Бурбаки), которое из-за этих двух факторов практически нереально повторить по-русски.

Ещё один график — использование слова «война». Хорошо видны периоды, когда Россия воевала с кем-то.

Поиск по главам государства — история страны как на ладони. Вот смерть Сталина. Вот скромный холмик Хрущёва — никакого культа личности. Вот период, когда о Хрущёве уже, а о Брежневе ещё не пишут — тут же Ленин идёт вверх (ну и 100-летие со дня рождения, конечно, помогает). Вот перестройка, Сталина опять вытащили на первые полосы, а Ленин стал откровенно немодным.

Какой простор для игр, оказывается!

Date: 2011-09-01 08:13 am (UTC)
From: [identity profile] catpad.livejournal.com
Я как-то проводил исследование использования определённого артикля the на этой штуке. Оказалось, что его употребление сильно снизилось в последнее время, видимо, из-за ослаблений правил грамматики.

Простор для бесстрашных исследователей тут, конечно, бесконечный.

Date: 2011-09-01 12:39 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Посмотрел несколько первых страниц книг с "мартом", есть несколько вариантов:
1. Дореволюционная орфография у марта была такая же, как и сейчас, а другие месяцы (апрель и июнь как минимум) изменились. При этом google ставит дату выхода книги, а не написания, поэтому в 1990-х есть и дореволюционные книги.
2. Март может быть корнем слов и имён.
3. Более длинные названия месяцев сокращают, например могут написать "март - апр."

Меня в этом графике скорее заинтересовал вопрос, почему в 1990-1996 годах так много писали про разные месяцы?

Date: 2011-09-01 12:49 pm (UTC)
From: [identity profile] chingachguk.livejournal.com
я бы честно ожидал, что в советское время и перестройку с диким отрывом должен был бы выигрывать октябрь, но ведь нет. Март до революции писался мартъ, так что отличия были. Май тоже не сокращают, как и март.

Date: 2011-09-01 01:07 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Подумал было о склонении, попробовал «января, февраля, ...» - тот же самый результат. Только «марта» ещё и именем стало :-)

спасибо

Date: 2011-09-01 11:44 am (UTC)
From: [identity profile] yuriyag.livejournal.com
Кайф. )

Date: 2011-09-01 01:53 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Только надо заглавные буквы ставить, поиск case-insensitif: http://ngrams.googlelabs.com/graph?content=%D0%AE%D0%BB%D1%8F%2C%D0%9B%D0%B5%D0%BD%D0%B0%2C%D0%9D%D0%B0%D1%82%D0%B0%D1%88%D0%B0%2C%D0%9E%D0%BB%D1%8F%2C%D0%9C%D0%B0%D1%88%D0%B0&year_start=1900&year_end=2000&corpus=12&smoothing=3

Date: 2011-09-01 01:53 pm (UTC)
From: [identity profile] green-fr.livejournal.com
В смысле, sensitif :-)

Profile

green_fr: (Default)
green_fr

January 2026

S M T W T F S
    123
4 5 6 7 8 910
11121314151617
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 10th, 2026 12:37 am
Powered by Dreamwidth Studios