Culturomics
Aug. 29th, 2014 08:38 am
Я когда-то писал об n-gram’ах, а тут автор той рубрики (Jean-Paul Delahaye) выпустил более подробную книгу на эту же тему. Надо брать!Книга немного более полна, чем набор его же статей в журнале (я увидел там следы статьи про n-gram, про задачу рейтинга учёных, про словари чисел и последовательностей, про закон Бенфорда), и, самое главное, хорошо структурирована, плавные переходы от одной темы к другой, связи становятся более понятными.
Очень рекомендую, и с удовольствием дам почитать.
Автор рассматривает вопрос «базового уровня». Есть, оказывается, некий комфортный нам уровень, до которого мы предпочитаем усложнять или упрощать понятия. Например, нормальный человек не будет указывать породу лошади, даже если он знает её, он скажет просто «лошадь». Но при этом он же не обобщит и до «парнокопытного» или «животного». Аналогично «собака», а не «водолаз» (
И наоборот — у каждого общего понятия есть универсальное конкретное представление. Назовите поэта — Пушкин. Представьте себе фрукт — яблоко.
Эти конкретные представления чаще всего обозначают хорошо знакомые нам реализации общего понятия. Но есть и непонятные исключения, так у «птицы» конкретное представление — это очень часто «канарейка». Не «воробей» или «голубь», которых мы видим каждый день, а жёлтая канарейка, которую мы, скорее всего, в жизни никогда не видели.
Автор описывает исследование корпуса текстов на частоту использования разных чисел. В качестве потенциальных проблем приводит пример пика 2044 — это число упоминается в разных книгах существенно чаще, чем, скажем, 2043 или 3044. Объяснение прекрасное — огромная часть книг, оцифрованных google, пришла из библиотеки Гарвардского университета. Штрих-код которого начинается с 2044 — ошибка оцифровки, штрих-код считается частью содержания книги.
Какие-то аномалии легко объясняются, а какие-то не объяснены до сих пор. Есть общее правило — частота упоминания чисел уменьшается с увеличением числа. Есть очевидные исключения «круглых чисел» — их упоминают чаще. Но почему 8 упоминается чаще, чем 7? Причём автор проверял на разных языках, и везде восьмёрка регулярно обгоняла семёрку. Нашему программистскому сердцу 8, конечно же, ближе и круглее. Но за 7 говорит вся мировая религия и мифология.
Цитирует инвертор иррациональных чисел — программу, пытающуюся найти символическую запись для примерной десятичной записи какого-то числа. Тоже развлечение не на одну минуту :-)
Оказывается, во французском языке «миллиард» — это неофициальное название 109, правильное обозначение — это «тысяча миллионов». Декрет 1961 (ещё в силе) определяет названия степеней десятки группами по 6 знаков — миллион (106), биллион (1012), триллион (1018) и т.д. А между ними используются тысячные множители.
Наконец-то я понял путаницу между триллионом, который с 12-ю нулями, и триллионом, который с 18-ю!
Заключительная глава — данных будет всё больше, жизнь гиков будет всё интереснее. Упоминает общественно-политические движения за открытость данных (у читателей Навального в этом месте нервный смех), открытые государством данные. Но при этом уточняет, что из всех данных, выложенных парижской мэрией в открытый доступ, наибольшей популярностью пользуется список мест съёмок художественных фильмов :-)
no subject
Date: 2014-08-29 07:56 am (UTC)no subject
Date: 2014-08-29 08:18 am (UTC)Я - именно жёлтенькую канарейку :-)
no subject
Date: 2014-08-29 08:21 am (UTC)no subject
Date: 2014-08-29 11:53 am (UTC)no subject
Date: 2014-08-29 07:57 am (UTC)А на тот французский триллион, что 10^12, на работе все финансисты говорят mille milliards. Интересно, это только у нас или так везде?
no subject
Date: 2014-08-29 08:18 am (UTC)no subject
Date: 2014-08-29 08:43 am (UTC)"Синяя птица" для меня синяя сойка.
Про миллионы и миллиарды я недавно читала статью в Википедии, оказалось, что слово "биллион" имеет разные значения. От 10 в 9-й до 10 в 12-й. Меня это поразило именно потому, что нарушило основной постулат: в математике всё точно. :)
no subject
Date: 2014-08-29 11:59 am (UTC)Не надо, в математике всё точно! 109 всегда равен 109. А как это же называют филологи / популяризаторы - это уже их проблема :-Р
no subject
Date: 2014-08-29 12:14 pm (UTC)Я говорила про птицу, больше всего походящую на серого скворца. Или сойку без украшений :)
no subject
Date: 2014-08-29 12:16 pm (UTC)no subject
Date: 2014-08-29 12:20 pm (UTC)Только у тебя маленькое желтое, а у меня крупное серое.
Хотя твое представляение мне немного объясняет такое количество канареек в фольклоре. Меня всегда удивляла их популярность при том, что в быту популярнее волнистые попугайчики.
no subject
Date: 2014-08-29 12:29 pm (UTC)no subject
Date: 2014-08-29 02:42 pm (UTC)no subject
Date: 2014-09-01 05:13 am (UTC)no subject
Date: 2014-09-01 07:50 am (UTC)no subject
Date: 2014-09-01 08:03 am (UTC)Кстати, оффтоп, давно хотела спросить, твои родители уехали из Донецка? Можешь скрыть коммент, если что.
no subject
Date: 2014-09-01 08:07 am (UTC)no subject
Date: 2014-09-01 08:08 am (UTC)Вы, наверное, даже связаться с ними не можете.
no subject
Date: 2014-09-01 08:14 am (UTC)no subject
Date: 2014-08-29 03:51 pm (UTC)no subject
Date: 2014-08-29 12:58 pm (UTC)no subject
Date: 2014-08-29 02:45 pm (UTC)no subject
Date: 2014-08-29 03:16 pm (UTC)no subject
Date: 2014-08-29 09:06 pm (UTC)