green_fr: (Default)
[personal profile] green_fr
Я когда-то давно наткнулся на описание закона Бенфорда, он мне сразу же понравился, но оставалось какое-то ощущение недосказанности. В общих чертах понятно, откуда он берётся*, но хотелось конкретики. И вот в журнале статья с разоблачением магии :-)

Начнём с определения записи для целой части [x] и части после запятой {x}. Очевидно, x = [x] + {x}.
Плюс постулат (вот здесь потенциально грабли, но авторы утверждают, что они этот вопрос проработали, да и лично меня такие постулаты на веру устраивают), что у нас есть некоторое достаточно широкое распределение, у которого запись после запятой распределена достаточно равномерно. Имеется в виду, например, рост человека, выраженный в сантиметрах — тогда распределение количества миллиметров роста (первая цифра после запятой в десятичной записи) можно принять за равномерное. Точнее даже, что вся запись после запятой {x} распределена равномерно. То есть, вероятность попадания {x} в некий интервал [a; b] пропорциональна длине этого интервала b-a.

А дальше дело техники. Рассмотрим log10(x). В том же приближении у этого числа запись после запятой тоже будет распределена равномерно. Например, вероятность попадания log10(C) ≤ {log10(x)} < log10(C + 1) пропорциональна log10(C + 1) — log10(C).
При этом можно показать, что если первая значащая цифра x равна C, то log10(C) ≤ {log10(x)} < log10(C + 1). Это можно доказывать, а можно «увидеть» на примере: {log10(7234)} = log10(7234) — [log10(7234)] = log10(7234) — [3,8593...] = log10(7234) — 3 = log10(7234) — log10(1000) = log10(7234 / 1000) = log10(7,234), а поскольку логарифм — возрастающая функция, то log10(7) ≤ log10(7,234) < log10(8).
Мы доказали, что (в указанном допущении о равномерности распределения дробной части) вероятность для x иметь первую цифру C равняется log10(C + 1) — log10(C). Это и есть определение закона Бенфорда.

И это доказательство открывает дверь для других вариантов. Кто нас заставляет брать функцию десятичного логарифма? Исключительно простота интерпретации с первой цифрой десятичной записи. Авторы показывают варианты закона Бенфорда с другими функциями. Которые тоже можно использовать для детекции фальсификации на выборах, когда жулики научатся подтасовывать первую цифру.

* Мне нравилось объяснение «на пальцах» вроде: если на улице есть дом № 43, скорее всего, на этой же улице есть дом № 15, обратное верно не всегда. А также объяснение через существование: предположим такое распределение существует, тогда оно должно оставаться инвариантным относительно смены масштаба (перепишем все суммы в евро франками — закон продолжает действовать), откуда можно вывести аналитическую форму закона. Но ни то, ни другое формально не объясняло природу закона Бенфорда.


Очень понравилась историческая справка о том, что закон Бенфорда открыл астроном, заметивший, что первые страницы таблицы логарифмов более затёртые — ими пользуются чаще, потому что чаще выпадают числа на «1», чем на «2», и т.д.

Date: 2018-09-11 10:13 am (UTC)
From: [identity profile] pavel svinarev (from livejournal.com)
Кайф! Кусочек хорошего настроения с утра. Спасибо!

Date: 2018-09-11 01:29 pm (UTC)
From: [identity profile] xxxxx.livejournal.com
log10© -- знатная формула

Date: 2018-09-11 02:31 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Бгггг :-) Тёмин Типограф перемудрил, а я не вычитал. Правлю немедленно!

Date: 2018-09-11 02:33 pm (UTC)
From: [identity profile] xxxxx.livejournal.com
Зачем? Так лучше ж!

Date: 2018-09-11 07:08 pm (UTC)
From: [identity profile] oldjackaroo.livejournal.com
Когда-то, лет 10-15 назад, я читал о том, что ATO (Australian Taxation Office, а не то, что вы подумали) разработал ряд эмпирических правил, по которым налоговая декларация помечается как подозрительная с повышенной вероятностью аудита (все налоговые органы имеют такие правила). Одним из правил было как раз проверка распределения первой цифры в квитанциях бизнес-затрат: если оно близко к равномерному, то с большой вероятностью затраты выдуманы.

Date: 2018-09-11 08:51 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Да, это как раз классическое применение закона. Всё, что я о нём читал, начиналось именно с "тот самый закон, которым ловят жуликов".

Date: 2018-09-12 12:04 am (UTC)
From: [identity profile] alexanderr.livejournal.com
очевидно, что есть куча контр-примеров

вот я заполняю MTA card до полной, там $100 максимум.
понятно, что я это делаю не часто, мне лень и обычно
когда карточка уже почти пустая. т.е. мои выплаты там
все районе 90 долларов, но бывает и 80, бывает и 70
и 60. но никогда не бывает меньше 20.

т.е. там ровно наоборот чаще всего встретится 9
а 1 не встретится почти никогда, 2 крайне редко

Date: 2018-09-12 07:13 am (UTC)
From: [identity profile] green-fr.livejournal.com
Естественно. Классический пример - рост человека в сантиметрах. Он никогда не начинается с 3. Тут как обычно - нужно чётко понимать область применимости закона.

Date: 2018-09-12 12:50 pm (UTC)
From: [identity profile] alexanderr.livejournal.com
окей, а у него вообще есть четкая формулировка? в википедии я не нашел, кроме слова "naturally occurring"

которое мы уже опровергли нашими примерами. они оба были вполне natural

Date: 2018-09-12 01:20 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Формального я не видел, авторы оперируют (https://journals.openedition.org/msh/11034) терминами régulier et étalé, то есть дословно "регулярный и широкий", а наши оба примера не попадают под это определение (моё не широкое, твоё ещё и не регулярное, с явным стремлением к 100 снизу).
Точнее, они дают формальное определение - распределение, дроная часть логарифма которого равномерно распределена :-) Но это именно что формальное определение. Понять по нему, какое реально встречающееся в жизни распределение попадает под него, невозможно.

Profile

green_fr: (Default)
green_fr

March 2026

S M T W T F S
1234567
8 91011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 10th, 2026 04:05 pm
Powered by Dreamwidth Studios