green_fr | Pour la Science № 489 — закон Бенфорда

Я когда-то давно наткнулся на описание закона Бенфорда, он мне сразу же понравился, но оставалось какое-то ощущение недосказанности. В общих чертах понятно, откуда он берётся*, но хотелось конкретики. И вот в журнале статья с разоблачением магии :-)

Начнём с определения записи для целой части [x] и части после запятой {x}. Очевидно, x = [x] + {x}.
Плюс постулат (вот здесь потенциально грабли, но авторы утверждают, что они этот вопрос проработали, да и лично меня такие постулаты на веру устраивают), что у нас есть некоторое достаточно широкое распределение, у которого запись после запятой распределена достаточно равномерно. Имеется в виду, например, рост человека, выраженный в сантиметрах — тогда распределение количества миллиметров роста (первая цифра после запятой в десятичной записи) можно принять за равномерное. Точнее даже, что вся запись после запятой {x} распределена равномерно. То есть, вероятность попадания {x} в некий интервал [a; b] пропорциональна длине этого интервала b-a.

А дальше дело техники. Рассмотрим log₁₀(x). В том же приближении у этого числа запись после запятой тоже будет распределена равномерно. Например, вероятность попадания log₁₀(C) ≤ {log₁₀(x)} < log₁₀(C + 1) пропорциональна log₁₀(C + 1) — log₁₀(C).
При этом можно показать, что если первая значащая цифра x равна C, то log₁₀(C) ≤ {log₁₀(x)} < log₁₀(C + 1). Это можно доказывать, а можно «увидеть» на примере: {log₁₀(7234)} = log₁₀(7234) — [log₁₀(7234)] = log₁₀(7234) — [3,8593...] = log₁₀(7234) — 3 = log₁₀(7234) — log₁₀(1000) = log₁₀(7234 / 1000) = log₁₀(7,234), а поскольку логарифм — возрастающая функция, то log₁₀(7) ≤ log₁₀(7,234) < log₁₀(8).
Мы доказали, что (в указанном допущении о равномерности распределения дробной части) вероятность для x иметь первую цифру C равняется log₁₀(C + 1) — log₁₀(C). Это и есть определение закона Бенфорда.

И это доказательство открывает дверь для других вариантов. Кто нас заставляет брать функцию десятичного логарифма? Исключительно простота интерпретации с первой цифрой десятичной записи. Авторы показывают варианты закона Бенфорда с другими функциями. Которые тоже можно использовать для детекции фальсификации на выборах, когда жулики научатся подтасовывать первую цифру.

* Мне нравилось объяснение «на пальцах» вроде: если на улице есть дом № 43, скорее всего, на этой же улице есть дом № 15, обратное верно не всегда. А также объяснение через существование: предположим такое распределение существует, тогда оно должно оставаться инвариантным относительно смены масштаба (перепишем все суммы в евро франками — закон продолжает действовать), откуда можно вывести аналитическую форму закона. Но ни то, ни другое формально не объясняло природу закона Бенфорда.

Очень понравилась историческая справка о том, что закон Бенфорда открыл астроном, заметивший, что первые страницы таблицы логарифмов более затёртые — ими пользуются чаще, потому что чаще выпадают числа на «1», чем на «2», и т.д.

Threaded | Top-Level Comments Only

From:

pavel svinarev (from livejournal.com)

Кайф! Кусочек хорошего настроения с утра. Спасибо!

xxxxx.livejournal.com

log₁₀© -- знатная формула

green-fr.livejournal.com

Бгггг :-) Тёмин Типограф перемудрил, а я не вычитал. Правлю немедленно!

Зачем? Так лучше ж!

oldjackaroo.livejournal.com

Когда-то, лет 10-15 назад, я читал о том, что ATO (Australian Taxation Office, а не то, что вы подумали) разработал ряд эмпирических правил, по которым налоговая декларация помечается как подозрительная с повышенной вероятностью аудита (все налоговые органы имеют такие правила). Одним из правил было как раз проверка распределения первой цифры в квитанциях бизнес-затрат: если оно близко к равномерному, то с большой вероятностью затраты выдуманы.

Да, это как раз классическое применение закона. Всё, что я о нём читал, начиналось именно с "тот самый закон, которым ловят жуликов".

alexanderr.livejournal.com

очевидно, что есть куча контр-примеров

вот я заполняю MTA card до полной, там $100 максимум.
понятно, что я это делаю не часто, мне лень и обычно
когда карточка уже почти пустая. т.е. мои выплаты там
все районе 90 долларов, но бывает и 80, бывает и 70
и 60. но никогда не бывает меньше 20.

т.е. там ровно наоборот чаще всего встретится 9
а 1 не встретится почти никогда, 2 крайне редко

Естественно. Классический пример - рост человека в сантиметрах. Он никогда не начинается с 3. Тут как обычно - нужно чётко понимать область применимости закона.

окей, а у него вообще есть четкая формулировка? в википедии я не нашел, кроме слова "naturally occurring"

которое мы уже опровергли нашими примерами. они оба были вполне natural

Формального я не видел, авторы оперируют (https://journals.openedition.org/msh/11034) терминами régulier et étalé, то есть дословно "регулярный и широкий", а наши оба примера не попадают под это определение (моё не широкое, твоё ещё и не регулярное, с явным стремлением к 100 снизу).
Точнее, они дают формальное определение - распределение, дроная часть логарифма которого равномерно распределена :-) Но это именно что формальное определение. Понять по нему, какое реально встречающееся в жизни распределение попадает под него, невозможно.

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

It's all in your mind

Pour la Science № 489 — закон Бенфорда

Pour la Science № 489 — закон Бенфорда

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

March 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags