green_fr | Weapons of Math Destruction

Прочитал (спасибо

wildest_honey!) книжку про риски применения математических алгоритмов в разных областях. Автор вводит вынесенный в название книги термин WMD, который каким-то образом даже определяет: это такая мат. модель, которая много на что влияет, широко распространена, но никому не понятна, и при этом у неё отсутствуют вменяемые механизмы обратной связи — уже по определению видно, что книга написана не для восхваления математических моделей. А дальше автор рассматривает разные примеры, ругает их — иногда за дело, а иногда я даже не мог понять, за что именно она прицепилась конкретно к этой модели. Зачастую было просто карикатурно, когда автор начинает описывать какую-то контору, нагнетая атмосферу осуждения: у них женщин притесняют, они CO₂ в атмосферу выбрасывают, у них кофе невкусный, и — вы не поверите! — у них есть ещё и (ужасные, конечно же) математические модели. Какая разница, был ли расистом человек, допустивший ошибку subprimes? Автору есть разница, мне — нет.

То есть, читать советую только по диагонали, со включенным фильтром провокаций и манипуляций. Но читать, потому что тема, конечно, важная, и фактов она там накопала достаточно. Постараюсь пересказать то, что заинтересовало лично меня.

1. Самая главная, наверное, тема — это совместимость «справедливости» и «эффективности». Классический пример: у нас есть какой-то алгоритм, предсказывающий качества человека по его окружению. Например, чем больше у заключённого знакомых рецидивистов — тем больше шанс, что он тоже вернётся в тюрьму. Чем больше у офисного работника друзей офисных работников — тем больше шанс, что и он сможет прижиться в офисе. Эффективность таких алгоритмов иногда хромает, но предположим, что они работают. Очевидно же, что они «несправедливые» (кавычки здесь и везде, где будет использоваться это слово, чтобы не писать каждый раз «найдётся человек, считающий справедливым нечто, не совместимое с» — зачастую таких людей будет очень много, то есть мы не только о фриках говорим), в том смысле, что эти алгоритмы не дают шанса вырваться из порочного круга.
У нас есть прекрасный друг, родившийся и выросший в очень плохом пригороде Парижа, он регулярно для шутки «включает гопника», разговаривая так, как говорили у них на раёне — он оттуда вырвался. Потому что боженька дал ему мозгов, потому что ему повезло с интересами (заинтересуйся он вместо компьютеров синтезом наркотиков, вырваться было бы сложнее), потому что ему нравилось пахать в школе — повезло, одним словом. Таких мало. И очень жаль закрывать им путь такими вот «эффективными» алгоритмами.

В этом месте автор упоминает презумпцию невиновности. И мне это кажется интересным, потому что мы все, наверное, поддерживаем принцип: не доказана вина — считаем, что не виноват. Но в чём состоит цель и смысл презумпции невиновности в терминах эффективности и справедливости? Это именно возможная жертва первым ради второго — мы скорее согласны выпустить на свободу преступника, вина которого не доказана, ради того, чтобы случайно не посадить за решётку невиновного. А как только мы меняем термины «свобода / тюрьма» на «работа / безработица», то уже не все согласны жертвовать эффективностью ради справедливости.

2. Лично у меня в этом вопросе нарисовалось мнение о разделении ролей частного бизнеса и государства. Глупо обвинять частную компанию в том, что она оптимизирует свою прибыль — понятно, что есть какие-то высокодуховные исключения, но для простоты лучше считать, что бизнес создаётся с целью получения прибыли, точка. Поэтому конечно же нужно иметь в виду, что компании используют и будут использовать критерий эффективности, а критерий справедливости придёт к ним только в том случае, если от него будет зависеть эффективность: например, если покупатели дружно скажут «не хотим покупать кроссовки, сделанные детьми во Вьетнаме», то Nike перестанет нанимать детей во Вьетнаме. Но не надо ждать, что он сделает это во имя идеала. Во имя не поддержанного / не востребованного обществом идеала он разорится, потому Reebok будет продолжать продавать свои, сделанные вьетнамскими детьми кроссовки дешевле.

Другое дело — государство (для любителей вычёркивать это слово заменим его на «массовую гражданскую инициативу» — не обязательно быть государством, чтобы поднять волну против вьетнамского детского труда). Оно может учитывать критерии справедливости, чтобы потом пытаться влиять на выбор критериев частными компаниями. Либо законом / запретом (вариант государства), либо личным выбором / бойкотом (общество).

Красивый пример из книги с компанией, которая устраивала своим работникам рабочие недели по 29 часов, потому что начиная с 30-часовой недели работодатель обязан оплачивать работнику медицинскую страховку. Наивно ждать от работодателя филантропии, ещё наивнее ждать появления кофейни, где будет кофе на 30 копеек дороже, зато работники — со страховкой (никто не будет проверять 100500 критериев перед каждым заказом кофе, все смотрят только на цену). Но вполне можно остановится один раз, подумать, принять решение — мы готовы всегда платить дороже за кофе, в обмен на знание, что у работников будет страховка? И если да — то принять такое решение.

3. Ещё одна сквозная (и переплетающаяся с предыдущей) тема — это самореализующиеся пророчества. Вот предположим, мы забили на «справедливость» и применяем «эффективный» алгоритм, говорящий нам о вероятности рецидива. Этот алгоритм не выпустит досрочно человека из дурного пригорода, где каждый второй сидел (нам в школе рассказывали, что в Донецкой области каждый десятый сидел, а у каждого третьего проблемы с алкоголем), он останется в тюрьме подольше, подольше пообщается с рецидивистами, они его научат — и алгоритм окажется прав! Другой алгоритм скажет, что бедный человек чаще не возвращает кредит — ему на автомате повышают ставку, что очевидным образом снизит шанс, что человек сможет его выплатить. Алгоритм снова прав!

Проблема здесь не только в «справедливости» (иначе я бы не выносил это в отдельный пункт), а и в положительной обратной связи, которая приводит модель в соответствие с реальным миром, но делает это не настройкой модели, а изменением окружающего мира. Откуда, собственно, важность степени распространения модели в определении WMD — судя по описанному автором, у нас уже есть модели, покрывающие все Штаты (кредитная история), если не весь мир (профилирование Фейсбука). На эту тему было несколько прекрасных серий в Black Mirror — общество, в котором нет возможности отмыться от единожды поставленного на тебя клейма «лузер».

При этом очень сложно не впасть в критику, когда ты сравниваешь существующий неидеальный алгоритм с идеальным, но несуществующим. Нужно всегда понимать, какая у нас есть реальная альтернатива. Если мы прикроем автоматический рейтинг на выдачу кредитов, означает ли это, что все досье будут разбирать мудрые специалисты? Нет, конечно. Это означает, что львиную долю досье разбирать вообще не будут. А оставшиеся передадут людям, квалификация которых зачастую позволит в лучшем случае воспроизвести ошибки автомата: Жан-Поль? — бери кредит! Мохамед Али? — следующий!

4. Проблема отсутствия обратной связи. В классических моделях у нас всегда есть возможность ошибиться, но при этом система должна знать, что она ошиблась — как минимум для того, чтобы поставить под сомнения / проанализировать другие её решения, а в лучшем случае — для того, чтобы улучшить настройки алгоритма. Во многих системах такую обратную связь сделать невозможно или неподъёмно сложно. Да, в случае с советами покупки на amazon всё просто — у нас тут же есть индикатор, показывающий, сколько покупок совершено по нашим рекомендациям. А в системе рейтинга учителей? Вот посчитали мы учителя плохим и уволили его — как кто может узнать, что это была ошибка? Не дали кредит — можно теоретически проследить, вдруг кто-то другой даст кредит, и посмотреть, вернётся ли кредит в итоге (сложно, но можно). А с работником? Не наняли — и что? Отслеживать, вдруг его наймёт кто-то настолько похожий на нас, чтобы сравнения имели смысл?

В итоге у нас имеется какое-то количество моделей, результативность которых покоится на каких-то вложенных в них их создателями аксиомах, но которая не проверяется регулярно. Никакого backtesting не предусмотрено даже в теории.

5. Дальше несколько очевидных проблем, но я всё равно хотел бы их отметить.

Проблема proxy, когда нужную нам категорию сложно измерить, и мы поменяем её на прокси. Ну вот то же наличие друзей рецидивистов как прокси отношения человека к преступлению. Прокси от прокси — почтовый индекс человека (плюс данные о количестве рецидивистов с этих почтовым индексом) как прокси количества друзей-рецидивистов (а то какой же дурак будет положительно отвечать на вопрос, который оставит тебя в тюрьме ещё на год).

И снова, прокси — это лучше, чем ничего. Особенно, если не задумываться о «справедливости». Но в отдельную категорию я вынес из-за приведённых в книге примеров алгоритмов, использующих прокси там, где у нас есть нормальные данные. Вот тот же почтовый индекс вместо (да или хотя бы вместе) кредитной истории — для оценки вероятности выплаты кредита.

Сюда же «коллективная ответственность». Нам редко нравится, когда нас принимают не за тех, кто мы есть, а за тех, на кого мы похожи. Ты — русский, а значит алкоголик, оккупант, коммунист.

6. Другая проблема, просто она тоже называется «прокси», заключается в том, что мы вообще пытаемся описать сложную вещи простым индикатором. Например, строим «рейтинг ВУЗов». Очевидно же, что у каждого свои критерии, и параметров там десятки. Но нет, как пошла мода на эти пузомерки, так она и раскручивается. При том, что она попутно ещё и запускает механизм самореализации: чем круче по рейтингу ВУЗ, тем больше туда идёт абитуриентов, тем более строгий отбор, и в итоге там остаются более способные студенты (аналогично с преподавателями, со спонсорами и пр.) — ура, в следующем году рейтинг будет ещё выше!

7. Проблема малой выборки. Отличный пример с алгоритмом оценки учителя по оценкам учеников. Если у тебя миллион учеников, то по среднему уровню можно что-то понять. А если их всего 20? У кого-то брата в тюрьму посадили, у кого-то родители разводятся — всё это влияет на успеваемость, и совершенно от тебя не зависит! Более того, современные алгоритмы учитывают не просто оценки учеников (это показывает общий уровень класса: если к тебе умные дети пришли, то их высокие оценки через год — это не только твоя заслуга), а отклонение реальных оценок после года обучения от оценок, предсказанных по данным начала года. Тут волятильность на порядки выше (автор вообще проходится по тому, что это уже не переменная, а шум, который при усреднении должен выходить в ноль — но это к вопросу об уровне аргументации автора), а количество учеников всё так же мало. В итоге в книге рассказывают об учителе, получившем 9/100 в одном году и 96/100 в другом — по его словам он ничего особенного не делал ни в первый, ни во второй год, это просто разброс ошибки метода.

8. Проблема данных. Классическое «дерьмо на входе может давать только дерьмо на выходе». В случае с теми же учителями и оценками учеников — в начале года учитель получает детей от преподавателя, учившего их в прошлом году, и кто сказал, что тот преподаватель нарочно не завысил оценки? То ли просто добрый, то ли себе рейтинг вытягивал, то ли у него критерии другие. Так мы постепенно сваливаемся в идею единого экзамена, анонимной проверки, всеобщего ЕГЭ — здравствуй, проблема прокси. Вместо оценки способностей к математике мы оцениваем способность выбирать правильные ответы из предложенных.

9. Отдельная тема — Америка. Книга американская, написанная на американских реалиях. Не об Америке, но по упомянутым деталям можно восстанавливать какие-то пласты американской жизни, и получается забавно.

Например, среднее состояние у 40% беднейших американцев −14800$. Это не тире это минус — долг. И это не просто «кредит на недвижимость», ему как раз соответствует сама недвижимость, результат должен быть положительным. В книге чётко проговаривают — это за счёт отрицательного баланса на кредитных карточках. В редких случаях кредит на обучение (купленный за него актив сложно учитывать в бухгалтерии).

Или вот. Автор гневно рассказывает о практиках университетов, привлекающих абитуриентов только ради денег: 80% их бюджета идёт на рекламу и прибыль владельца, на сдачу пытаются как-то учить. О ужас, говорит автор, директор одного такого университета за год заработал 25 миллионов — в приличном ВУЗе такую зарплату может иметь разве только тренер футбольной или баскетбольной сборной. Я такой: чего?!!

Расовая политика и расовая сегрегация — из Франции очень интересно читать об этом. Здесь вообще вопрос в анкете «ты белый или чёрный» запрещён, а в Америке, похоже, он не просто популярен, но и наверняка имеются какие-то правила, что отвечать, если у тебя две бабушки-негритянки, один дедушка белый, а второй — мексиканец. Может, конечно, у них расы так и не смешиваются, несмотря на заявленный плавильный котёл. Но то, что есть достаточно точные расовые статистики и расовая география, меня удивило и в книге, и в анализах недавних президентских выборов. Очень интересно, конечно!

Смысл расовой статистики в Америке при этом понятен — из этой же книги следует, что в 60 лет средний белый американец более чем в 10 раз богаче среднего чёрного американца. Сложно, конечно, представить такое общество. С другой стороны, интересно, что было бы видно во Франции, если бы подобная статистика существовала?

10. Давно слышал выражение «преступление без жертвы» и не до конца понимал логику. Какая разница, думал я, есть жертва или нет, осознаёт ли она, что она жертва — если есть нарушение. Здесь красиво разжевали: если у нас есть программа, управляющая полицейскими патрулями, то она скорее будет направлять машины в кварталы, где чаще происходят правонарушения. Чем больше там будет полицейских — тем больше будет обнаружено преступлений, которые без этих патрулей никто не заметил бы: подростки с пивом, марихуана и т.п. И даже если мы активно против потребления алкоголя малолетними и курения марихуаны, очень сложно считать, что преступность в этом квартале выросла только потому, что там теперь ездит больше машин, и там арестовывают больше людей. Не преступность выросла, а обнаружение тех самых «преступлений без жертвы».

Читатель (я!) в этом месте практически приготовился сказать: ну так и здорово, если мы проедем по бедному кварталу и арестуем кучу подростков с пивом и негров с косяками. А автор практически задаёт вопрос читателю — а почему не направить те же патрульные машины в богатый квартал, чтобы они там арестовывали джоггеров, перебегающих пустую улицу на красный свет? Или припаркованных вторым рядом напротив булочной. И вот это тоже сильный момент чтения, когда ты осознаёшь на собственной шкуре, что да, есть не просто нарушения, а именно нарушители, к которым ты более или менее толерантен.

11. В очередной раз проехались по «теории разбитых окон» — верной теорией, не опровергнутой, но которую применяют там, где её применять нельзя. Этот сдвиг настолько систематический, что для простоты можно считать, что теория неверна.

12. Упомянули мой любимый парадокс Симпсона, и я, наконец-то, понял, как к нему нужно относиться. В книге разбирают пример с тестом математики, результаты которого снизились за какой-то период. Сразу сделали вывод: ужас-ужас, наша система образования никуда не годна. Но при этом если сделать анализ по социальным группам, то в каждой группе результаты за тот же период выросли. Грубо говоря, если у нас есть с одной стороны богатые и умные, а с другой — бедные и тупые, то образовательная система научилась лучше учить и тех, и других. Но за это же время она настолько демократизировалась, что если раньше учились только богатые и умные, то сейчас могут учиться и бедные тупые — в итоге общий средний результат падает, но вывод из этого следует совершенно противоположные первой реакции.

13. Передёргиваний в книге полно, но в основном эмоциональные, когда читателя настраивают на определённое восприятие, а потом вываливают факты. Фактическую липу (и то, по французским меркам — может в Америке всё и не так) я увидел только одну, в истории про автомобильную страховку. Пишут, что страховщики нарочно вставляют совершенно нерелевантный критерий почтового индекса, чтобы собрать побольше денег с бедняков. Типа, те и так тупые и забитые, они даже не будет проверять, есть ли страховка дешевле. А что критерий лишний — ну так если он приносит бабки, зачем от него отказываться?
По крайней мере во Франции рынок автомобильной страховки жутко конкурентный. И мне сложно представить себе контору, которая выставляет нереальные тарифы в надежде, что никто не будет искать дешевле. Тем более сейчас, когда есть и покупка страхования online, и брокеры, бесплатно сравнивающие тарифы и подыскивающие самую выгодную для тебя компанию.

Зато в книге есть очень важная мысль про парадокс страховки, не грех и повторить. Оптимизация страхового портфеля очевидным образом осуществляется сегментизацией. Легко представить себе компанию A с общим на всех тарифом и компанию B с низким тарифом для хороших (безрисковых) клиентов и высоким тарифом для плохих. Очевидно, что в свободном рынке очень скоро все хорошие клиенты будут у B, а все плохие — у A. Более того, A в итоге разорится. То есть, компании просто по определению должны стремиться к наитоньчайшей сегментизации своего портфеля (ограничение возникает, когда стоимость поддержки каждого сегмента не покрывает выигрыша от сегментации). Парадокс в том, что сегментизация в пределе приводит к исчезновению страховки, когда каждый клиент платит только за свой риск, никакой взаимопомощи. Собственно, эту тему мы регулярно видим в обсуждениях пенсионных систем — должна ли пенсия быть страховой (общие накопления для обеспечения минимального уровня на случай катастрофы), либо накопительной (каждый сам за себя, что отложил — то и твоё).

Flat | Top-Level Comments Only

From:

green-fr.livejournal.com

Максимум, что там может следовать, это то, что всеобщую справедливость проще наводить железной рукой. Вряд ли кому-то такой идеал понравится :-) Так что, лучше смесь того и другого, чётко понимая, кто чем и зачем занимается.

А чем тебе "моё" распределение не нравится? Частник в первую очередь оптимизирует свою прибыль, государство следит за тем, чтобы при этом не нарушались какие-то общие интересы. Ну, типа запрета на убийство - много кому было бы выгодно, но все вместе решили, что лучше запретить.

From:

dmpogo.livejournal.com

Не нравиться мне в смысле что такое размежевание уводит, ну не скажу от 'сути' а от другой стороны вопроса.

А на другой стороне то что частный бизнес это не только магазинчик на углу, а и все-проникающие корпорации чье влияние на нашу жизнь сравнимо, если не превосходит, влияние государства. И которые сами изнутри устроены не столь уж отлично от государства.

Возьмем огрубленный пример, Гугл

1) В XX веке все опасались развития у государств способности отслеживать своих граждан. Грубо говоря СССР разобрали, поскольку КГБ открывал письма. В XXI веке мы получили общество тотальной слежки, пришедшее в первую очередь от частных корпораций. Результат в общем то-же, что мне с того что одни прибыль оптимизируют а другие нет ? Более того, мне лучше бы чтобы государство следило за мной, а частникам это было запрещено, на государство у меня, в приличной стране, есть хоть какое влияние.

2) Теперь посмотрим на структуру. Структура больших публичных корпораций - миллионы голосующих инвесторов. То есть, получается, что миллионы инвестров, причем многие не в моей стране, проголосовали за то чтобы следить за мной. Чем это отлично от государства ? Это больше как параллельная структура которая обходит контроль которому государство подвержено.

А разделение частное-государственное позволяет все проблемы свалить в узкий государственный угол.

В результате мы получаем как комментарий из одного форума где я бываю

None of this is in any way related to the American concept of Free Speech and no rights under free speech are being impacted. The American Free Speech concept applies to US government media and the Gentoo Forums is not one of those.

То есть все совободы и права оказываются ограниченным самым узким государственным пониманием
Что ж мне Голос Америки не объяснил это внятно в 1980-х ?

Есть глубокая правда в советском выражении, что вы там в Америке можете критиковать президента а, можете ли вы критиковать своего начальника ? И второе, вообще-то, не менее, если не более, важно.

From:

green-fr.livejournal.com

Погоди, я же не говорю, что государство должно соблюдать всё, а корпорации - ничего. Если мы (граждане) решим запретить слежку за собой, то государство может провести закон и проследить за его выполнением, чтобы и гугл не следил.

Пример с голосующими акционерами красивый, но есть нюансы. Первый в добровольности вхождения и выхождения в состав акционеров - и в какой-то мере обязательность вхождения в государство. То есть, ты не можешь провести налоговую реформу, например, если у каждого гражданина есть возможность в любой момент легко "выйти" из твоего государства. Второй момент менее принципиальный, но лично мне может не понравиться, если право голоса гражданина будет зависеть от богатства - при том, что такое же правило для акционера меня почему-то не смущает.

Но идею я понял и согласен. Конечно, нельзя полностью развести эти два понятия.

From:

dmpogo.livejournal.com

Ну да, моя формулировка сумбурна - к тому же я одним глазом слежу как мои студенты экзамен пишут.

Меня главным образом не радует то что когда так ставиться ворпрос частное/государство государство становится громоотводом. Вместо универсальных свобод и прав нам стали говорить - погодите, это только в отношении с государством. Если государство соблюдает - то все в порядке, а частное предприятие не подписывалось. Вот во Франции, вы серьезно относитесь к либертэ, эгалите, фратернитэ, а теперь вам скажут, погодите, это только в ваших отношениях с государством, а на заводе никто не обещал.

Ну а я с государством общаюсь раз в год ...

Причем мне кажется, это развитие последних 20 лет, Раньше как-то стремились по крайней мере утверждать общие ценности (конечно для либертарианцев частное право - общая ценность :) )

From:

green-fr.livejournal.com

Я понял. Мне просто кажется, что граница немного не там. Смотри: люди везде одинаковые, и если что-то можно (законно) забрать себе - они скорее всего заберут. Тот факт, что в одной стране воруют больше, чем в другой, говорит не о том, что в одной стране люди биологически лучше, и даже не столько о том, что они воспитаны лучше. Мне проще видеть в этом разницу правил - правила в стране построены таким образом, что "никто не ворует". Переехав в другую страну человек какое-то время живёт по инерции, постепенно перестраиваясь под правила (у кого-то перестройка может занять время больше всей жизни).

Так вот, в этой картинке я и говорю: это - к государству, это - к корпорациям. В том смысле, что если я хочу, например, чтобы корпорации нанимали женщин, то я могу пытаться их в этом убедить, убедить акционеров. А могу пытаться "убедить государство" - убедить граждан, чтобы они проголосовали за соответствующий закон. Я об этом говорил - какие претензии я готов предъявлять корпорации (качество продукта, например), а какие им же через государство (либертэ-эгалитэ).

From:

dmpogo.livejournal.com

Я понимаю о чем вы, просто как всегда в онлайн разговорах хочется подтянуть одеяло чуть к себе и поговорить о наболевшем :)

Edited Date: 2020-12-17 09:06 pm (UTC)

From:

muh2.livejournal.com

/Причем мне кажется, это развитие последних 20 лет,/

А мне кажется - наоборот. Раньше первая поправка была четко гсударственной. А сейчас - возникают сомнения. Да и гугла с фэйсбуком 20 лет назад не было.

From:

dmpogo.livejournal.com

Может быть, у меня сложилось ощущение что в головах людей, и в "дискурсе" общность таких принципов скорее размылась. Тут проблема в том что не так давно возможности государств были значительно выше чем частных учреждений, поэтому защита свобод перед государством покрывало главную угрозу. В нашем грубом примере, в XX веке следить за населением и покушаться на его частную сферу могло только государство.
Теперь это не так, и в новых условиях сузить вопрос прав на отношение с государством - это пытаться замаскировать реальную ситуацию

From:

muh2.livejournal.com

Да, я понимаю и полностью согласен.

From:

green-fr.livejournal.com

Я тоже :-)

From:

ticklish-frog.livejournal.com

Насчет 2) - все более цинично: в том же Гугле есть 2 типа акций, голосующие и не голосующие, и среди миллионов голосующих инвесторов есть два человека, голосов у которых больше всех, и их решения автоматически становятся решениями собрания акционеров.

Flat | Top-Level Comments Only

Profile

green_fr

May 2025

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Page Summary

green-fr.livejournal.com - (no subject)

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated May. 29th, 2025 03:56 pm

It's all in your mind

Weapons of Math Destruction

Weapons of Math Destruction

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

May 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags