Регресия към средното – защо горещите серии свършват
Накратко
Регресията към средното е статистически феномен – крайностите в представянето (изключително добро или лошо) естествено се нормализират с времето. Отбор, вкарал 4 гола в 3 поредни мача, не е внезапно станал „по-добър“ – вероятно ще се върне към нормалния си ниво. Залагаческата грешка е да смяташ, че изключителното представяне е ново ниво и да залагаш на продължаването му.
Какво е регресия към средното
Регресията към средното (regression to the mean) е статистически принцип, открит от Франсис Галтън в края на 19-ти век. Изучавайки ръста на синовете на високи бащи, Галтън открива, че синовете са по-високи от средното, но не толкова високи като бащите. Крайностите „регресират“ (връщат се) към средното за популацията.
Принципът важи навсякъде, където има случайност: медицина, образование, спорт, залагания. При всяко измерване истинското ниво на представяне се смесва с случаен шум. Изключителното представяне означава или изключителни способности, или изключително добра вариация – или и двете. В следващия период случайният шум е независим, затова представянето се нормализира.
Важно е да разграничаваш регресията към средното от Gambler’s Fallacy. Gambler’s Fallacy е грешката да вярваш, че конкретно следващо събитие е „длъжно“ да е различно. Регресията е статистически тренд за популация от измервания – не предсказание за конкретния следващ резултат.
Формула и математика
μ = средно за популацията, r = корелация между измерванията (0 до 1), наблюдаван = реалното представяне. При r=1 (перфектна предсказуемост) – без регресия. При r=0 (чист шум) – пълна регресия към средното.
В спорта корелацията r между представянето в съседни периоди обикновено е между 0.3 и 0.7 – означава, че значителна порция от резултата е случайна. Ако r=0.5 и отбор е вкарал 3.0 гола на мач (при среднo 1.5), очакването за следващия период е 1.5 + 0.5 × (3.0-1.5) = 2.25 – по-близо до средното, не 3.0 отново.
Пример с реални числа
Вземи конкретен пример: футболен отбор чиято средна голова продуктивност за сезона е 1.4 гола на мач (μ = 1.4). В последните 3 мача вкарва 4, 4 и 3 гола – средно 3.67 гола за периода. Корелацията r за голова продуктивност в първенство е около 0.4.
Прилагаме формулата:
Очакван резултат = 1.4 + 0.4 × (3.67 – 1.4) = 1.4 + 0.4 × 2.27 = 1.4 + 0.91 = 2.31 гола
Тоест следващият мач се очаква да завърши с около 2.3 гола – не 4, не 1.4, а по средата. Отборът „пада” обратно към средното си, но не изцяло – защото r=0.4 означава, че 40% от представянето е предсказуемо, а 60% е случаен шум.
| Сценарий | Наблюдавано | r | Очаквано следващо |
|---|---|---|---|
| Отбор в „горещa” форма | 3.67 гола/мач | 0.4 | 2.31 гола/мач |
| Отбор в „студена” серия | 0.33 гола/мач | 0.4 | 0.83 гола/мач |
| Нормално представяне | 1.4 гола/мач | 0.4 | 1.4 гола/мач |
Ако заложиш „над 2.5 гола„ на следващия мач защото отборът „е в страхотна форма„“ в горещ отбор. Залогът на €100 при коефициент 1.70 изглежда примамлив, но очакваната стойност е отрицателна ако реалната вероятност е под 59%.
- При r=0.7 (по-предсказуем спорт, напр. тенис на топ ниво) регресията е по-слаба – около 30% от „лудото” представяне изчезва
- При r=0.3 (силно случаен контекст) регресията е силна – около 70% от крайното представяне е шум
- Малки извадки (3-5 мача) дават по-голям шум – колкото по-малко мачове, толкова по-недостоверна е „формата”
Регресия в спорта
Регресията се проявява навсякъде в спорта и е особено ценна за залагащите:
Голмайстори: Нападател с изключителна серия почти неизбежно ще се върне към нормалния ниво. Ако λ е 0.4 гола на мач, серия от 5 гола в 3 мача е статистически аномалия, не ново ниво.
Вратари: Вратар, пропуснал 0 гола в 5 поредни мача (при λ допускани 1.5), е вероятно да се върне към нормалното. Може и да е подобрил играта си – но не с толкова резки скок.
Серии без победа: Отбор с 8 поредни загуби при нормален win rate 45% – вероятно ще се върне към нормата, не да продължи да губи. Но това не е Gambler’s Fallacy: не твърдим, че следващият мач е „длъжен“ да е победа – твърдим, че дългосрочно отборът ще се нормализира.
xG (Expected Goals): Модерните анализи ползват xG (очаквани голове) като „истинско ниво“. Отбор с xG 1.5 на мач, но вкарал 3.0 гола последните 3 мача, е над нивото си заради вариация – регресия е вероятна. Разбери повече за Пойсоновия модел за голове, за да интегрираш това в анализите си.
| Ситуация | Наблюдавано | Истинско ниво (est.) | Очаквана регресия |
|---|---|---|---|
| Нападател „горещ“ | 5 гола за 3 мача | 0.5 гола/мач | Ще се върне към ~0.5-0.8/мач |
| Вратар „студен“ | 0 пропуснати за 5 мача | 1.4 допуснати/мач | Ще допусне повече скоро |
| Отбор „горещ“ | 6/6 победи | 50% win rate | Следващите 6 – около 2-3 победи |
| Отбор „студен“ | 0/8 победи | 40% win rate | Следващите 8 – около 2-4 победи |
Залагачески грешки поради регресия
Залагане на „горещ“ отбор/играч при занижен коефициент. Букмейкърите знаят за регресията. Когато Реал Мадрид спечели 6 поредни мача, те занижават коефициентите за следващия – защото публиката масово залага на „горещия“. Стойността е ниска.
Пренебрегване на „студени“ отбори. Противно – отбор с лоша серия може да е добра стойност. Публиката е разочарована, букмейкърът увеличава коефициентите – но ако „истинското ниво“ на отбора е по-добро от серията, има потенциален edge. Изследвай дали лошата серия е заради реална промяна (ключов играч контузен) или вариация.
Тълкуване на регресия като „провал“. Треньори биват уволнявани след лоши серии, нови треньори идват и отборът се „оправя“ – честно поради регресия, не поради промяната. Изследвания показват, че много смени на треньори са точно в момента, когато регресията е щяла да настъпи естествено.
За да избягваш тези грешки, комбинирай анализа с разбиране на вариацията и подразбиращата се вероятност.
Практическо приложение
1. Ползвай xG вместо реални голове за базова линия. xG отразява „истинското качество“ по-добре от резултата. Ако отбор има xG 1.5/мач, но вкарва 2.5/мач последните 5, вероятна е регресия.
2. Внимавай с кумулативни кефове при „горещи“ серии. При „горещ“ отбор коефициентите за тях в следващия мач са обикновено занижени. Твоята оценка трябва да отчита регресията – не само историята на серията.
3. Търси стойност при „студени“ отбори. Ако обективният анализ показва, че лошата серия е вариация (не реална промяна в качеството), цените могат да са добри. Комбинирай с стойностно залагане.
4. Раздели „шум“ от „сигнал“. Реален сигнал: ключов нападател е продаден. Шум: отборът е загубил 3 поредни мача при нормален win rate 50%. Регресията важи за шума, не за сигналите.
5. Ползвай достатъчна извадка. 5 мача не са достатъчни за оценка на „истинското ниво“. Поне 20-30 мача дават по-надеждна картина. Monte Carlo симулациите помагат да разбереш какво ниво е реалистично очаквано от история от 5 мача.
ЧЕСТO ЗАДАВАНИ ВЪПРОСИ
РЕГРЕСИЯТА КЪМ СРЕДНОТО ОЗНАЧАВА ЛИ, ЧЕ ВСИЧКО Е СРЕДНО?
Не. Регресията казва, че крайностите са по-малко устойчиви отколкото изглеждат. Изключителни играчи и отбори са реално по-добри от средното – но дори те имат добри и лоши периоди. Мес и Роналдо регресират след изключителни серии, но нивото им е системно над средното.
РЕГРЕСИЯТА КЪМ СРЕДНОТО ВАЖИ ЛИ ПРИ ДЪЛГОСРОЧЕН ТРЕНД НАГОРЕ?
Да, с уточнение. При отбор с ясен тренд нагоре (млад, развиващ се), „средното“ се мества нагоре. Регресията е към текущото средно, не към историческото. Затова е важно да обновяваш базовото ниво при реални промени в отбора.
КАК СЕ РАЗЛИЧАВА РЕГРЕСИЯТА КЪМ СРЕДНОТО ОТ GAMBLER’S FALLACY?
Gambler’s Fallacy: „Рулетката е показала 10 пъти червено, значи следващото е черно.“ Регресия: „Отборът е с 6 поредни победи при win rate 45% – статистически при следваща поредица представянето ще се нормализира към 45%.” Разликата е в независимостта на събитията. Рулетката е независима. Представянето на отбор съдържа компонент на „истинско ниво“ + шум.
МОЖЕМ ЛИ ДА ПРЕДСКАЖЕМ ТОЧНО КОГА ЩЕ НАСТЪПИ РЕГРЕСИЯТА?
Не. Регресията е статистически принцип за групи от измервания, не предсказание за конкретен следващ мач. Можем да кажем „при достатъчно мачове представянето ще се нормализира“, но не „в следващия мач ще е по-лошо“. Вариацията е реална.
КАК РЕГРЕСИЯТА ВЛИЯЕ НА TIPSTER УСЛУГИ?
Много tipster услуги са популярни след периоди на изключителен yield – 30%, 40% за 50 залога. Регресията предсказва, че след достатъчно залози yield-ът ще се нормализира. Добра практика: проверявай yield на минимум 200-300 залога, не на последните 50. Кратка добра серия може да е шум.