программа системы прогнозирования трансгенерационных радиационных рисков

Результаты моделей машинного обучения

Последовательное описание методологии и ключевых находок

1. Данные

Первичный источник — реестр ГНАМР, реляционная база данных из 37 таблиц, охватывающих демографические записи, историю облучения, медицинские исходы и семейные связи. После систематической фильтрации — наличие хотя бы одного зарегистрированного исхода и данных о дозе хотя бы одного из родителей — сформирована основная когорта второго поколения. Средняя пропущенность данных снизилась с 60.2% в сыром реестре до 14.2% в аналитической когорте.

7 898

14.18%

средняя пропущенность

1966

медиана года рождения

51.8%

мужской пол

8 предикторов

Дозовые (6)

father_aggregated_dose агр. доза отца, мГр
mother_aggregated_dose агр. доза матери, мГр
max_parent_dose максимальная доза родителей
mean_parent_dose средняя доза родителей
father_dose_available индикатор наличия дозы отца
mother_dose_available индикатор наличия дозы матери

Демографические (2)

birth_year год рождения (прокси возраста)
sex_binary пол (1 = м, 0 = ж)

3 целевых переменных

Chapter I

16.5%

Сердечно-сосудистые заболевания · n = 1 304

Chapter C

6.1%

Новообразования · n = 482

Composite C/I

22.0%

Совокупный конечный показатель · n = 1 739

Вторичный показатель; не интерпретируется как единая клиническая единица

2. Алгоритмы

Три семейства моделей обучены параллельно на каждой целевой переменной — от линейного базиса до ансамблевых методов. Все оценки производительности получены через стратифицированную 5-кратную перекрёстную проверку: предсказания на каждом фолде формировались моделью, не видевшей эти наблюдения при обучении.

Logistic Regression

Линейный базис с L2-регуляризацией (ridge, C = 1.0). Устанавливает линейную разделяющую поверхность; интерпретируем и служит нижней границей для сравнения.

Random Forest

Непараметрический ансамбль из 300 деревьев решений (макс. глубина 6). Улавливает нелинейные взаимодействия через усреднение по независимым бутстрэп-выборкам.

XGBoost

Градиентный бустинг деревьев (300 деревьев, lr = 0.05, глубина 4). Последовательно аппроксимирует остатки; основная нелинейная модель с наибольшим AUC.

3. Результаты моделей

Основная метрика — AUC-ROC: оценивает ранжирующую способность независимо от порога классификации. Average Precision дополняет оценку при несбалансированных классах (особенно Chapter C, частота событий 6.1%). Brier Score измеряет калиброванность предсказанных вероятностей.

AUC-ROC по целевой переменной и модели

4. Важность признаков

О методе

SHAP (SHapley Additive exPlanations) — метод объяснения предсказаний, основанный на теории кооперативных игр. Для каждого признака вычисляется Mean |SHAP value| — среднее абсолютное изменение предсказания модели, приписываемое этому признаку. Признак с большим значением сильнее смещает предсказание относительно базового уровня.

Год рождения — доминирующий признак

birth_year занимает первое место с большим отрывом (Mean |SHAP| ≈ 2.0). Он одновременно кодирует три частично неразличимых сигнала: достигнутый биологический возраст, продолжительность наблюдения в реестре (более пожилые участники накопили больше диагнозов) и эпоху облучения родителей — лица, рождённые раньше, имеют родителей с потенциально более высокой дозой.

Дозовые переменные — позиции 2–5

Родительские дозы (mother_aggregated_dose, mean_parent_dose, father_aggregated_dose, max_parent_dose) занимают ранги 2–5. Более высокие родительские дозы ассоциированы с умеренно повышенным предсказанным риском. Сигнал устойчив, но существенно слабее демографического эффекта.

5. Ablation study

Ablation study — методология, при которой признаки поочерёдно исключаются из модели для количественной оценки их вклада в качество предсказания. Проведены два испытания: модель без birth_year — позволяет изолировать демографический конфаундер; и модель только с дозовыми признаками — нижняя оценка сигнала, приписываемого исключительно парентальному облучению.

Chapter I

−0.060 … −0.070

ΔAUC = AUC_full − AUC_без_birth_year

Chapter C

−0.067 … −0.113

Более выраженный эффект при редком исходе

Только дозовые признаки · AUC

0.619

0.761

Нижняя граница предиктивного сигнала, приписываемого исключительно парентальному облучению (father dose, mother dose, max dose, mean dose)

Вывод. Дозовые признаки несут самостоятельный предиктивный сигнал (AUC > 0.61 при полном исключении демографических переменных), однако год рождения вносит существенный конфаундирующий вклад. Биологический возраст, продолжительность наблюдения и эпоха родительского облучения неразличимы в рамках текущей структуры реестра. Причинно-следственная интерпретация дозового сигнала требует дополнительных шагов: стратификации по возрасту и метода множественного вменения (MICE) для записей с отсутствующими дозами.