1. Данные
Первичный источник — реестр ГНАМР, реляционная база данных из 37 таблиц, охватывающих демографические записи, историю облучения, медицинские исходы и семейные связи. После систематической фильтрации — наличие хотя бы одного зарегистрированного исхода и данных о дозе хотя бы одного из родителей — сформирована основная когорта второго поколения. Средняя пропущенность данных снизилась с 60.2% в сыром реестре до 14.2% в аналитической когорте.
7 898
14.18%
средняя пропущенность
1966
медиана года рождения
51.8%
мужской пол
8 предикторов
Дозовые (6)
father_aggregated_dose
агр. доза отца, мГр
mother_aggregated_dose
агр. доза матери, мГр
max_parent_dose
максимальная доза родителей
mean_parent_dose
средняя доза родителей
father_dose_available
индикатор наличия дозы отца
mother_dose_available
индикатор наличия дозы матери
Демографические (2)
birth_year
год рождения (прокси возраста)
sex_binary
пол (1 = м, 0 = ж)
3 целевых переменных
Chapter I
16.5%
Сердечно-сосудистые заболевания · n = 1 304
Chapter C
6.1%
Новообразования · n = 482
Composite C/I
22.0%
Совокупный конечный показатель · n = 1 739
Вторичный показатель; не интерпретируется как единая клиническая единица
2. Алгоритмы
Три семейства моделей обучены параллельно на каждой целевой переменной — от линейного базиса до ансамблевых методов. Все оценки производительности получены через стратифицированную 5-кратную перекрёстную проверку: предсказания на каждом фолде формировались моделью, не видевшей эти наблюдения при обучении.
Logistic Regression
Линейный базис с L2-регуляризацией (ridge, C = 1.0). Устанавливает линейную разделяющую поверхность; интерпретируем и служит нижней границей для сравнения.
Random Forest
Непараметрический ансамбль из 300 деревьев решений (макс. глубина 6). Улавливает нелинейные взаимодействия через усреднение по независимым бутстрэп-выборкам.
XGBoost
Градиентный бустинг деревьев (300 деревьев, lr = 0.05, глубина 4). Последовательно аппроксимирует остатки; основная нелинейная модель с наибольшим AUC.
3. Результаты моделей
Основная метрика — AUC-ROC: оценивает ранжирующую способность независимо от порога классификации. Average Precision дополняет оценку при несбалансированных классах (особенно Chapter C, частота событий 6.1%). Brier Score измеряет калиброванность предсказанных вероятностей.
AUC-ROC по целевой переменной и модели
| Таргет | Модель | AUC-ROC | Avg Prec | Brier |
|---|
4. Важность признаков
О методе
SHAP (SHapley Additive exPlanations) — метод объяснения предсказаний, основанный на теории кооперативных игр. Для каждого признака вычисляется Mean |SHAP value| — среднее абсолютное изменение предсказания модели, приписываемое этому признаку. Признак с большим значением сильнее смещает предсказание относительно базового уровня.
Год рождения — доминирующий признак
birth_year занимает первое место с большим отрывом (Mean |SHAP| ≈ 2.0). Он одновременно кодирует три частично неразличимых сигнала: достигнутый биологический возраст, продолжительность наблюдения в реестре (более пожилые участники накопили больше диагнозов) и эпоху облучения родителей — лица, рождённые раньше, имеют родителей с потенциально более высокой дозой.
Дозовые переменные — позиции 2–5
Родительские дозы (mother_aggregated_dose, mean_parent_dose, father_aggregated_dose, max_parent_dose) занимают ранги 2–5. Более высокие родительские дозы ассоциированы с умеренно повышенным предсказанным риском. Сигнал устойчив, но существенно слабее демографического эффекта.
5. Ablation study
Ablation study — методология, при которой признаки поочерёдно исключаются из модели для количественной оценки их вклада в качество предсказания. Проведены два испытания: модель без birth_year — позволяет изолировать демографический конфаундер; и модель только с дозовыми признаками — нижняя оценка сигнала, приписываемого исключительно парентальному облучению.
Chapter I
−0.060 … −0.070
ΔAUC = AUC_full − AUC_без_birth_year
Chapter C
−0.067 … −0.113
Более выраженный эффект при редком исходе
Только дозовые признаки · AUC
0.619
–
0.761
Нижняя граница предиктивного сигнала, приписываемого исключительно парентальному облучению (father dose, mother dose, max dose, mean dose)
Вывод. Дозовые признаки несут самостоятельный предиктивный сигнал (AUC > 0.61 при полном исключении демографических переменных), однако год рождения вносит существенный конфаундирующий вклад. Биологический возраст, продолжительность наблюдения и эпоха родительского облучения неразличимы в рамках текущей структуры реестра. Причинно-следственная интерпретация дозового сигнала требует дополнительных шагов: стратификации по возрасту и метода множественного вменения (MICE) для записей с отсутствующими дозами.