В рамках конкурса вам нужно предсказать наличие сердечно-сосудистых заболеваний по результатам классического врачебного осмотра. Датасет сформирован из 100.000 реальных клинических анализов, и в нём используются признаки, которые можно разбить на 3 группы:
Объективные признаки: - - Возраст
- - Рост
- - Вес
- - Пол
Результаты измерения: - - Артериальное давление верхнее и нижнее
- - Холестерин
- - Глюкоза
Субъективные признаки: - - Курение
- - Употребление Алкоголя
- - Физическая активность
Данные поделены в соотношении 70/10/20. Тренировочная выборка состоит из 70 тысяч результатов, еще по десяти тысячам считается публичная метрика, доступная участникам в ходе соревнования. Оставшиеся 20 тысяч отправились в скрытую проверочную выборку, подсчет метрики по которой и определит победителей в финале.
Поскольку мы имеем дело с бинарной классификацией, метрикой является логарифмическая функция потерь.
В прилагаемом к задаче архиве есть два файла:
- - train.csv содержит тренировочные данные, включая наличие ССЗ (колонка cardio)
- - test.csv содержит данные для проверки, колонка cardio в этом файле отсутствует
Призы:
1 место: MacBook Pro
2 место: NVIDIA 1080ti
3 место: NVIDIA 1060
4 - 6 места: WD My Cloud 6 TB
Кроме того, по традиции, 50 лучших участников получат майки с символикой чемпионата.
Участники с наиболее интересными для организаторов решениями получат возможность стажировки или сотрудничества с Mail.Ru Group, Insilico Medicine и Министерством здравоохранения Республики Казахстан. Кроме того, специальным призом от жюри является поездка в Астану для личной встречи с министром здравоохранения Республики Казахстан.