Сомнительные данные для ИИ-моделей прогнозирования инсульта и диабета

Группа исследователей, возглавляемая статистиком Адрианом Барнеттом из Квинслендского технологического университета, обнаружила, что десятки моделей ИИ, предназначенные для прогнозирования инсульта и диабета, опираются на сомнительные наборы данных. В своем исследовании, опубликованном в журнале Nature, ученые проанализировали 124 рецензируемые статьи, которые использовали два общедоступных набора медицинских данных с неясным происхождением.

Первый набор данных о инсульте содержит информацию о состоянии здоровья 5 110 человек и был загружен на платформу Kaggle. Исследователи отметили, что в данных почти отсутствуют пропуски, что вызывает подозрения. Второй набор, касающийся диабета, включает информацию о 100 000 участников, но содержит лишь 18 уникальных значений уровня глюкозы, что также выглядит неправдоподобно.

Модели, обученные на таких данных, могут привести к ошибочным диагнозам и неправильным решениям в лечении. В связи с этим журнал Scientific Reports уже отозвал три статьи из-за сомнений в достоверности данных.