Сергей Немалевич: Гадание на больших данных
Думки 19.09.2014 09:45 Количество информации на земле удваивается каждый год и позволяет предсказывать будущее и экономить сотни миллиардов долларов, в том числе в медицине. Что мешает это делать уже сегодня и как изменится наша жизнь завтра, когда ограничения будут устранены?12 октября 2010 года городской сумасшедший из местечка Миребале, что в центре Республики Гаити, как всегда, искупался в реке Артибонит и попил из нее воды. Не то чтобы ему негде было взять чистой бутилированной воды, но 28-летний молодой человек, с двенадцати лет страдавший слуховыми галлюцинациями и спутанностью сознания, предпочитал пить именно из реки. К вечеру у него поднялась температура и началась сильная диарея, а через сутки он скончался. Двое родственников, готовившие тело к погребению, тоже заболели.
Так началась крупнейшая эпидемия холеры наших дней. За десять месяцев до этого на Гаити произошло разрушительное землетрясение, ввергнувшее страну в хаос. Для борьбы с мародерством на остров был введен миротворческий контингент ООН. ДНК-анализ холерного вибриона показал, что болезнь попала на Гаити извне, вероятно, с военнослужащими из Непала, чья база размещалась выше по течению реки Артибонит. Эпидемия продолжалась несколько лет и унесла в общей сложности почти 10 тысяч жизней.
В 2012 году группа авторов опубликовала в Американском журнале тропической медицины и гигиены статью, в которой утверждалось, что проследить динамику эпидемии, а значит, принять необходимые меры, можно было на две недели раньше, чем это смогли сделать официальные службы Гаити. Для этого достаточно было проанализировать сообщения гаитян в Twitter и тематические новости в местных СМИ. Поток сообщений с описанием симптомов холеры от местных жителей, врачей и международных наблюдателей заметно опережал сообщения Минздрава Гаити о распространении эпидемии на очередной регион. Да, официальные данные более достоверны, чем сообщения очевидцев. Но это не значит, что огромный объем поступающих в режиме реального времени непроверенных данных не имеет ценности и не может спасти жизни людей. Нужно лишь научиться его правильно использовать.
Первая попытка
О пользе больших данных для здоровья можно говорить не только в сослагательном наклонении. Например, в отделении интенсивной терапии детской больницы Торонто за недоношенными младенцами ведется пристальное наблюдение: приборы непрерывно следят за их температурой, сердцебиением, дыханием и другими показателями. Если все в норме, персонал контролирует показатели не чаще чем раз в полчаса. Конечно, главная задача постоянного мониторинга в том, чтобы немедленно оповестить медиков о внезапной остановке сердца или другом критическом состоянии. Но что с остальной информацией? Получается, машины собирают и записывают гигабайты, которые просто никому не нужны?
Детская больница Торонто, Технологический институт Онтарио и местное отделение компании IBM разработали совместный проект Project Artemis – информационную систему, собирающую и анализирующую поступающие в режиме реального времени данные автоматического наблюдения младенцев в отделении интенсивной терапии. Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка, все данные сохраняются для последующего анализа.
«Мы научились видеть в поступающих физиологических данных паттерны, на основе которых можно предсказать развитие внутрибольничной инфекции у детей еще до появления первых симптомов болезни, – говорит Каролин Макгрегор, одна из руководителей проекта, профессор факультета бизнеса и информационных технологий Технологического института Онтарио. – Система позволяет заранее прогнозировать нестабильное состояние ребенка, например, вызванное временной остановкой дыхания, падением пульса или уровня кислорода в крови. Еще платформа Артемис позволяет анализировать мозговую активность детей и следить за развитием их мозга».
Что объединяет твиттер-сообщения жителей Гаити и поток показателей приборов из отделения интенсивной терапии детской больницы? И то и другое – данные, которые обычно никак не используются медиками, но потенциально могли бы стать основой для принятия решений, для отслеживания распространения эпидемий, для более точных и своевременных диагнозов. Истории болезни, документы страховых компаний, рентгеновские снимки и клинические исследования лекарств – гора медицинской информации стремительно растет. Ее анализ и осмысление может совершить в здравоохранении настоящую революцию.
«Потенциально мы способны обнаружить развитие болезни точнее и раньше, иногда даже до того, как пациент окажется в больнице, – рассуждает Каролин Макгрегор. – Мы можем улучшить наблюдение и уход за амбулаторными больными, за пациентами, страдающими хроническими заболеваниями. Новая технология способна значительно сократить расходы на здравоохранение, например за счет уменьшения количества дней, которые пациенты проводят в госпитале».
Очень большая история болезни
По оценкам IBM, в 2012 году в мире ежедневно создавалось более 2,5 эксабайта (2,5 миллиарда гигабайт) новой информации. Если записать ее на стандартные dvd и сложить их в стопку, она оказалась бы высотой более 500 километров. И так каждый день. Сегодня объем ежегодно фиксируемой информации выше еще в несколько раз, ведь количество данных, фиксируемых на земле, ежегодно удваивается. Записи в соцсетях, данные метеоспутников и датчиков на Большом адронном коллайдере, расшифровки геномов стекаются в огромный информационный океан больших данных – Big Data, как назвал его в 2008 году Клиффорд Линч, редактор журнала Nature.
Разрозненные большие данные формируют подробную, а главное – единую картину реальности, в которой отражается и пресловутая зенитная установка «Бук», и жизнь каждого из нас. В этой картине можно увидеть паттерны и скрытые взаимосвязи, а значит, сделать на ее основе достоверные прогнозы, проследить динамику – например, рынка акций, социальной напряженности или течения болезни отдельного пациента. Медицинская информация – лишь одно из морей в океане больших данных, но море глубокое. Ее объем только в США составил в 2011 году 150 экзабайт – в 30 раз больше, чем общее количество слов, когда-либо произнесенных на планете Земля.
Список чудес, которые потенциально могут сотворить большие данные в медицине, можно продолжать долго. Однако реальных примеров успешного применения новой технологии в здравоохранении до обидного мало. Те, что приведены в начале этой статьи, кочуют из одного обзора Big Data в медицине в другой вместе с еще несколькими подобными историями.
«Мы часто ожидаем от будущего слишком много и слишком быстро и одновременно недооцениваем силу новой технологии в далекой перспективе, – говорит Джон Маттисон, директор по информационным технологиям крупнейшей калифорнийской сети клиник Kaiser Permanente. – Большие данные – один из примеров, сейчас вокруг них много медийного шума и при этом совсем мало каких-то действительно значительных историй успеха. Да, кто-то пытается продвигать свой опыт использования больших данных как большой успех, но пока все это совсем не впечатляет».
Проще говоря, революция пока не произошла. Но почему?
Технологические ограничения: 4V
Таящиеся в Big Data сокровища столь же велики, сколь труднодоступны. Три характеристики больших данных одновременно указывают и на потенциал, и на проблемы анализа, в английском языке их обозначают четырьмя V: volume, variety, velocity и veracity, то есть объем, скорость поступления и разноформатность.
О первой из четырех V, невообразимом объеме больших данных, речь уже шла выше: для него сложно даже подобрать вразумительное сравнение. И если с хранением такого массива особых проблем нет, то его обработка требует применения новых технологических и алгоритмических решений, например распределенных и облачных вычислений, инструментов Data mining, машинного обучения и нейронных сетей, а также совсем экзотических методов вроде топологического анализа. Технологии, развивающиеся в областях, где анализ больших данных давно и с успехом применяется (например, в финансах или розничной торговле), вполне подходят и для медицины, однако их внедрение в эту консервативную индустрию требует значительных усилий.
Вторая V, скорость, также накладывает ограничения на обработку больших данных в медицине. Информация от приборов, следящих за пациентами центра интенсивной терапии, поступает непрерывно и должна анализироваться в режиме реального времени. И если ученые, сталкивающие частицы в трубе Большого адронного коллайдера, могут годами ставить эксперименты и годами обрабатывать результаты, то у врачей такой возможности нет – результат нужен немедленно.
Третья V, многообразие и разноформатность данных, – особенно характерная для медицинской информации проблема. Тут и числовые значения в произвольных единицах измерения, и изображения, и тексты, и сделанные от руки записи, и трехмерные модели. Как научить компьютер сравнивать флюорограмму одного пациента с описанием из больничной выписки другого? Совместное хранение, сравнение и конвертация информации требует решения очень сложных задач, таких как распознавание образов. И здесь медицина далеко не всегда может воспользоваться готовыми решениями из других областей.
Все эти проблемы с большим или меньшим успехом решаются средствами IT. За последние годы для работы с большими данными создано несколько мощных технологических платформ. Например, основанная на открытом коде Hadoop, – на базе этого решения разработаны продукты компании Cloudera, которые используют в Kaiser Permanente, или Big Insights компании IBM, на которой построен проект «Артемис». Технологические проблемы велики, но они не главный сдерживающий фактор для революции.Четвертая V: мусор на входе – мусор на выходе
Иногда, говоря о сложностях применения инструментов больших данных в медицине, к трем V добавляют еще одну: Veracity, достоверность. С одной стороны, от достоверности сделанного на основе анализа больших данных вывода вполне может зависеть жизнь человека. Цена ошибки слишком высока, именно на это, кстати, указывали представители Министерства общественного здоровья Гаити, комментировавшие исследование об анализе динамики эпидемии на основе сообщений в социальных сетях.
С другой стороны, медицинская информация состоит из очень грязных данных. Медицинские карточки заполняются с ошибками, почерк врача на рецепте неверно истолкован. Если два разных врача могут поставить по одному и тому же рентгеновскому снимку различные диагнозы, чего ждать от автоматической системы?
«Одна из главных проблем проекта «Артемис» заключается в том, что наши данные хороши настолько, насколько хороши медицинские приборы и их сенсоры, – жалуется Каролин Макгрегор. – И провода могут оборваться, и сигнал может оказаться слабым из-за того, что датчик размещен не в том месте, и электрические помехи могут повлиять на показатели».
Решить проблему чистоты данных и достоверности вывода только за счет информационных технологий невозможно. Это потребует совершенствования базовых медицинских процедур, а значит, и существенных дополнительных инфраструктурных вложений.
Джон Маттисон объясняет, что даже если данные изначально были верны, они могут превратиться в мусор из-за неверной интерпретации, – в дело вступает человеческий фактор. И вот пример: в течение многих лет не удавалось найти убедительных научных доказательств распространенному среди врачей убеждению, что при подозрении на сепсис (заражение крови) антибиотики нужно давать как можно раньше. Несколько лет назад с этим вопросом взялась разобраться группа специалистов по большим данным.«Они проанализировали огромный массив информации, – рассказывает Маттисон, – и пришли к выводу, что момент начала лечения антибиотиками вообще не имеет значения, никак не сказывается на исходе для пациента». Работа была опубликована, в статье авторы заявили, что все предыдущие исследования, основанные на традиционной аналитике, а также опыт врачей были ошибочны – мощь новой технологии позволила найти истину. Однако истина оказалась в другом: «Эти исследователи не поняли, что в их данных, поступивших из разных источников, время, в течение которого пациентам прописывали антибиотики после первых подозрений на развитие сепсиса, было представлено в разных форматах», – продолжает Маттисон. Вывод, разумеется, был неверен: «В информатике есть выражение: мусор на входе – мусор на выходе. Единственное, чего добились авторы исследования, – вновь доказали прописную истину: если используешь плохие данные, получаешь плохой результат».
Маттисон считает, что один из главных вызовов, стоящий перед развитием технологий больших данных в медицине, – недостаточное количество хороших специалистов: «Для работы с большими данными нужен особый тип мышления, нужно хорошо понимать, в чем их сила, в чем слабость, в чем риски. Людей с такими качествами в здравоохранении пока слишком мало».
Приватность и безопасность
Все эти проблемы велики, но могут быть решены силами самой индустрии. Развитие технологии больших данных в медицине неизбежно столкнется и с внешним препятствием, лежащим в юридическом поле: у любой медицинской информации есть владельцы. Каролин Макгрегор настроена оптимистично: «В нашей работе вопрос принадлежности данных пока не проблема. В настоящее время вся информация, поступающая из отделений интенсивной терапии, принадлежит клинике. Когда данные поступают в облако проекта «Артемис», им присваиваются анонимные id, так что, какие показатели кому принадлежат, знает только персонал госпиталя».
Однако, по словам Маттисона, все больше людей, во всяком случае в США, хотят получить право самостоятельно управлять своими медицинскими записями – это становится все более важно в глобальном мире, где пациенты часто переезжают с места на место, меняют работу и поставщиков медицинских услуг.
Кроме того, данные не всегда можно сделать анонимными. С показателями приборов это еще работает, а вот с генетическими анализами уже нет. «В геномике деидентифицировать данные практически невозможно, – объясняет Маттисон. – Генетическая информация однозначно указывает на конкретного пациента, его очень легко реидентифицировать, и вопрос с приватностью данных здесь должен быть решен на законодательном уровне. Наши законодатели пока не очень понимают суть проблемы, за технологическим прогрессом им поспеть сложно».Революция послезавтра
Есть множество причин, по которым революция больших данных не случится завтра, но еще больше поводов верить, что послезавтра это обязательно произойдет.
По оценкам McKinsey, внедрение технологий анализа Big Data в медицину может сэкономить здравоохранению США около 300 миллиардов долларов в год (для сравнения: это три с половиной бюджета здравоохранения России за 2013 год). Экономия произойдет за счет более своевременной и точной постановки диагноза, подбора эффективного лечения, сокращения расходов на исследования. Завидный экономический потенциал превращает большие данные из объекта академического интереса в объект инвестиций: никакие V не выстоят на пути к тремстам миллиардам. Совсем недавно инвестиционный фонд Google Vultures вложил 130 миллионов долларов в компанию Flariton Health, которая собирает медицинские данные раковых больных, чтобы предоставить врачам аналитическую базу для выбора схемы лечения. На сегодняшний день это крупнейшая инвестиция частного фонда в медицинские информационные технологии.
По мнению Джона Маттисона, первый переворот стоит ожидать в области геномики и персонализированной медицины. Объем генома человека – около 100 гигабайт. В 2003 году расшифровка одного человеческого генома стоила около 40 миллионов долларов – сегодня это можно сделать за несколько дней и тысячу долларов. Сравнение генетического кода с другими медицинскими показателями, а именно в этом главная сила инструментов больших данных, позволит выяснить, как именно связаны наши гены с болезнями.
«Мы поймем, что люди, у которых совпадают кровяное давление, уровень сахара в крови и другие подобные показатели, пациенты, у которых болезнь проявляется совершенно одинаково, должны на самом деле получать разное лечение, разные медикаменты, в зависимости от их генетики, – уверен Маттисон. – Сегодня мы лечим людей, отталкиваясь от органов: мозг – почка – печень и так далее. В будущем мы будем смотреть на гены».
Основываясь на анализе огромного количества информации и вашем личном генетическом коде, система подберет лечение, подходящее индивидуально именно вам, предскажет возможные болезни и определит, как их можно предупредить. Главным врачом станет компьютер.
«Когда компьютер станет принимать решения лучше, чем обычный доктор, очень многие медики окажутся в этом уравнении просто лишними», – рассуждает Маттисон. – Возможно, роль врачей сведется к тому, чтобы помогать пациентам выбирать один из предложенных автоматической системой вариантов, например между более действенным, но рискованным, и менее действенным, но безопасным планами лечения».
Пока что в описании реальных примеров применения инструментов больших данных в медицине слишком часто звучат слова вроде «потенциально» или «в перспективе». Но это не означает, что Big Data – искусственно раздутый пузырь. Перед развитием новой технологии стоят вполне конкретные и преодолимые препятствия. Мы все подробнее умеем описывать строение человеческого тела и происходящие в нем процессы, наше здоровье постепенно переводится на язык нулей и единиц, и медицина неизбежно все больше будет напоминать информатику. Революция произойдет не сегодня и не завтра, но ее последствия окажутся намного масштабнее, чем мы способны себе вообразить.
Теги: IBM Артибонит Project Artemis Каролин Макгрегор Big Data Джон Маттисон Переглядів: 1629