Оставаться на "острие" современной науки, быть в курсе всех последних ее достижений является на сегодняшний день очень сложной задачей даже в какой-либо узкоспециализированной области. Ежедневно в различных изданиях публикуются сотни тысяч научных статей, результатов исследований и трудов, прочесть которые, а тем более усвоить содержащуюся в них информацию, не может ни один человек на свете, насколько бы умным он не был. Для решения вышеупомянутой проблемы, связанной с огромным количеством информации, исследователи из Университета Северной Каролины разработали компьютерную программу, которая в автоматическом режиме может оценить, упорядочить и отсортировать всю научную литературу и публикации, предоставив людям ссылки только на наиболее значимые и достоверные источники информации.
Используя алгоритмы глубокого анализа текста программа раскладывает по приоритетам для дальнейшего ознакомления все научно-исследовательские работы, попадающие в ее поле зрения. Отобранные работы помещаются в специализированные тематические базы данных, такие как база Comparative Toxicogenomics Database (CTD), база данных с открытым доступом, в которой содержится информация о влиянии различных химических препаратов на геном человеческого организма, что отражается на здоровье нынешнего и отразится на здоровье будущих поколений людей.
"По одной тематике воздействия на здоровье токсичных тяжелых металлов с 1926 года было опубликовано более 33 тысяч научных работ" - объясняет доктор Аллан Питер Дэвис (Dr. Allan Peter Davis), один из руководителей проекта CTD, - "Даже приложив максимум усилий мы не сможем прочесть весь объем этих работ и выбрать из них только самую важную информацию. К счастью, теперь с этим успешно могут справиться наши новые алгоритмы".
Как уже говорилось выше, для выбора самых значимых публикаций используются алгоритмы глубокого анализа текста. Программа сравнивает тексты сразу многих тысяч статей, определяет совпадения и факты, что выражается в цифровом показателе научного "веса" каждого документа на основании которого принимается решение о включении его в общую базу. "Алгоритм не работает с одной отдельно взятой статьей, он эффективно может работать с большими наборами статей, но в этом случае он очень надежно отделяет зерна от плевел, если можно так выразиться" - рассказывает Томас Виджерс (Thomas Wiegers), один из исследователей в области биоинформатики.
Для проверки работоспособности созданных алгоритмов исследователи отобрали 15 тысяч статей и оправили из команде квалифицированных рецензентов, которые вычитав их должны были выбрать самые важные документы. "Результаты оказались внушительны" - рассказывает доктор Дэвис, - "Рецензенты сделали выбор, совпавший на 85 процентов с выбором, сделанным компьютером. Только компьютер сделал свой выбор гораздо быстрее людей".
Использование алгоритмов оценки научных статей позволит ученым сэкономить время и поднять эффективность своего труда минимум на 30 процентов. "Это технология позволит сэкономить огромное количество драгоценного времени" - объясняет доктор Дэвис, - "Благодаря нашей технологии мы можем гораздо эффективнее использовать ресурсы целых научных команд, предоставив ученым возможность работать только с документами, содержащими максимально возможное количество релевантной информации".
Естественно, как и в работе любого алгоритма, в работе алгоритмов оценки научной литературы бывают аномалии, когда высокий показатель назначается статье, которую человек-рецензент отклоняет как не важную. Исследователи провели тщательный анализ текстов "аномальных" статей и определили причины, по которым программа принимала ошибочные решения. "Теперь мы можем внести коррекции в наши алгоритмы, после чего система начнет работать максимально точно".
"Нам еще далеко до той стадии, когда компьютер сам сможет прочесть литературу, публикации и работы, самостоятельно извлекая только все важные данные и предоставляя их в удобном для восприятия виде" - рассказывает Дэвис, - "Но реализованный нами глубокий анализ текста является большим шагом вперед в этом направлении".
Ключевые слова:
Наука,
Литература,
Публикация,
Статья,
Анализ,
Информация,
Текст,
Оценка,
Сортировка,
Алгоритм,
Программа,
Компьютер
Первоисточник
Другие новости по теме:
Lsjbot - программа-бот, "перу" которой принадлежит 2.7 миллиона статей ВикипедииИскусственный интеллект в будущем может стать более точной и объективной заменой людей-судейСоздана новая система, способная произвести полный анализ генома человека всего за 90 минутКорейский робот-журналист освещает спортивные события спустя две секунды после завершения матчейКомпьютер Nell самообучается, считывая информацию из Интернета.