Дорогие читатели, Нашему шестнадцатилетнему, волонтёрскому и некоммерческому проекту для создания новой, современной версии N-N-N.ru, очень нужно посоветоваться касательно платформы нашего сайта – SYMFONY & DRUPAL 8. Платформа не простая, но обещаем – мы не займём много времени, просто нужна консультационная поддержка квалифицированного разраба. Если вы можете помочь, то связаться с нами можно на страницах Facebook.com здесь и здесь.

«Дежаргонизатор» сделает научный текст понятнее для широкой аудитории

Израильские ученые представили программу, которая автоматически определяет понятность научного текста. Их алгоритм De-Jargonizer разделяет слова на три группы по частотности и при помощи простой формулы рассчитывает, насколько текст может быть понятен широкой аудитории. Протестировав программу на статьях журнала PLoS, ученые выяснили, что аннотации некоторых статей могут содержать до 27 процентов редко встречающихся слов научной лексики. Статья с описанием работы программы доступна для прочтения в PLoS One, а опробовать алгоритм можно на сайте.

Проклятие знания (англ. curse of knowledge) — это одна из форм когнитивного искажения, при которой компетентный человек сталкивается со сложностями при попытке объяснить что-либо своему незнающему собеседнику, ввиду того, что он не может поставить себя на его место и представить себе, что этого можно не знать. Например, с этим когнитивным искажением могут столкнуться ученые, выпускающие статьи в рецензируемых журналах и читающие лекции: использование специфической лексики может привести к тому, что определенная тема останется непонятной для слушателей и читателей. Исследования показывают, что для того, чтобы понять текст, читатель должен быть знаком с 98 процентами всех встречающихся слов, в то время как естественнонаучные тексты и литература компьютерной тематики могут содержать около четверти слов специфичной научной лексики.

Gravity Falls / Disney 2013

Авторы новой работы представили De-Jargonizer — программу, которая обрабатывает научный текст и дает автору информацию о проценте содержания слов специфичной лексики и редких слов, а также показатель (в форме очков) того, может ли взятый текст быть понятен широкой аудитории. Для этого исследователи создали большой (500 тысяч уникальных вхождений) корпус научных статей. Слова в таком корпусе были разделены на три группы: частотные (2000 самых часто встречающихся слов английского языка и их словообразовательных форм), редкие (слова меньшей частотности) и жаргонизмы (слова научной лексики).

Алгоритм полностью рабочий, оснащен удобным интерфейсом и доступен для широкой публики. De-Jargonizer использует данный ему корпус для того, чтобы определить частотность каждого слова в тексте и отнести его к одной из трех групп (частотные, редкие или жаргонизмы) и вынести автору информацию о проценте содержания в его тексте слов каждого типа. На основании этого алгоритм затем определяет доступность текста для широкой аудитории и выдает сумму очков от 0 до 100.

Формула подсчета очков понятности текста. Rakedzon et al. / PLOS 2017

Пример работы алгоритма на аннотации (I) и кратком резюме (II) статьи журнала PLOS. Желтым цветом выделены редкие слова, красным – слова узкой научной лексики. Rakedzon et al. / PLOS 2017

Авторы проверили De-Jargonizer на 500 статьях из различных журналов издательства PLOS, специализирующегося на текстах различной научной тематики. Исследователи взяли аннотацию (abstract) и краткое резюме, написанное для широкой аудитории (lay summary). Результаты показали, что аннотации текстов по биологии содержат до 10 процентов слов специфичной лексики, в то время как резюме для широкой аудитории — около восьми процентов. Такой результат показывает, что, хотя и текст, написанный для широкой аудитории, содержит меньше научного жаргона, до понятности (текст должен содержать до двух процентов новой лексики, чтобы быть понятным) ему далеко.

Проблема проклятия знания является одним из самых распространенных недостатков академического письма. Автоматическое определение недостатков текста может помочь ученым избежать недопонимания при коммуникации с широкой, даже научной, аудиторией. Авторы планируют периодически обновлять корпус, используемый алгоритмом, а также включить в него другие языки.

Сложность текста не единственный параметр, по которому ученые могут быть «оторваны от реальности» с точки зрения других людей. Например, некоторые люди склонны считать ученых аморальными. А о том, как британские лингвисты используют корпусные технологии для того, чтобы предсказать динамику интереса британцев к политике, вы можете прочитать в нашей заметке.

Автор: Елизавета Ивтушок

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

nplus1.ru