Выше квартилей
3.01K subscribers
117 photos
1 video
1 file
328 links
HSE: Home of Scientometrics and Expertise

Обучение и консультирование по практическим вопросам research evaluation и управлении наукой.

Все вопросы и предложения направляйте @vyshekbot или на почту Наукометрического центра ВШЭ: [email protected]
加入频道
Дайджест: май 2024

Представляем свежий дайджест научных событий за последний месяц.

Научные события

- 30-31 мая проходит первая виртуальная конференция OpenAlex. Пользователи и разработчики делились опытом и планами на будущее. Презентации и запись можно будет найти на сайте и на YouTube-канале OurResearch (а мы скоро выпустим обзор по итогам).
- Объявлена тема Peer Review Week 2024: «Инновации и технологии в рецензировании». Об этом на Scholarly Kitchen написали организаторы события. К участию приглашаются все, кто так или иначе связан с процессом рецензирования. Судя по прошлому году, стоит ожидать вебинаров, хакатонов, онлайн-конференций, открытых дискуссий и не только.

Редакторская политика

- В Scientometrics вышла статья, анализирующая, влияет ли текст грантовой заявки на итог ее рассмотрения. Оказалось, что оценка заявки очень мало зависит от самого текста — если эксперты видят только короткую аннотацию, то их вердикт почти не меняется.
- Как мы (и некоторые наши коллеги) упоминали ранее, в этом месяце издательство Wiley анонсировало закрытие 19 журналов, что стало прямым следствием массового отзыва статей. Список журналов, которые прекратят выпускаться, можно найти на сайте Hindawi.
- IOP Publishing провели опрос насчет эффективности внедрения инструментов ИИ в процесс рецензирования. В опросе приняли более 3000 ученых. Согласно результатам, лишь 29% из опрошенных ученых считают, что внедрение ИИ окажет положительный эффект, 35% респондентов выказали негативное отношение к ИИ, а 36% убеждены, что внедрение ИИ не окажет никакого эффекта.

Базы данных

- В Quantitative Science Studies опубликовано достаточно подробное сравнение метаданных в восьми открытых библиометрических базах: Crossref, Dimensions, Google Scholar, Microsoft Academic, OpenAlex, Scilit, Semantic Scholar и The Lens. Авторы исследования показывают, что сторонние базы данных (Dimensions, OpenAlex, Scilit и The Lens) имеют более высокое количество и качество метаданных, чем академические поисковые системы (Google Scholar, Microsoft Academic и Semantic Scholar).
- Clarivate анонсировала новый продукт — Web of Science Research Intelligence. Судя по рекламному описанию, это инструмент для создания дэшбордов с интегрированным ИИ и рекомендательной системой.

Наука в России

- Число высокоцитируемых (по данным Clarivate) ученых из РФ сократилось до восьми, сообщает Институт статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ.
- Коллеги из НЖБД подвели предварительный итог по количеству публикаций российских авторов в Scopus — их чуть больше 88 тысяч. С 2021 года их количество незначительно снижалось, при том, что количество российских журналов в Scopus за последние пять лет заметно увеличилось.
- 6 мая был утвержден перечень поручений Президента по итогам мероприятий к 300-летию РАН, а 8 мая вышел указ, в котором заявлено создание отечественной системы мониторинга публикаций в области социальных и гуманитарных наук, причем эта система должна быть независимой от зарубежных рейтингов показателей (п. 11, пп. “в”).
- Определены победители десятого конкурса программы мегагрантов: восемь проектов под руководством ведущих ученых и два проекта молодых перспективных ученых. Со списком можно ознакомиться на сайте Минобрнауки РФ.
- Электронная библиотека eLibrary добавила сервис поиска близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в Институте ИИ МГУ. Система автоматически подбирает документы, максимально близкие по тематической направленности. Поиск реализован на странице с описанием публикации (пункт «Найти близкие по тематике публикации» в панели «Инструменты»).

#дайджест #новости #редакторскаяполитика #базыданных #наукавроссии #OpenAlex #искуственныйинтеллект
Конференция OpenAlex: по горячим следам

Как мы уже упоминали, 30 и 31 мая состоялась первая онлайн-конференция OpenAlex. Мы внимательно наблюдали за ней (и даже задали пару вопросов), и хотим поделиться кратким описанием докладов и новостей, которые показались нам наиболее интересными.

День 1:

1️⃣ В первой секции сделали доклады Джессика Эдвардс (библиотекарь Columbia University) и Сильвия Орнер (библиотекарь University of Scranton). Их презентации были посвящены специфике применения OpenAlex в работе университетских библиотек. Энди Херцог (библиотекарь University of Minnesota) рассказал о том, как интегрировал OA в систему управления научной информацией в библиотеке своего университета.
2️⃣ Во второй секции был представлен доклад Дэниела Санфельда (доцент Universidade de Brasilia), посвященный Laguna — бразильскому data lake, который может строить сети цитирований с использованием облачных вычислений. Александр Гейтс (научный сотрудник University of Virginia School of Data Science) на основе данных OA проанализировал, как фрагментирование глобальной науки ограничивает распространение идей: например, как скоро концепция после упоминания в одной стране появляется в другой.
3️⃣ В третьей секции Саджад Эбрахими (Toronto Metropolitan University) презентовал работу своей компании — это Reviewer.ly, приложение для поиска рецензентов. Чем-то похоже на нынешнюю версию интерфейса OA, но с большим упором на визуализацию, в особенности сетей коллабораций и облака слов. Еще один инструмент для визуализации, Complemetrix, представил Альберт Диас-Гилера (Universidad de Barcelona). Двое докладчиков рассказывали про scite.ai: Шон Райф, сооснователь компании, предложил подход к построению рейтингов на основе OA, а Рикардо Хартли (Universidad Central de Chile) рассказал о непосредственном применении scite.

Завершили первый день конференции Кайл Демес и Джейсон Портеной из компании OurResearch, которая разработала OpenAlex. Они подвели итоги и поделились последними результатами и планами компании. В частности, буквально в последние недели были реализованы: стемминг поисковых запросов (теперь поисковой движок должен воспринимать различные словоформы) и интеграция с Retraction Watch. В ближайшее время планируется добавить: метаданные финансирующих учреждений, выбор полей для экспорта, новые опции поиска и новые фильтры, настраиваемые группы и взвешенный citation impact для различных предметных областей. Чуть позже будут реализованы визуализация и аналитические инструменты внутри OpenAlex, дополнительные поля, помимо количества, в группировке (group-by), больше источников, больше метрик, больше грантов и больше встреч пользователей.

День 2:

1️⃣ Во второй день было больше докладов от институтов и аналитических заметок. В первой секции доклады представили Самуэль Мок (библиотекарь University of Twente) и Сара Критцлер (библиотекарь Duisburg-Essen University) — они рассказали о своих проектах, посвященных унификации метаданных и созданию кастомизированных библиометрических отчетов. Присутствовал также Эрик Жанжирар, представитель Министерства высшего образования и науки Франции, команда которого работает над Works Magnet — инструментом для курирования метаданных.
2️⃣ Во второй секции была презентация Нееса Яна ван Эка (CWTS Leiden University) о визуализации данных OA при помощи VOSViewer. Ян Хан (The University of Arizona) рассказал об использовании OA для измерении вклада научных сотрудников университета.
3️⃣ В третьей секции интересный доклад представила Малгожата Лагиш (University of South Wales) — о больших научных коллективах и их вкладе в большую науку. И, наконец, Паскаль Поплен и Амели Черч (Sorbonne Université) рассказали об опыте полного перехода со Scopus на OpenAlex, который не так давно предприняла Сорбонна.

Программу конференции можно найти на сайте OpenAlex. Там же чуть позже будут размещены презентации докладчиков и запись эфира.

#openalex #конференция
​​Королевство пустых зеркал

В рамках нашей рубрики #историянаукометрии мы уже не раз показывали, что наука о науке не сразу обрела собственный предмет.

В дискуссии, получившей название «Как перестать беспокоиться и полюбить реферируемые журналы», А. Космарский отметил, что наукометрия как способ изучения работы научных практик может быть интересна в двух перспективах. С одной стороны, интерес к изучению науки как самостоятельного предмета может быть внутренней практикой самой науки, ее саморефлексией над происходящими внутри науки процессами. С другой стороны, в ней заинтересованы внешние по отношению к науке лица, например, государство, которое может прибегать к использованию продуктов наукометрии для (не-)эффективного администрирования процессов самой науки.

Т. Франссен и П. Воутерс в своем исследовании об изменениях использования библиометрии подчеркивают, что две эти перспективы в отношении гуманитарных наук последовательно сменяют друг друга: с 1960-х по 1980-е годы библиометрия является частью социологической оптики для изучения внутринаучных процессов, в то время как с 1980-х годов библиометрия начинает в большей степени рассматриваться как эмпирический материал для формирования научных политик и оценки исследований.

Учитывая наш личный интерес к теме, мы не могли пройти мимо анонса нашего коллеги Андрея Герасимова, который приглашает принять участие в конференции «Королевство пустых зеркал: социальные исследования социальных наук». Конференция, которая пройдет в Шанинке и онлайн, будет посвящена как эмпирическим исследованиям, реконструирующим путь становления наук и изменения их формы, так и теоретическим подходам к научной самообъективации. Направления конференции затронут в первую очередь разные социологические подходы, будь то исследования социо-гуманитарного знания в СССР, интеллектуалов, подходов к социальным наукам или социология социологии. Кроме того, одним из заявленных направлений, которое может особенно заинтересовать наших постоянных читателей, выступит наукометрическая перпектива (а также ее враги!): как цифры характеризуют нынешнее положение социальной науки, а также при помощи каких практик наука изучает эти цифры?

Мы же, по обыкновению, решили посмотреть, как схожие темы представлены в OpenAlex. Выборку было решено делать по концепциям, а не по недавно появившимся тематикам, поскольку только среди концепций удалось найти соответствующие пункты. Для анализа мы выбрали следующие концепции: Scientific integrity, Scientific thinking, Scientific evidence, Sociology of knowledge, Scientific modelling, Scientific reasoning, History of science, Scientific society, Scientific revolution, Scientific method, Scientometrics, Scientific progress, Science studies, Sociology of scientific knowledge, Scientific theory, Informetrics, порог балла связи (score) 0,5, временной период — с 2014 по 2024 гг. Результаты представлены на диаграмме (есть и интерактивная версия). Больше всего как цитирований, так и публикаций насчитывает наукометрия — более 3 тысяч статей были процитированы почти 25 тысяч раз. Сразу обращают на себя внимание концепции «научное доказательство» (scientific evidence) и история науки — публикаций по каждой из концепций около 2 тысяч, но при этом цитирований у первой более 20 тысяч, а у второй — всего 5479.

#конференция #OpenAlex #аналитика
Внедрение стандартизированных рецензий

Марио Малички (Mario Malički), редактор Research Integrity and Peer Review, опубликовал результаты пилотного исследования внедрения практики стандартизированных рецензий в журналы издательства Elsevier.

По мнению автора, рецензенты редко комментируют одни и те же аспекты исследования, что затрудняет точность оценки качества исследований и ставит под сомнение объективность процесса рецензирования.

«Я получил 2 рецензии на статью, отправленную на рассмотрение в журнал; в одной было 3 комментария, в другой — 11. Отзывы отличались по всем пунктам, кроме одного. Замечания были даны в адрес проработки раздела “обсуждение” (discussion), а также некоторых методологических деталей. Постановка целей, анализ данных и слабые стороны исследования остались без внимания рецензентов», — пишет Малички.

Авторы, как правило, руководствуются двумя распространенными предположениями в отношении отзывов рецензентов: во-первых, все аспекты, которых не коснулись рецензенты, не подверглись критике; во-вторых, рецензенты обладали достаточными знаниями для всесторонней оценки исследования.

Однако, согласно ряду исследований, процесс рецензирования полон недостатков, которые связаны с неспособностью некоторых рецензентов обнаружить:

🔹 (значительные) методологические недостатки статьи;
🔹 неточности в интерпретации и обобщении результатов;
🔹 неправильное использование ссылок;
🔹 отсутствие данных, необходимых для повторного анализа или воспроизведения исследования;
🔹 отсутствие элементов, необходимых для оценки предвзятости или качества исследования.

По мнению автора, повысить качество экспертной оценки можно за счет внедрения стандартизированных отзывов на публикации, для чего журналы должны предоставлять рецензентам список вопросов, сосредоточенных на всех аспектах исследования, а также размещать на сайте журнала:

а) список вопросов для рецензентов (что позволит авторам использовать те же вопросы в качестве контрольного списка для анализа работы и повышения её качества);
б) развернутые отзывы рецензентов (что позволит читателям посмотреть как оценивалась статья, а исследователям даст возможность изучить практику рецензирования).

Стандартизированное рецензирование было апробировано в августе 2022 года в 220 журналах Elsevier. В рамках пилотного исследования было проанализировано примерно 10% выборки, а именно — 214 отзывов рецензентов на 107 статей из 23 случайно выбранных (вне зависимости от тематики и квартиля) журналов. Каждый отзыв состоял из ответов на 9 одинаковых вопросов и информации, оставленной в поле «Комментарии для автора», и в конфиденциальном поле «Комментарии для редактора». Ознакомиться с шаблоном вопросов можно по ссылке.

Абсолютное совпадение мнений относительно окончательных рекомендаций рецензента составило 41%, причем статистической разницы между научными областями или квартилями обнаружено не было, тогда как по последним данным Elsevier (на основе 7 220 243 рукописей, опубликованных с 2019 по 2021 год в 2416 журналах), рецензенты приняли одинаковые решения на первом этапе рецензирования всего в 30% случаев.

Более того, в ряде случаев комментарии рецензентов совпадали в отношении отдельных фрагментов работы. Согласно результатам исследования, самое высокое (частичное) согласие рецензентов (72%) было обнаружено при оценивании структуры статьи, а самое низкое (частичное) согласие (53%) — для оценивания подтверждения интерпретации результатов данными, а также для оценки уместности и достаточной детальности статистического анализа (52%).

Предварительные результаты показывают, что, руководствуясь одними и теми же вопросами, рецензенты давали идентичные первоначальные рекомендации насчет принятия/отклонения или доработки публикации. По мнению автора, отсутствие стандартизированных практик в рецензировании замедляет прогресс науки, а их внедрение поможет сделать отзывы более объективными, прозрачными и заслуживающими доверия.

#Elsevier #рецензирование #обзор
​​Data paper как самостоятельная наукометрическая единица

Не так давно Иван Бегтин, которого мы регулярно читаем, опубликовал пост о том, что следует считать наборами данных. Это могут быть как стандартные датасеты, так и другие типы данных: data paper, data report, data article и data note. В такие публикации входит не только текст статьи, но и ссылки на исходные данные или данные, полученные в результате работы.

Пока нет общего мнения, можно ли считать наборы данных отдельным типом данных и следует ли в принципе индексировать их в библиометрических системах, но, как минимум, Scopus добавил к параметру DOCTYPE допустимое значение “dp” (data paper) (правда, в справке пока что этой информации не содержится), в Web of Science data paper индексируются с 2016 года, причем им присваивается двойное значение — data paper и article, а в OpenAlex есть тип “dataset”.

Наборы данных пока не везде считаются отдельным типом данных, поэтому не во всех библиометрических базах можно выделить их однозначно, но мы сделали несколько разрезов, чтобы внимательнее рассмотреть, как распределяются публикации по годам и областям, а также — какие издательства уже публикуют работы с подобными ссылками.

В Web of Science за все годы было 15 677 публикаций с типом data paper, в Scopus немного больше — 16 146. В OpenAlex же хранится информация о более чем 7 миллионах датасетов, из которых более 4 — в открытом доступе, однако данных о data paper как о полноценных статьях, описывающих содержание датасета, пока нет.

Мы проанализировали data paper, индексируемые в Scopus, по нескольким разрезам, чтобы понять, насколько распространены подобные публикации в различных странах и областях знаний. Среди государств ожидаемо лидируют США и КНР (при этом в США было опубликовано более 3000 data paper, что почти вдвое больше, чем в Китае). Россия на 12 месте (493 data paper) и опережает, например, Нидерланды, Швейцарию и Бельгию.

По областям (если не считать ожидаемого пика у Multidisciplinary) почти наравне держатся компьютерные и социальные науки — 2516 и 2507 публикаций соответственно. За ними с незначительной разницей идут науки о принятии решений и математика — 2447 и 2410. А вот биохимия, генетика и молекулярная биология, которые часто приходят на ум при словосочетании «набор данных», имеет всего 239 data papers.

Важно отметить, что большая часть data papers размещена в открытом доступе: 14 676 публикаций из 16 146 имеют различный статус Open Access, от Gold до Hybrid.

#Scopus #openaccess #datapaper
Salami Slicing: от одного исследования ко множеству публикаций

“Тактика салями” в академическом мире (Salami Slicing) — неуместное разделение одной публикации на ряд публикаций с идентичными или очень похожими данными в каждой статье. Термин, широко используемый в теоретико-игровом моделировании, как нельзя лучше подходит для описания подхода, нацеленного на искусственное завышение публикационной активности.

Попытка дважды опубликовать результаты, полученные в ходе выполнения одного исследования, — этически неприемлемая практика, она не только может приводить к искажению исследовательских выводов, но и может навредить академическому сообществу по ряду других причин:

🔹 создает дополнительную работу для читателей, будущих авторов, рецензентов и редакторов;
🔹 идет рука об руку с самоплагиатом;
🔹 приводит к дублированию публикаций.

Такая стратегия наиболее опасна для молодых исследователей, которые могут привыкнуть анализировать данные частями, забывая, что в таком случае из поля зрения ускользают более ценные выводы, которые можно было бы изложить в ходе одного исследования.

Очевидно, что опубликовать многокомпонентные исследования гораздо сложнее, чем более простые, как минимум, из-за объема работы, которую необходимо провести авторам и редакторам перед публикацией статьи. Поддаваясь искушению пойти по более лёгкому пути, исследователи в долгосрочной перспективе могут значительно снизить свои шансы на публикации во влиятельных журналах.

Дополнительная сложность заключается в том, что Salami Slicing легче идентифицировать в количественных исследованиях, чем в качественных. В дискуссиях о том, что же понимать под “неоправданной сегментацией”, исследователи сформулировали вопросы, положительные ответы на которые помогут распознать этот вид академического мошенничества:

💠 каждая публикация проверяет одну гипотезу?
💠 две (и более) публикации основываются на одном и том же массиве данных?
💠 исследования сообщают об одних и тех же результатах?/приходят к одним и тем же выводам?

Однако принудительное применение таких правил к некоторым исследованиям (например, в социальных науках) сводит сложные исследовательские вопросы к простым «данным», лишая их более глубокого контекста и значения.

Мигель Ройг, исследователь в области академической честности, в своем гайде на эту тему рекомендует напоминать себе следующее: “Если результаты одного сложного исследования наилучшим образом можно представить как “связанное” единое целое, их не следует разбивать на отдельные статьи”.

“Тактика салями” — явление хоть и не новое, но тяжело отслеживаемое, особенно в условиях высококонкурентной и ориентированной на публикации академической реальности. Следует помнить, что как и в случае с другими формами избыточности и фактического дублирования статей, неоправданная сегментация исследования приводит к искажению информации, заставляя ничего не подозревающих читателей верить в то, что данные, представленные в каждом кусочке салями (т. е. в журнальной статье), получены независимо друг от друга.

P.S.
Этот пост продолжает серию заметок о недобросовестных исследовательских практиках и мошенничестве в академическом мире. Мы публикуем серию карточек на эту тему, чтобы нашим подписчикам было проще не заблудиться в dark side of publishing.

#SalamiSlicing #тактикасалями #обзор
Dark side of publishing. Недобросовестные исследовательские практики, научная этика и опасности на исследовательском пути.
Использованы иллюстрации Robert Neubecker, David Parkins.
​​​​Обновление квартилей JCR

20 июня, как уже заметили некоторые наши коллеги, обновился список Journal Citation Reports (JCR) от Clarivate, в котором приводится распределение по квартилям для всех журналов, индексирующихся в Web of Science. А мы традиционно проанализировали «миграцию» журналов «классических» коллекций (SCIE и SSCI) между квартилями, добавив к sankey-диаграмме квартили за 2023 год (на диаграмме 2021, 2022 и 2023 годы приведены слева направо). Кроме того, мы дополнили приложение квартилями для российских журналов. Внизу же демонстрируются различия в распределении самого импакт-фактора для разных коллекций (AHCI, ESCI, SCIE и SSCI). Для журналов из коллекций Arts and Humanities Citation Index (AHCI) и Emerging Sources Citation Index (ESCI), как вы, наверное, помните, импакт-факторы опубликованы впервые в прошлом году, это — второй выпуск.
​​Дайджест: июнь 2024

Первый летний месяц в мире науки традиционно тихий. Тем не менее, за июнь произошел ряд интересных событий, и мы представляем свежий дайджест.

Научные публикации

- Подошла к концу история с амилоидной гипотезой возникновения болезни Альцгеймера (мы писали о ней ранее). Карен Эш, соавтор-корреспондент и коллега Сильвена Лесне, согласилась с необходимостью ретракции статьи 2006 года, и 24 июня статья была отозвана.
- На конференции FAccT’2024 была представлена работа А. Лизенфельда и М. Дингеманса, в которой анализируется, насколько генеративные ИИ с открытым исходным кодом действительно открыты (на самом деле не очень).

Редакторская политика

- На конференции Clarivate Ignite 2024, проходившей в Сан-Диего, США, представили IP Collaboration Hub. Новое решение позволит управлять всем процессом подачи и рассмотрения заявок на патенты и товарные знаки за рубежом с помощью единого механизма учета заявок.
- Кроме того, Web of Science запустили систему Research Horizon Navigator — новый модуль с поддержкой ИИ в InCites Benchmarking & Analytics. Он призван помогать быстро находить новые темы, возникающие в научном сообществе в области интересов конкретного исследователя или института.
- Система Problematic Paper Screener (PPS), используемая для обнаружения признаков плагиата в научных публикациях, теперь может распознавать так называемые «искаженные аббревиатуры» — довольно явный признак того, что статья была написана при помощи ИИ.

Базы данных

- В Scientometrics вышла статья о разработке и применении нового библиометрического пакета для R — biblioverlap. Сам пакет доступен в репозитории CRAN. Предлагаем читателям пробовать и делиться своими впечатлениями (мы тоже скоро планируем).
- Появился список Altmetrics 500. Туда входят статьи, которые привлекли наибольшее внимание в Интернете в 2023 году: в новостях, цитатах, Википедии и X/Twitter.

Университетские рейтинги

- 30 мая вышел новый выпуск международного рейтинга университетов RUR. Всего в этом году в рейтинге 131 российский вуз, но в первую сотню попал только МГУ.
- 19 июня на XII ежегодном форуме ведущих вузов «Будущее высшей школы» был представлен рейтинг лучших российских вузов RAEX-100. В топ-3 — МГУ, Бауманка и МФТИ.
- 25 июня был опубликован свежий рейтинг USNews, в котором рассматривается 2250 вузов из более чем 100 стран. Из России в рейтинге 42 вуза, на первом месте по стране — Южно-Уральский государственный университет.

Наука в мире

- Планируемые изменения в системе Research Excellence Framework (Великобритания) вызывают у научных администаторов опасения: если учитывать в REF результаты работы сотрудников, работающих всего на 0,2 ставки (FTE), то университеты могут начать фиктивно нанимать сильных ученых для повышения своих показателей.

Наука в России

- ТюмГУ вслед за САФУ и МГПУ утвердил право студентов использовать генеративный ИИ при написании ВКР.
- Федеральная антимонопольная служба оштрафовала Яндекс за распостранение рекламы сервиса по написанию рефератов, курсовых и дипломных работ.
- Опубликован список победителей в конкурсе на “президентскую мегастипендию для аспирантов” в размере 75 тыс. рублей. Мы поздравляем победителей!
- Указом Президента РФ от 18.06.24 были утверждены обновленные а) приоритетные направления научно-тенхологического развития и б) перечень важнейших наукоемких технологий.

И бонусная новость: фармацевтическая компания «Ланцет» подала иск с требованием прекратить правовую охрану товарного знака The Lancet (и не только). Дело зарегистрировано под номером №СИП-589/2024, к участию привлекли и Роспатент. Пока что суд вынес определение об оставлении искового заявления без движения, но мы будем с интересом наблюдать за развитием событий.

#дайджест #новости #редакторскаяполитика #базыданных #наукавроссии #искуственныйинтеллект #рейтинги
Чат-боты: цитировать или не цитировать? 

Растущий интерес к использованию искусственного интеллекта (ИИ) в написании научных работ и ряд скандалов, связанных с его недобросовестным применением в академической сфере, провоцируют острую дискуссию. Летисия Антунес Ногейра (Leticia Antunes Nogueira), руководитель проекта по искусственному интеллекту, и Ян Уве Рейн (Jan Ove Rein), библиотекарь-исследователь, оба — сотрудники NTNU опубликовали заметку (ч. 1, ч. 2), в которой сосредоточились на критике концепции цитирования языковых моделей в научных публикациях.

В заметке авторы сузили фокус до двух моделей (ChatGPT от OpenAI или Claude от Anthropic), так как предполагают, что пользователи, которые работают с инструментами, применяющими возможности GenAI в сочетании с другими системами (например, Perplexity и Scopus AI), будут ссылаться на оригинальные источники.

В политике ведущих мировых издательств и академических организаций существует общее мнение насчет того, что чат-боты не отвечают минимальным требованиям к авторству, однако вопрос о том, можно ли (и следует ли) цитировать чат-боты в качестве источников, остается открытым.

Сторонники цитирования сообщений чат-ботов отмечают, что цитирование необходимо как минимум по двум причинам:
· признание чужого вклада и влияния идей;
· раскрытие источников информации.

Эти два, казалось бы, простых аспекта связаны с некоторыми противоречиями.
Противники цитирования (и иногда использования) чат-ботов подчеркивают, что результаты, полученные с использованием ИИ, преимущественно невозможно отследить, воспроизвести или проверить. В дополнение к этим ощутимым аргументам, исследователи акцентируют внимание на нескольких этических аспектах:

🔹Ответственность авторов
Языковая модель не может нести ответственность за утверждения, включенные в публикацию от её «лица». Одно дело цитировать организацию (например, доклад ООН), и совсем другое — чат-бота. Организации состоят из людей и поэтому несут ответственность за предоставляемую информацию, чат-бот или его разработчики нести такую ответственность не могут.

🔹Загрязнение информационной среды
Упоминание чат-ботов в источниках ведет к загрязнению информационных экосистем. Если для обучения больших языковых моделей использовать данные, сгенерированные ИИ (т. е. тексты из Интернета, академические тексты и т. д.), это приведет к ухудшению качества моделей.

🔹ИИ — не истина в последней инстанции
Чат-боты не создавались как инструменты для информационных целей. Неопределенность в отношении качества их ответов обусловлена назначением и структурой чат-ботов, а не степенью технологической зрелости. Большие языковые модели (LLM) основаны на моделях использования языка, а не на информации, и вероятностны по своему принципу работы, а это означает, что некорректный результат в таком случае — особенность, а не ошибка.

APA рекомендует цитировать текст, полученный от чат-бота, как результат работы алгоритма: а именно, ссылаться на автора алгоритма в списке источников. Дело в том, что результаты «переписки» с ChatGPT невозможно воспроизвести. Сейчас в APA такие данные часто цитируются как личная переписка, но это не совсем корректно, потому что сгенерированный текст не исходит от чьей-либо личности. В то же время ICMJE и Elsevier занимают однозначную позицию и рекомендуют авторам не ссылаться на чат-боты.

Появление чат-ботов бросает вызов устоявшимся представлениям об источниках, информации и знании, которые совсем недавно считались само собой разумеющимися. Тем не менее, в эпоху искусственного интеллекта обеспечение целостности информационной экосистемы требует все больших усилий. По мнению авторов, поскольку связность и смыслы в любом случае находятся «в глазах смотрящего», наборы слов, полученные в результате вероятностных вычислений, нельзя назвать ни источниками, ни информацией, ни знаниями. Текст, генерируемый чат-ботами — скорее, воплощение отсутствия информации.

#ChatGPT #ИИ #искусственныйинтеллект #цитирование
​​Коротко и ясно: зависит ли цитируемость статьи от длины заголовка?

Большинство исследователей настаивают на том, что заголовки опубликованных работ должны быть относительно краткими, так как заголовки — это первая, а иногда и единственная информация, которую читатель получает из публикации.

Результаты опроса (впрочем, довольно старого), в котором приняли участие более 5000 человек, показали, что читатель научных журналов просматривает в среднем 1142 заголовка, 204 аннотации и 97 статей в год. Растущий поток информации и повышающаяся конкуренция в академической среде приводят к тому, что читателю, вероятнее всего, проще откинуть статью с витиеватым заголовком, не вникая в ее содержание (не случайно некоторые научные журналы ограничивают количество слов в заголовках). Как мы недавно видели, короткий и броский заголовок действительно может привлечь внимание.

С другой стороны, согласно теории поисковой оптимизации (SEO), длинный заголовок может помочь в поиске статьи по ключевым словам, благодаря чему статья привлекает больше внимания, и, соответственно, чаще цитируется. Исследователи Шанхайского университета финансов и экономики (SUFE) называют это информативным эффектом (informative effect), а факторы, подтверждающие положительную корреляцию между короткими заголовками и цитированием статей, — эффектом лаконичности (succinct effect).

На основе выборки из более чем 300 000 статей SSCI по экономике с 1956 по 2012 год они определили, что статьи с короткими названиями лучше цитировались в период, когда поиск литературы не был так тесно связан с цифровыми технологиями (1956–2000 годы), а уже с 2001 года наблюдается рост цитируемости статей с длинными заголовками.

Здесь необходимо отметить несколько аспектов. Во-первых, сами авторы стали использовать больше слов в заголовке (см. график). В частности, в 2010–2012 годах в заголовке в среднем было 10,4 слова, что на 33% больше, чем 7,8 слов в 1956–1958 годах.

Согласно исследованию, в XXI веке количество цитирований статьи должно возрастать на 0,60% с каждым дополнительным словом, добавленным в название статьи. Следует отметить, что, помимо длины заголовка, в исследовании были учтены другие факторы, которые могут влиять на количество цитирований:

💠 Количество страниц в статье. Статьи тоже стали длиннее, а такие статьи, согласно некоторым исследованиям, чаще цитируют.
💠 Число соавторов. Было обнаружено, что чем больше соавторов, тем больше цитирований, так как статья привлекает больше внимания.
💠 Количество ссылок в работе. Чем больше в статье ссылок на предыдущие работы, тем больше доверия она вызывает. Также обширный список источников связан с формой взаимного альтруизма — «Я цитирую вас, а вы цитируете меня».
💠 Алфавитный порядок авторов. Первого автора из списка чаще цитируют и упоминают.
💠 Порядок статьи в выпуске. Первые статьи в выпуске, как правило, больше скачивают и цитируют.

На данном этапе развития науки почти весь поиск литературы осуществляется в онлайн-базах данных, причем многие поиски ограничиваются ключевыми словами. По мнению авторов исследования, статьи с краткими названиями были более привлекательны в предыдущие десятилетия, но с развитием интернета информативный эффект начал превосходить эффект лаконичности. Исследователям не стоит жалеть время на выбор заголовка публикации, так как число статей и журналов, к которым можно получить онлайн-доступ, постоянно растет. А мы планируем вскоре вернуться к этой теме со своим исследованием, чтобы слегка освежить данные, полученные в оригинальной статье.

#цитирование #SSCI #обзор
«Стоковые» члены редколлегии в хищнических журналах

Как мы упоминали ранее, хищнические издательства часто пользуются без авторизации личными данными ученых и включают их в редакционные коллегии своих журналов (если эти редколлегии, конечно, вообще есть).

В июльском выпуске Learned Publishing вышла статья, посвященная описанию «стоковых» персонажей (stock characters) хищнических редколлегий, под которыми автор подразумевает ученых, которые одновременно входят в редколлегии 20 и более недобросовестных журналов.

В период с 2017 по 2023 год Майк Даунс (Mike Downes) тщательно изучал тысячи редакционных коллегий журналов, издатели которых входят в Список Билла (Beall's List). Им были обнаружены 96 исследователей, каждый из которых состоит в редколлегиях от 20 до 503 журналов (по состоянию на 2023 год).

В выборку вошли только хищнические журналы, редакционная политика которых допускает три этических нарушения:

🔹 фабрикация дат рецензирования статей;
🔹 кража личных данных;
🔹 заполнение архивов фальшивыми статьями.

По мнению автора, «стоковые» персонажи встречались настолько часто, что можно уверенно воспринимать их присутствие или отсутствие в качестве полноценного критерия, отличающего честного издателя от недобросовестного.

Такие персонажи, как правило, обращают на себя внимание за счет следующих «красных флагов»:

🔹 невозможность обнаружить профиль ученого на сайте вуза, в котором он якобы работает;
🔹 членство в редколлегиях журналов по двум и более несвязанным темам;
🔹 такой ученый практически никогда не встречается в редколлегии влиятельного журнала.

Конечно, информация о членах редколлегии может быть украдена полностью или частично, т.е. в некоторых случаях ученые не знают, что выступают в такой роли, но иногда исследователи добровольно вступают в такие редколлегии (в таких случаях они там же публикуют свои работы). Очевидно, что членство в совете редколлегии хищнического журнала, которое указано в разделе «Достижения» или в каком-либо схожем разделе биографии исследователя, нельзя назвать кражей личных данных.

Опасность заключается в том, что если имя ученого упоминается в хищнических редколлегиях сначала один, два, а потом несколько раз, и исследователь не замечает этого (или не хочет замечать), такое лицо легко становится типичной жертвой кражи личных данных.

Майк Даунс отмечает, что после его переписки с рядом «стоковых» персонажей, нескольким авторам, внесенным в редколлегии без их согласия, удалось немного исправить ситуацию. Например, один исследователь, который когда-то входил в 361 редколлегии, на данный момент состоит в 118. Однако существуют и мертвые «стоковые» персонажи, которые не могут за себя постоять (так, например, один профессор уже четвертый год после смерти продолжает занимать должность главного редактора журнала).

«Стоковые» персонажи включают в редакционные коллегии, чтобы создать впечатление, что журнал соответствует академическим стандартам. Согласно опросу автора, «стоковых» персонажей и многих других ученых, появлявшихся в редакционных коллегиях хищнических издательств, часто объединяет смутное воспоминание о том, что они согласились стать членом редакционной коллегии много лет назад и с тех пор больше ничего об этом не слышали. Внимательность в таких вопросах может помочь вовремя заметить кражу личных данных исследователя и принять соответствующие меры.

#predatoryjournals #хищническиежурналы #редколлегия #обзор