ChatGPT登場後、医学論文で特定の語彙使用が急増
国立研究開発法人国立精神・神経医療研究センター(NCNP)病院 臨床検査部の松井健太郎医長は、ChatGPTをはじめとする大規模言語モデル(LLM)が頻用するとされる単語やフレーズが、医学論文において増加しているかを検証しました。
今回の研究から、医学論文において「delve」「underscore」「meticulous」などの特定語彙が2024年に顕著に増加していること、またこれらの語彙は2020年頃から増加傾向にあり、ChatGPT公開後の2023〜2024年に急激に加速したことが明らかになりました。この知見は、AI支援による論文執筆における語彙の偏りを認識し、医学教育や論文指導において適切な編集を促すための基礎資料となります。
本研究成果はオランダ医学教育学会誌『Perspectives on Medical Education』に2025年12月2日に掲載されました。
研究の背景
大規模言語モデル(LLM)は、2022年11月のChatGPTの公開以降、学術論文の執筆支援ツールとして急速に普及しています。特に英語を母語としない研究者にとって、LLMは文章の推敲や表現の改善に有用なツールとなっており、その使用を適切に開示すれば認めるという枠組みが学術出版界で確立されつつあります。
一方で、LLMが生成する文章には特徴的な語彙パターンがあることが先行研究で指摘されてきました。「delve(深く掘り下げる)」、「meticulous(几帳面な)」、「intricate(複雑に)」などの単語がLLM生成文に頻出することが報告されていましたが、これらの語彙が実際の医学論文でどの程度増加しているのか、また一般的な学術表現と比較してどの程度顕著な変化なのかについて、長期的な定量分析が行われていませんでした。
そこで本研究では、2000年から2024年までのPubMed収録論文を対象に、LLMに特徴的とされる135の語彙と、医学論文で一般的に使われる84の表現を比較し、ChatGPT登場前後での使用頻度の変化を統計的に検証しました。
研究の概要
ChatGPTをはじめとする大規模言語モデル(LLM)は、2022年11月の公開以来急速に普及し、学術論文の執筆にも広く利用されるようになっています。LLMには特定の語彙を頻繁に使用する傾向があることが報告されており、「delve(深く掘り下げる)」「meticulous(几帳面な)」「underscore(強調する)」などの単語がLLM特有の表現として知られています。しかし、これらの語彙が医学文献においてどの程度増加しているか、また一般的な学術表現、例えば「analysis (分析)」, 「this study (この研究)」,「models (モデル)」「associate with (~と関連する)等)」と比較してどのような傾向を示すかについては、長期的な検証が行われていませんでした。そこで、LLMに関連するとされる語彙がChatGPT登場後に医学文献で増加しているという仮説を検証するために研究を行いました。
研究では、LLMの語彙パターンを報告した15の先行研究から135の潜在的にAIの影響を受けたと考えられた用語を抽出しました。比較対照として、医学研究で一般的に使用される84の学術表現を設定しました。PubMedに2000年から2024年までに登録された約2,750万件の論文レコードを対象に、これらの用語の使用頻度を追跡しました。使用傾向は修正Zスコア変換を用いて標準化しました(図1)。

| 【図1】:用語使用頻度と修正Zスコアの散布図 2024年における各用語の使用頻度(横軸、対数スケール)と修正Zスコア(縦軸、対数スケール)の関係を示す。赤色の円は潜在的にAIの影響を受けたと考えられた用語、灰色の円は医学分野での一般的な学術用語(対照群)。上位から順に、「delve(深く掘り下げる)」「underscore(強調する)」「primarily(主に)」「meticulous(几帳面な)」「boast(誇る)」「commendable(称賛に値する)」「showcase(見せる)」「surpass(超える)」「intricate(複雑な)」といった単語表現が顕著に増加していた。 |
解析の結果、潜在的にAIの影響を受けたと考えられた用語は、対照群と比較して有意に使用頻度が増加していました(β = 0.655, p < 0.001)。この結果は、使用頻度の低い用語を除外した感度分析でも変わりませんでした。潜在的にAIの影響を受けたと考えられた用語は2023年から2024年にかけて顕著な増加を示しましたが、興味深いことに、この増加傾向はChatGPT公開(2022年11月)より前の、2020年頃から始まっていました。この結果は、LLMの登場がまったく新しい言語パターンを生み出したのではなく、既存の傾向を加速・増幅させた可能性を示唆しています(図2)。

| 【図2】 潜在的にAIの影響を受けたと考えられた用語と一般的な医学用語の使用頻度の推移(2000-2024年) AIが頻用するとされる用語は2020年頃から増加し始め、ChatGPT登場後の2023-2024年に急激な上昇を示した。影付き領域は95%信頼区間を示す。 |
今後の展望
ChatGPTに代表されるLLMの出力した文章は、そのままでは最終成果物とはなりえません。LLMによって生成された文章を批判的に見直し、適切に軌道修正する能力を養うことは、医学教育の文脈において重要です。それ以上に、LLMの適切な使用により、執筆効率の向上や、原稿の質的改善が期待されることから、LLMの活用スキルの獲得は、ある程度経験のある医学系研究者において、より大きなアドバンテージとなりえます。LLMの進化に伴う語彙や表現パターンの変化を今後も継続的に追跡し、得られた結果をもとに啓発を進めることで、わが国の医学系研究者たちがAIツールの利点を最大限に活用できる環境の構築に貢献していきます。用語解説
1)大規模言語モデル(LLM):大量のテキストデータを学習し、人間のような自然な文章を生成できるAI技術。ChatGPT、Claude、Geminiなどが代表例で、学術論文の執筆支援にも活用されている。
2)修正Zスコア:データの中央値からの偏差を示す統計指標。外れ値の影響を受けにくく、絶対値が3.5以上の場合に意味のある増減があったと判断される。
3)PubMed:米国国立医学図書館が提供する医学・生命科学分野の文献データベース。世界中の医学論文が収録されており、本研究では2000年から2024年までの約2,750万件のレコードを分析対象とした。
原著論文情報
・論文名:Delving Into PubMed Records: How AIInfluenced Vocabulary has Transformed Medical Writing since ChatGPT
・著者:Kentaro Matsui
・掲載誌:Perspectives on Medical Education
・Doi:10.5334/pme.1929
・URL:https://pmejournal.org/articles/10.5334/pme.1929
研究費情報
本研究結果は、日本学術振興会・科学研究費補助金(22K15778)の支援を受けて行われました。
参考リンク
NCNP病院:https://hsp.ncnp.go.jp/
臨床検査部:https://hsp.ncnp.go.jp/clinical/department.php?@uid=7kVyLEnrMX22ERHK




