これはhttp://mitochondrion.jp/に掲載している「医学日記」を 検索用に 1 記事 1 ファイルとして形成し直したものです。 簡単なプログラムで自動生成しているので、体裁の乱れなどが一部にあるかと思われます。 通して読むには、トップページからオリジナルページにアクセスしてください。


2024/06/04 朝日新聞「X 線では『見えない骨折』AI が発見へ」の記事に対する批判

研究上の必要から、深層学習の基本的な部分を習得した。世間では「人工知能」とか「Artificial Intelligence (AI)」などと呼ばれることもある分野だが、この技術が行っているのはあくまでパターン認識に過ぎず、知能と呼べるようなものではない。

さて、本日付で朝日新聞にX 線では「見えない骨折」AI が発見へ 病院直結の工学研究所が論文という記事が掲載されていた。この記事は、人間の眼では診断が難しいような骨折症例について、深層学習を用いることで高精度に判定できた、というな雰囲気で書かれている。この論文の筆頭著者はバングラデシュ出身の大学院生 (博士課程) であるラシェドーラ・ラーマンであるという。この記事をみたとき、私は「おや」と思った。深層学習を用いたこの種の研究では、何を「正しい診断」とするかが問題になる。人間の診断を「正しい診断」つまり教師データとして用いるのは簡単であるが、その場合、原理的に、深層学習では人間より正確に診断することができない。それゆえ「診断の補助に有用」というような表現をされることが多く、医師の代わりにコンピューターを使う、という水準には、なかなか達しない。人間より正確な診断を求めるならば、教師データに何か特別な工夫が必要となる。

朝日の記事の見出しからは、この論文では人間より正確な診断ができたかのように読める。そこで、いったい、どんな工夫を用いたのか気になり、記事全文を読んでみた。記事によると、ラーマンは臨床的に撮影されたコンピューター断層撮影 (Computed Tomography; CT)から再構成された「単純 X 線画像風の画像」を教師データとして用いることで「人間の眼では診断困難な骨盤骨折」の画像を作成し、教師データに用いたという。なるほど、それなら可能だろうし、すばらしい研究だね、と私は思った。通常、単純 X 線画像では CT に比して、診断の精度は大きく劣る。それに対し、もし単純 X 線画像と深層学習の組み合わせで CT 並の精度を達成できるなら、医療経済的にも、患者の被曝を減らす意味でも、また重症患者を CT 撮影室に搬送せずに済むという点でも、有益である。特に骨盤骨折の場合、CT 撮影室に搬送すること自体が止血の妨げとなり生命を脅かす恐れがあるので、CT なしに診断できることの意義は大きい。

朝日の記事にはラーマンの方法がどの程度の精度で診断できたのか書かれていなかったため、元論文を読もうとした。なぜか朝日新聞は元論文の引用情報を記載していないのだが兵庫県立大学兵庫県立はりま姫路総合医療センターがプレスリリースを出しており、それによるとSci. Rep. 14, 8004 (2004) のようである。なお、この Scientific Reports という論文誌は査読が甘いことで有名である。

元の論文を読んで、がっかりした。そもそも、この論文が何を主張しているのか、さっぱりわからない。結論 conclusion に相当する記述がないのである。研究結果が科学的に極めて重要なものであるなら、結論など書かなくても自明である、ということもありえるが、この研究がそれほどまでのものとは、私には思われない。

この論文では、深層畳み込みニューラルネットワーク (deep convolutional neural network; DCNN) を用いて骨折の有無を判定するにあたり、「ImageNet と呼ばれる公開データセットで学習させた後にCT から再構成した画像でチューニングを行った場合」と、「CT から再構成した画像で学習とチューニングを行った場合」の比較、などを行っている。その上で、ImageNet を使う「従来法」に比べて、再構成画像のみを使う方が精度が良かった、などと述べている。私はこの abstract を読んだ時点で、おや、と思った。ImageNet というのは、犬やら猫やら苺やらが写った汎用画像データ集であって、「写真に何が写っているか」を判定するための深層学習用教師データとしては有用であるが、医療画像の判定に役立つとは思われないからである。ところがラーマンによると、この ImageNet を使うのが「従来法」であるという。一体、どういうことなのか。

ラーマンが引用している「従来法」の元論文 4 報を確認した。まず J. D. Krogue et al.,Radiol. Artif. Intell. 2, e190023 (2020)では「教師データ数が少なく、適切な収束 (学習) が望めない場合には、ImageNet を先に学習させることで学習の精度が上がることが期待できる」と述べているに過ぎない。次に G. Kitamura,Eur. J. Radiol. 130, 109139 (2020)では ImageNet について「ImageNet の重みを読み込んだ」としか書かれていないため、意図が不明瞭だが、たぶん上述の Krogue と同じ目的であろう。三番目の N. Twinprai et al.,Heilyon 8, e11266 (2022)では本文中に ImageNet という語が登場しないので、なぜ引用されているのかよくわからない。この論文が引用している論文が ImageNet を使っているのかもしれないが、そこまで調べる気にはならない。最後に C. T. Cheng et al.,Nat. Commun. 12, 1066 (2021)でも「ImageNet の学習済み重みを使ってネットワークを初期化した」とだけあるので、Krogue らと同じ意図であろう。

つまり、ラーマンのいう「従来法」とは、ImageNet でネットワークを初期化することで、収束を速めたり、あるいは教師データが極端に少ない場合には学習の精度が上がる、というだけのことである。教師データが充分にあるならば、ImageNet による学習を元に少しチューニングしただけのモデルと、はじめから教師データで学習したデータを比較した場合、後者が優れているのは当然である。この比較で、一体、ラーマンは何を主張しているのか。

もっとも、私はラーマンが研究者として特に劣っているとは思わない。というより、現在の日本の博士課程大学院生の中でみれば、これだけの仕事をできるのは優秀な部類といえよう。意味のよくわからない比較を行っているのも、当初想定したほどの精度が得られず、お茶を濁したのだろう、と想像できる。学位取得のための苦渋の決断であるならば、同情する。問題なのは、この研究の本質を理解しないままに、大学や病院のプレスリリースを鵜呑みにし、無批判に持ち上げる記事を書いた朝日新聞記者の資質である。先日のスプーンの件もそうだが、裏付け取材のない記事なら、個人のブログと変わりがない。


Home
Copyright (c) Francesco