これはhttp://mitochondrion.jp/に掲載している「医学日記」を 検索用に 1 記事 1 ファイルとして形成し直したものです。 簡単なプログラムで自動生成しているので、体裁の乱れなどが一部にあるかと思われます。 通して読むには、トップページからオリジナルページにアクセスしてください。
深層学習の分野で用いられる「畳み込みニューラルネットワーク (Convolutional Neural Network; CNN)」と呼ばれる手法がある。これは手書き文字の認識や画像処理などのパターン認識に広く使われている手法である。これのバリエーションの一つに U-Net と呼ばれるものもあり、これを原型とする手法が放射線医学分野における画像の機械認識に広く使われている。
ところが、この CNN について、「なぜ、それで、それができるのか」という部分を理解して使っている人は少ないように思われる。「よくわからないが、それでできると先人が報告してくれたので、マネしたらできた」という程度の理解で扱っている者が、この分野には多いのではないか。実際、インターネット上の文献にせよ、書籍として出版された文献にせよ、CNN についてデタラメな記載が非常に多い。
たとえば CNN の代表として LeNet-5 (Y. Lecun et al., Proc. IEEE 86, 2278-2324 (1998))を考える。これは手書き文字の画像について、何の数字が描かれているのかを判別するモデルである。これについて「畳み込み層やプーリング層によって、描かれている図形の特徴が抽出され、一方で『それがどこに描かれているのか』という位置情報は曖昧化する」というような記載をしばしばみかける。これを書いている人々は、たぶん、計算内容を数学的にも定性的にも理解していないだけでなく、自分が書いている内容が正しいかどうか数値的検証すら行わずに記事を書いているのであろう。
畳み込み層やプーリング層の計算内容を考えれば、数学的観点からいって、「図形の特徴だけを抜き出す」だの「位置の情報が曖昧化する」だのといった働きがあるとは思われない。実際、LeNet-5 を使って数値的に検証してみると、そのような処理は行われていないことを容易に確認できる。このあたりについて東北大学の田中が簡潔なメモ (1,2,3) を公開しているので、興味がある人は読まれるとよい。
何を言いたいかというと、他人の言うことを鵜呑みにせず自分の頭で考え理解する、という基本的なことをできていない者が、この分野には少なくない、ということである。