クラウドストレージの「検閲」の仕組みについて徹底解説【後編】

世界中にインターネットが普及し、高度なテクノロジーが発達したこの現代では、コンピューターのデータ保存場所が、大きく変わりつつあります。

近年は、コンピューターのデータを、「クラウドストレージ」に保存する機会が多くなってきました。そこでは、保存されたファイルの内容を自動的に解析して、「検閲」する仕組みが導入されているのが一般的です。

本稿では、前回に続き、クラウドストレージの「検閲」の仕組みについて解説してみたいと思います。

「クラウドストレージ」が「検閲」をする仕組みについて

クラウドストレージの「検閲」は、保存されたファイルの内容を自動的に解析して、コンテンツを「検閲」する仕組みが導入されていますが、その仕組みは、AI（人工知能）が違法なコンテンツのデータベースとの照合を実行する事で行われます。

サービス運営者の中の人の「こびとさん」が、ひとつひとつデータの中身を確認して、いちいち手作業で検閲を行っているわけではありません。残念！

各クラウドストレージのサービスについては、若干の違いはあるかも知ませんが、おおむね以下のような流れで検閲が行われます。

1.違法なコンテンツのハッシュ値を内外の情報から取得する

例えばストレージ内に、違法な画像や動画などのコンテンツが確認出来た場合、クラウドストレージはそのファイルの情報を、PhotoDNA（違法なコンテンツを検出する為の、超すごい画像識別技術。←語彙力不足。）により、一旦ハッシュ値に変換して、自社のデータベースに登録します。また外部の機関にも報告をしたり、逆に外部の機関から情報を入手して、じぶんの所ののデータベースに反映させちゃいます。

「PhotoDNA」とは

「PhotoDNA」とは、児童ポルノや違法な画像を、インターネット上で拡散させない為に開発された検出技術です。

画像をモノクロに変換し、格子状に分割し、格子の濃淡を数値化してハッシュ値を生成する仕組みです。このハッシュ値は画像の変更、圧縮、配色を少々変更しても影響が出ないように計算されています。そして、膨大な量の画像が迅速にスキャン可能となります。

「ハッシュ値」とは

ハッシュ値とは、任意のデータから、固定長の値を得る為の「ハッシュ関数」によって得られた値です。ハッスル値ではないので要注意です。あるデータから別の数値を得るための関数です。

ようするに、数値化出来るデータを、特定のアルゴリズム体操で生成された関数で数値化します。

ハッシュ値は、データベースに利用するのであれば、データの検索速度を高め、データ改ざんの恐れがある場合、特定がしやすいので、思わず笑みがこぼれます。

ハッシュ値の特徴として

常に固定長。常に固定長。SHA-256という規格であれば、常に256bitです。
違うデータは基本違うハッシュ値。ごくまれにそうならない場合あるが、確率的には非常に低いので、ほぼ気にしないでOKです。
ハッシュ値から元のデータに復元は出来ないのでセキュリティ的に安心です。

といったことが挙げられます。

外部機関に対するハッシュ値の共有としては、例えばGoogleでは、以下のレポートにその旨が記載されています。

Google/Google透明性レポート/児童性的虐待のオンラインコンテンツ撲滅に対する Google の取り組み

Google は、オンラインの児童性的虐待コンテンツ（CSAM）の撲滅に取り組んでいます。CSAM は違法であり、Google の利用規約では、こうしたコンテンツを保存または共有する為に Google のプラットフォームまたはサービスを使用する事を禁止しています。Google のチームは、業界をリードする自動検出ツールと特別に訓練された審査担当者の両方を組み合わせて活用し、Google 全体でこの種のコンテンツの発見、削除、報告に 24 時間体制で取り組んでいます。また、第三者と Google ユーザーから通報を受け取る事により、チームの継続的な取り組みを補完しています。児童搾取に関する問題に対処する為、Google はアメリカの包括的な情報 / 報告センターである全米行方不明・被搾取児童センター（NCMEC）に CSAM を報告しています。NCMEC はこうした報告を全世界の法執行機関に送付します。

（中略）

CSAM ハッシュの NCMEC データベースへの提供

Google は、新たな CSAM を見つけたときに、コンテンツのハッシュを作成して Google の社内リポジトリに追加する場合があります。ハッシュ化テクノロジーにより、以前に見つかった CSAM を発見する事が可能になります。また、ハッシュ値を NCMEC と共有して、他のプロバイダがハッシュにアクセス出来るようにしています。NCMEC のハッシュデータベースへの寄与は、業界全体でオンラインの CSAM を撲滅する為の重要な手段のひとつです。この指標は、Google がこの取り組みで提供したハッシュの累積件数を表します。

Google/児童性的虐待のオンラインコンテンツ撲滅に対する Google の取り組みに関するよくある質問

よい子のみなさま向けに分かりやすく説明すると、アメリカでは、クラウドストレージ上に児童虐待に関する違法な画像が見つかった場合、サービス運営側は「NCMEC（National Center for Missing & Exploited Children：全米行方不明・被搾取児童センター）」に、PhotoDNAによって得られた「CSAM（Child Sexual Abuse Material：児童性的虐待コンテンツ）」のハッシュ値の報告を行います。

NCMECは世界各国に情報提供を行い、イギリスにある、PhotoDNAのハッシュの参考データベースを作成している「Internet Watch Foundation（児童の性的搾取の資料である30万件のハッシュを保有）」に登録された情報を、クラウドストレージ各社は、自社の法的規制と照らし合わせながら、データベースにその情報を反映させます。

ちなみにPhotoDNAは、NCMECのみならず、Bing・OneDrive・Gmail・X・Facebook・Adobe Systems・Reddit・Discordなどで採用されており、主要どころはほぼ網羅していると言って良いでしょう。

2.ユーザーがオンラインストレージにアップロードしたデータを、リアルタイムで自動的にハッシュ値の計算を行う。

元のデータはAES256bit暗号化技術などで暗号化され、一定のセキュリティが保たれます。

サービス運営側は、復号化の為の暗号鍵を持っているので、必要に応じてデータの閲覧や検閲が可能となっていますが、基本ここから先、「検閲」には、ハッシュ値の方が利用されます。

3.検閲対象となる情報のハッシュ値を登録したデータベースと照合する。

総当たりで照合処理を行うと時間がかかり眠くなってしまうので、「ブルームフィルタ」や「トライ」などの、高速に検索が可能なアルゴリズムを利用します。「Photo DNA」などの技術によって、検閲データベースからの照合逃れも見逃しません。

4.ファイルが違法と判断されたら、フラグを立てる

検閲データベースとの照合により、めでたく違法と判断されたファイルは、違法である旨のカテゴライズをされます。

5.利用規約に従い、ユーザーに対して警告を行い、必要であれば削除を行う。

ここは各社、見解が分かれるようですが、どう見ても危険極まりないファイルは問答無用で削除される事が多い様です。アップロードしたデータがダウンロード出来なくなるだけでなく、違法ファイルをアップロードした段階で、リアルタイムで瞬時に削除されたり、ブロックされたり、垢バン（アカウントがBANされる。サービスが一時的、もしくは恒久的に利用出来なくなる）だったり、机バンバン爺される場合があるので注意が必要です。

6.必要に応じて、法執行機関に報告が行われる。

先述の「NCMEC」への報告等がそれにあたります。

まとめ

クラウドストレージの「検閲」は、ハッシュ値の照合技術を中心に構築されており、違法コンテンツを排除する為にとても有効です。しかしその一方で、個人情報の保護や表現の自由といった、センシティブな問題と常に向き合う必要が出てきます。

クラウドストレージの「検閲」は、技術的な進歩と倫理的課題が交錯する領域です。ユーザー及びサービス運営側は、日々認識のアップデートが必要です。

100%これが正しい、という基準がずっと固定されている訳ではないので、今後も自由闊達な議論が求められる事になるでしょう。

また来週！

参考文献

Wikipedia/ハッシュ関数
 Wikipedia/Photo DNA
Wikipedia/ブルームフィルター
 NHN Cloud/ブルームフィルターの使い道は？
Wikipedia/トライ (データ構造)
OCA大阪デザイン＆テクノロジー専門学校/垢BANとは

「クラウドストレージ」が「検閲」をする仕組みについて

まとめ

関連記事