211service.com
機械学習アルゴリズムは、国家機密が適切に分類されているかどうかを示すことができます
米国国務省は、毎年約20億通の電子メールを生成しています。これらのかなりの部分に機密情報または秘密情報が含まれているため、分類する必要があります。このプロセスには時間とコストがかかります。 2015年だけでも、機密情報を保護するために160億ドルを費やしました。
しかし、この分類プロセスの信頼性は不明です。情報を分類するための規則が一貫して確実に適用されているかどうかは誰にもわかりません。確かに、分類されるべき情報を構成するものでさえ、重大な論争があります。
さらに、人為的ミスが公式の秘密の誤分類にかなりの役割を果たしていることは容易に想像できます。しかし、これらのエラーがどれほど重大であるかは誰にもわかりません。
今日、それは、リオデジャネイロのブラジルのシンクタンクFundaçãoGetulioVargasとニューヨークのコロンビア大学の同僚のRenato RochaSouzaの仕事のおかげで変わりました。これらの人々は、機械学習アルゴリズムを使用して、1970年代から100万を超える機密解除された国務省のケーブルを研究してきました。
彼らの仕事は、公式の秘密の性質、人間がどのようにルールを適用するか、そして機密情報を明らかにしたり、そうでなければ無害な詳細を隠すためにエラーがプロセスに忍び寄る頻度についての前例のない洞察を提供します。アルゴリズムはまた、ケーブルが失われる方法の疑わしいパターンを明らかにします。
チームは、100万本のケーブルのコーパスから始めました。これらのケーブルは、米国国立公文書館からXMLファイルの形式でダウンロードされました。各ケーブルは、国務省と大使館や領事館などの外国の外交使節団との間で交換されるテキストメッセージです。
ケーブルには、秘密、機密、限定的な公式使用、または未分類のラベルが付いています。秘密情報は国家安全保障に深刻な損害を与える可能性があると定義され、機密情報は損害を引き起こす可能性があるが深刻な損害を引き起こさない可能性があると定義されています。限定公式使用カテゴリは1970年代には定義されておらず、今日でも物議を醸しています。
ケーブルには他の情報も含まれています。各メッセージには、日付、送信者と受信者、件名、そしてもちろんメッセージテキストがあります。
Souzaらは、さまざまな機械学習アプローチを使用して、これらの要因が分類ラベルとどのように相関しているかを判断しました。そして、この相関関係を発見した後、アルゴリズムをテストして、特定のケーブルが分類されているかどうかをどれだけうまく予測できるかを確認しました。
結果は興味深い読み物になります。 Souzaらは、メッセージ自体がケーブルが分類されているかどうかを示す最良の指標であると述べています。すべての機能の中で、体内のさまざまな単語の相対頻度が機密情報を識別するのに最も有用だったと彼らは言います。送信者と受信者のデータも感度レベルの優れた指標ですが、アルゴリズムを使用して、分類されなかった多くのケーブルを分類することができます。言い換えれば、これは誤検知の割合が高くなります。
機械学習アルゴリズムがさまざまな種類のメタデータを組み合わせて決定すると、分類されたケーブルの約90%を検出でき、誤検出率はわずか11%になります。そして、Souzaらは、まだ分類されているケーブルが含まれていれば、もっとうまくいくはずだと言っています。
誤検知と誤検知はそれ自体が興味深いものです。これらは、マシンが分類されると予測したケーブルですが、分類されませんでした。その逆も同様です。多くの場合、マシンは人間によって誤って分類されたケーブルを明らかにしました。一例は、米国の原子力施設の査察に対する日本政府の敏感さについてのケーブルです。このケーブルは分類されていませんでしたが、テキストが元々機密であったことを明らかにしているので、分類されるべきでした、と研究者は言います。
データの制限の1つは、表面上はケーブルを電子形式に変換する際の問題が原因で、多くのケーブルが失われたことです。おそらく、この作業の最も興味深い側面は、これらのメッセージが他の理由で欠落している可能性があることを示唆していることです。
1つの手がかりは、メッセージが消える速度です。これは、分類されたケーブルと分類されていないケーブルで異なります。 「秘密」に分類された電子メッセージは、未分類および限定的な公式使用メッセージと比較して、3倍以上失われる可能性が高いとSouzaらは述べています。
さらに、ケーブルに関連付けられたメタデータは、電子メッセージが失われた場合でも存続することがよくあります。これがどのように起こったのかはパズルです。
また、ある形式から別の形式に変換されたときにメッセージが失われた場合、国務省が新しいデータストレージシステムをセットアップしたときにメッセージが失われる可能性が最も高くなります。チームによると、これらの[欠落している]ケーブルのほとんどは、国務省が最初にシステムをセットアップしたときのものではなく、異なるハードウェアおよびソフトウェアプラットフォーム間でデータを確実に転送する方法のトラブルシューティングを行っていたと思われる場合があります。
この作業は、透明性と秘密性のバランスに重要な意味を持っています。マシンは、データの分類方法を監視するのに明らかに役立ちます。しかし、彼らは平均して、彼らが学んだデータベースよりもこれをうまく行うことはできません。国務省のケーブルが明らかにしているように、これらにエラーが含まれている場合、マシンは必然的に妨害されます。
しかし、興味深い質問は、この種の機械学習が明らかにするデータが、国益に損害を与える可能性のある行動パターンを明らかにする場合、それ自体を分類する必要があるかどうかです。たとえば、機密情報が誤って未分類としてラベル付けされる割合は、未分類のケーブルから機密情報を収集しようとする外国の勢力にとって役立つ可能性があります。
明らかに、やるべきことがもっとあります。 Souzaと共同研究者は、国務省が機密情報の保護に多額の費用を費やしているにもかかわらず、機密の一貫性に関する公表された研究はほとんどまたはまったくないと述べています。この種の機械学習がどれだけ明らかにできるかについても、あまり理解されていません。
おそらく、このすべての作業は密室で行われています。一方、おそらくそうではありません。
参照: arxiv.org/abs/1611.00356 :人工知能を使用して国家機密を特定する