AlphabetのToxic-CommentDetectorを過ぎて有毒な言葉をすり抜けるのは簡単です

木曜日に、Alphabetは、ウェブサイト上の有毒なコメントを特定することを目的とした、Perspectiveと呼ばれる機械学習ベースのサービスをリリースしました。これは、インターネットをより安全でより市民的な場所にするためのテクノロジーに取り組んでいるユニット、ジグソーからのものです。しかし、私がパースペクティブをいじったとき、結果は不安定でした。





パースペクティブは、毒性について1から100のスケールでコメントを評価します。これは、無礼、無礼、または不合理なコメントとして定義され、議論を離れる可能性があります。あなたをねじ込みます、トランプ支持者は非常に有毒であると判断されますが、私は正直に両方を支持します、例えば。しかし、パースペクティブはコメントの背後にある感情を検出するのに問題があります。12月にジグソーの野心を調べたときに私が予測した問題はジグソーを困らせるでしょう(AIだけが私たちを自分たちから救うことができるかどうかを参照)。

トランプサックは96%の巨大なスコアを記録しましたが、ネオナチのコードワード14/88は5%しかスコアを記録しませんでした。テロの脅威であるイスラム教徒はほとんどいませんが、79%が有毒でしたが、人種戦争は現在24%を記録しています。ヒトラーは反ユダヤ主義者で70%の得点でしたが、ヒトラーは反ユダヤ主義者ではなく53%しか得点せず、ホロコーストは21%しか得点しませんでした。そして、ガスでジョースが29%を獲得している間、それを言い換えると、ジョースをガスで満たしてください。ありがとう。スコアをわずか7%に下げました。 (ただし、ユダヤ人は人間ですが、スコアは72%です。ユダヤ人は人間ではありませんか?64%です。)

ジグソーパズルによると、パースペクティブは、人間のレビューアによってランク付けされた数十万のコメントを使用して毒性を検出するように訓練されました。結果は、特定の単語やフレーズに敏感なシステムであるように見えますが、意味には敏感ではありません。



たとえば、レイプという言葉は、それ自体で77%のスコアを獲得しています。おそらく、レイプが恐ろしい犯罪である理由を説明するのに、81%のスコアが付けられています。 (同様のパターンが冒とく的な表現で見られます。私はこのスコアが94%であることが大好きです。)

同様に、否定やその他の言語のニュアンスは逆説的な結果を引き起こします。少数のイスラム教徒を作成しないように追加する いいえ テロの脅威は毒性を79%から60%に下げます。これは、意図された意味が もっと 毒。

Jigsawに関する前回の記事で述べたように、機械学習の現在の状態では、ソフトウェアがコメントの意図とコンテキストを把握することはできません。表面レベルのパターンマッチングを行うことで、会話AIはフィルタリングできる可能性があります 様式的に— だがしかし 意味的に



それでテクノロジーが役に立たなくなるわけではありません。 Perspectiveなどのシステムは、極端なケースにフラグを立てることで、モデレーターの作業をスピードアップできます。それは理にかなっています ニューヨーク・タイムズ はジグソーと協力して、モデレーターが記事へのコメントを取り締まる手助けをしています。 The ニューヨーク・タイムズ ただし、乱用の問題はありません。文体のマッチングがより効果的である可能性が高い、高品質のコメントを特定しようとしています。意図的な悪用に関しては、あいまいな場合、ジグソーのソフトウェアは人間の判断に取って代わることはできません。

トロールは愚かだと言うかもしれませんが(毒性スコア96%)、毒性と嫌がらせの言葉は、機械学習システムでは処理できない方法で豊富になっていることがよくあります。コメントあなたはランプにされるべきであり、強制収容所の犠牲者の皮膚がランプシェードに使用されたと主張することをほのめかし、ここ数ヶ月で多くのジャーナリストや他の公人に投げかけられました。パースペクティブではわずか4%のスコアです。しかし、あなたはナチスだと言って返信しないのが最善です。それは87パーセントだからです。

隠れる