Googleストリートビューの画像が米国の人口構成をどのように明らかにするか

毎年、米国国勢調査局は人口の調査に10億ドルを費やしています。これらの調査は、代表的な人々のグループに人種、性別、教育、職業などについて尋ねることにより、国の人口構成を区別するように設計されています。これは、人口とそれがどのように変化しているかについての重要な鳥瞰図を提供するため、重要な演習です。





しかし、それは簡単ではありません。まず、データは比較的大規模です。国勢調査局の主な調査であるAmerican Community Surveyは、人口が65,000人を超えるすべての市と郡の結果を示しています。小さな領域はわかりません。

さらに、人口の調査は時間のかかる作業です。一部のデータは、公開されるまでに5年前のものになる可能性があります。また、他のデータははるかに新しいため、比較には問題が生じる可能性があります。

したがって、人口統計学者は、人口を研究するためのより速く、より効率的で、より高解像度の方法を持っていることを心から望んでいます。



スタンフォード大学のTimnitGebruと、Googleストリートビューの画像を使用して米国のさまざまな都市の人口統計の内訳を非常に正確に評価した数人の仲間を紹介します。彼らの技術は、人口統計学者が現在の方法を補完および改善するまったく新しい方法で信頼できるデータを収集する方法を示しています。

Gebruと共同研究者は、アメリカの200の都市でGoogleの車が収集した5,000万枚のストリートビュー画像から始めます。チームは、人々が所有する車の種類が、人種、収入、教育レベル、職業などの強力な指標であると考えています。

そこで、ゲブルは、これらの画像で車を認識し、車のメーカーとモデルだけでなく、その年代にも依存する2,657の異なるカテゴリのいずれかにそれぞれを分類するために、一連のマシンビジョンアルゴリズムをトレーニングしました。これにより、車の価値を正確に把握できます。



合計で、彼らは約2,200万台の車両を分類しました。これは、これらの都市の道路上の全車両の約3分の1です。そして、彼らのマシンは、車両あたり約0.2秒の速度でタスクを実行するのに約2週間かかりました。人間の専門家は、画像ごとに10秒と仮定すると、同じタスクを実行するのに15年以上かかるとGebruと共同で言います。

しかし、ある地域の車両の人口は、地域の人口統計とどのように関係していますか?この調査のために、チームは別の深層学習アルゴリズムをトレーニングして、車種と米国国勢調査のデータおよび各選挙区(約1,000人の地域)の大統領選挙の投票パターンとの相関関係を学習しました。このトレーニングデータセットは、35都市のデータで構成されています。

次に、残りのデータを使用して深層学習アルゴリズムをテストしました。彼らが答えたかった質問は、ある地域の車両のパターンを考えると、アルゴリズムは米国国勢調査と大統領の投票データに記録されている人口統計を正確に予測できるかということでした。



深層学習アルゴリズムはこれを非常にうまく行うことができることがわかりました。各近隣の分類された自動車を使用して、人口動態統計、社会経済的属性、および居住者の政治的好みの広い範囲を推測します、と彼らは言います。

たとえば、セダンは民主党と最も密接に関連していますが、拡張キャブピックアップは共和党に投票した選挙区とより密接に関連しています。セダンとピックアップトラックを数えながら15分間都市を運転することで、都市が民主党と共和党のどちらに投票したかを確実に判断できることがわかりました。

重要な問題は、これらの結論が従来の方法で調査によって収集された結論とどの程度一致するかということです。調べるために、Gebruと共同研究者は、彼らの結果を米国国勢調査局のAmerican CommunitySurveyのデータと比較しました。そして彼らは、収入、教育、職業などの人口統計学的要因との強い相関関係を発見しました。彼らは、約1,000人を含む選挙区のレベルで有権者の好みについて詳細な予測を行うことさえできました。



American Community Surveyは、少なくとも当面の間、データ収集のゴールドスタンダードであり続ける可能性があります。しかし、Googleストリートビューを使用して高品質のデータをすばやく収集する機能は、人口の変化をほぼリアルタイムで監視できる大きな可能性を秘めています。

そしてもちろん、街の画像を収集しているのはGoogleだけではありません。ジオタグが付けられ、日付が刻印されているFacebook、Twitter、その他のソーシャルメディアネットワークからの画像に同じプロセスが適用されることは想像に難くありません。

参照: arxiv.org/abs/1702.06683 :ディープラーニングとGoogleストリートビューを使用して米国の人口構成を推定する

隠れる