星座の補償
物質C有名人

Zodiac Signによる互換性を見つけてください

ジャーナリストがGeocommonsを使用してインタラクティブな地図を作成する方法

他の

数か月前、JohnKeefeはシェープファイルの使用についてPoynter.orgのハウツーを書きました。シェープファイルの力は、ポイントではなく領域を参照できることだと彼は書いています。

しかし、データにポイント(たとえば、住所)があり、地域をマッピングしたい場合はどうでしょうか。たとえば、環境違反の住所があり、どの議会地区で最も違反が多いかを示したいとします。これらのポイントを形状に関連付ける方法を見つける必要があります。このチュートリアルでは、その方法を説明します。

私が働いている組織であるサンライト財団の例を使用してみましょう。私たちはというサイトを持っています 透明度データ 、ユーザーがデータをダウンロードできる場所。その一部にはアドレスが含まれています。そのようなデータセットの1つは、EPA違反データです。透明性データに移動し、[EPA]タブをクリックして、2011年7月1日から2011年12月31日までの違反を検索します。透明性データは約1,300レコードを返します。巨大な「データのダウンロード」ボタンをクリックして、レコードをコンピューターに保存します。

そのデータをダウンロードしたら、スプレッドシートで開きます。列の1つに違反のアドレスが含まれていることがわかります。 (この列の一部のセルには複数のアドレスが含まれていますが、他のセルにはアドレスがまったく含まれていません。ここでは、複数のアドレスがあるレコード、またはアドレスがないレコードを削除します。この前のストーリーを参照してください。これを行うのに助けが必要な場合は、「ジャーナリストがExcelを使用してストーリーのデータを整理する方法」。)

また、アドレスを構成要素に分割する必要があります。都市、州、ZIPの新しい列を作成します。

(これについては、以前のハウツーの1つである「ジャーナリストが正規表現を使用してテキストの文字列を照合する方法」を参照してください。ヒント、私の検索/置換は次の検索でした。

, (.*), ([A-Z][A-Z]) (ddddd.*)

と置き換えます:

	1	2	3

これにより、いくつかのエラー(都市フィールドのスイート番号など)が残ります。これは、次の検索で修正されます。

	(.*, )

および置換:

, 1	

データがクリーンアップされたら、スプレッドシートに戻します。次に、そのスプレッドシートを.csvまたは「カンマ区切り値」テキストファイルとしてエクスポートします。 このようなファイル 。)

次に、これらの住所を議会の地区と集約するために、私のお気に入りのツールの1つを使用します。 GeoCommons 。このプロセスは、上記のスプレッドシートをCSVまたは「カンマ区切り値」テキストファイルとしてエクスポートすることから始めます。 ここにサンプルファイルを投稿しました 。次に、そのCSVをGeoCommonsに直接アップロードします。

GeoCommonsにアップロードすると、サービスがデータの「ジオロケートを支援」するように要求するまで、プロンプトに従います。 2つのオプションがあります。まず、データを境界データセットに関連付けるか、結合することができます。このオプションを選択する場合、スプレッドシートに境界データが必要になります。このようなデータには、郡名またはFIPSコード、議会の地区コード、国勢調査区などが含まれる場合があります。データにはこれらのフィールドはありません。

2番目のオプションである「住所または場所の名前に基づく地理コード」は、番地などの位置情報を取得し、それを経度と緯度に変換します。これが選択したいオプションです。

ファイルのヘッダーによっては、GeoCommonsがいくつかの場所フィールドを自動的に識別する場合があります。それ以外の場合は、GeoCommonsがアドレスを構成するフィールドを決定するのを支援する必要があります。そのためには、[場所の住所]まで下にスクロールして、[編集]を選択します。そこで、「番地」を選択します。都市、州、郵便番号についても同様に行います。次に、[続行]をクリックします。 (GeoCommonsは、ファイルごとに最大5,000のアドレスしかジオコーディングできないことに注意してください。)必要に応じて、他のフィールドデータ型を調整することもできます。

このサービスは、アドレスをデコードして緯度と経度のポイントに変換するのにしばらく時間がかかります。そのプロセスの最後に、GeoCommonsは、アドレスをどれだけうまく地理的に特定できたかを通知します。私のテストでは、ジオコーディングに約10分かかりました。 (ファイルがジオコーディングされるのを待ちたくない場合は、利用可能な私のデータのコピーを自由に使用してください ここ 。)もちろん、他のサービスを使用してデータを緯度と経度にジオコーディングし、他のすべてのフィールドに加えて、これらのフィールドを含むCSVをGeoCommonsにアップロードすることもできます。

次に、GeoCommonsの最高の機能の1つであるデータ分析機能を利用します。新しくジオコーディングされたデータセットに移動すると、ページの右上にある[分析]ボタンをクリックしてこれらの機能にアクセスできます。

これにより、さまざまなオプションが表示されます。これらのツールを試してみる必要がありますが、このチュートリアルでは、2番目のツールである「集約」を選択します。表示されるダイアログボックスで、境界セットを選択する必要があります。ウィンドウがポップアップし、「111thCongressionalDistricts」を検索します。そこで、アップロードした地区を選択します。これらの地区は、エリアを記述するベクトルベースの方法であるシェープファイルの形式になっています。

違反がゼロの地区を表示したくないため、「境界を空にする」の選択を解除しました。

GeoCommonsが分析を実行しますが、私の場合は約20分かかりました。結果のファイルは次の場所にあります ここ

結果のデータセットをGeoCommons内でマッピングすることはできますが、サービスのマッピングが制限されすぎていることがわかりました。たとえば、マップツールチップの情報のフォーマット方法を完全に制御することはできません。

そのため、「KMLとしてダウンロード」機能を使用してGeoCommonsからマップをエクスポートするのが好きです。 GeoCommonsがエクスポートするKMLファイルには、すべてのデータと境界情報が含まれています。このファイルを使用すると、Google Fusion Tablesを使用して、KMLをインポートし、デザイン、シェーディング、情報ウィンドウなどを完全に制御できます。 John Keefeは、シェープファイルの紹介ですでにそれをカバーしているので、同じことをカバーすることはしません。

私は通常、完成した地図にGeocommonsを使用しませんが、特に境界や領域を扱う場合に、有益で魅力的な地図を作成するための非常に貴重なツールです。

探索を楽しんでください。コメントセクションでGeoCommonsとマッピングの経験を共有してください。このシリーズで取り上げたい/取り上げたいトピックが他にある場合は、お知らせください。

この物語はポインターの一部です ハック/ハッカー シリーズ特集 ハウツー ジャーナリストがテクノロジーと新しいテクノロジーツールの新たなトレンドから何を学ぶことができるかに焦点を当てています。