個人ページ
N班ゼミ
発表の考察 †
Nぜみ先生の記事録より抜粋
質問
問:目的に語彙の共通化をあげていたが、クラスタリングのことか。
-住所、アドレスなどは同じクラスタ
問:情報のレベルが同じではないものがある
-市町村レベルとストリートレベル
問:最終的に使えるかどうか
-実験中である
問:本当に同じレベルでまとまっているかを確認するべきでは?
問:実際に正しく分かれているかのか?
-クラス多数の結果によって変わる
問:列によってはほかの列との関係があるものもある。名前と読みなど。セットで関連性を持つもの。複数の列についての意味内容は考えているか?
-現状では単一の列に対して。
-現在は列だけではなく、単語に対して行っている。
第7回N班ゼミより
項目名を限定する †
14286個のオープンデータに出現する項目名の出現頻度上位50位までを調査した。
1つの都道府県または市町村のCSVファイルにあったのではないか?、という項目名がある。
例えば、
採取水深,288
気温,288
水温,288
全水深,288
大腸菌群数,288
全窒素,288
亜硝酸性窒素,288
硝酸性窒素,288
電気伝導率,288
とか、
鉛,276
砒素,276
総水銀,276
四塩化炭素,276
銅,276
など。
これらがもし同じ自治体のデータのみであるなら、除外すべき。
トップのフォルダを調べればよい。
2つ以上の自治体にあるなら、除外しない。
そういうのを除外した上で、上位50件、とか100件とか。
「氏名」は565位になっている。
- もう一度CSVファイルを手動で除外する
- 専門用語が多いので、除外?
- クラスタに正しく分かれているかどうか確認する必要かも