個人ページ
N班ゼミ


発表の考察

Nぜみ先生の記事録より抜粋

質問
問:目的に語彙の共通化をあげていたが、クラスタリングのことか。
-住所、アドレスなどは同じクラスタ
問:情報のレベルが同じではないものがある
-市町村レベルとストリートレベル
問:最終的に使えるかどうか
-実験中である
問:本当に同じレベルでまとまっているかを確認するべきでは?
問:実際に正しく分かれているかのか?
-クラス多数の結果によって変わる
問:列によってはほかの列との関係があるものもある。名前と読みなど。セットで関連性を持つもの。複数の列についての意味内容は考えているか?
-現状では単一の列に対して。
-現在は列だけではなく、単語に対して行っている。

第7回N班ゼミより

項目名を限定する †
14286個のオープンデータに出現する項目名の出現頻度上位50位までを調査した。
1つの都道府県または市町村のCSVファイルにあったのではないか?、という項目名がある。
例えば、
採取水深,288
気温,288
水温,288
全水深,288
大腸菌群数,288
全窒素,288
亜硝酸性窒素,288
硝酸性窒素,288
電気伝導率,288
とか、
鉛,276
砒素,276
総水銀,276
四塩化炭素,276
銅,276
など。
これらがもし同じ自治体のデータのみであるなら、除外すべき。
トップのフォルダを調べればよい。
2つ以上の自治体にあるなら、除外しない。
そういうのを除外した上で、上位50件、とか100件とか。
「氏名」は565位になっている。
  • もう一度CSVファイルを手動で除外する
    • 使えるCSVファイルのリストを抽出する必要である
  • 専門用語が多いので、除外?
  • クラスタに正しく分かれているかどうか確認する必要かも

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-05-29 (金) 15:09:05