#author("2020-05-29T06:01:47+00:00","default:f-lab","f-lab") #author("2020-05-29T06:09:05+00:00","default:f-lab","f-lab") [[個人ページ>seminar-personal/chin2017]] &br; [[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]] |~目次| |#contents| &br; *発表の考察 [#qef817b4] [[Nぜみ先生の記事録より抜粋>http://f-lab.mydns.jp/index.php?seminar-N-20200524]] 質問 問:目的に語彙の共通化をあげていたが、クラスタリングのことか。 -住所、アドレスなどは同じクラスタ 問:情報のレベルが同じではないものがある -市町村レベルとストリートレベル 問:最終的に使えるかどうか -実験中である 問:本当に同じレベルでまとまっているかを確認するべきでは? 問:実際に正しく分かれているかのか? -クラス多数の結果によって変わる 問:列によってはほかの列との関係があるものもある。名前と読みなど。セットで関連性を持つもの。複数の列についての意味内容は考えているか? -現状では単一の列に対して。 -現在は列だけではなく、単語に対して行っている。 [[第7回N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-20200515#oe82963c]]より 項目名を限定する † 14286個のオープンデータに出現する項目名の出現頻度上位50位までを調査した。 1つの都道府県または市町村のCSVファイルにあったのではないか?、という項目名がある。 例えば、 採取水深,288 気温,288 水温,288 全水深,288 大腸菌群数,288 全窒素,288 亜硝酸性窒素,288 硝酸性窒素,288 電気伝導率,288 とか、 鉛,276 砒素,276 総水銀,276 四塩化炭素,276 銅,276 など。 これらがもし同じ自治体のデータのみであるなら、除外すべき。 トップのフォルダを調べればよい。 2つ以上の自治体にあるなら、除外しない。 そういうのを除外した上で、上位50件、とか100件とか。 「氏名」は565位になっている。 -もう一度CSVファイルを手動で除外する --使えるCSVファイルのリストを抽出する必要である -専門用語が多いので、除外? -クラスタに正しく分かれているかどうか確認する必要かも -