chin2017-20200529 の変更点

追加された行はこの色です。
削除された行はこの色です。
chin2017-20200529 へ行く。
chin2017-20200529 の差分を削除
#author("2020-05-29T06:01:47+00:00","default:f-lab","f-lab")
#author("2020-05-29T06:09:05+00:00","default:f-lab","f-lab")
[[個人ページ>seminar-personal/chin2017]] &br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*発表の考察 [#qef817b4]
[[Nぜみ先生の記事録より抜粋>http://f-lab.mydns.jp/index.php?seminar-N-20200524]]
 質問
 問：目的に語彙の共通化をあげていたが、クラスタリングのことか。
 -住所、アドレスなどは同じクラスタ
 問：情報のレベルが同じではないものがある
 -市町村レベルとストリートレベル
 問：最終的に使えるかどうか
 -実験中である
 問：本当に同じレベルでまとまっているかを確認するべきでは？
 問：実際に正しく分かれているかのか？
 -クラス多数の結果によって変わる
 問：列によってはほかの列との関係があるものもある。名前と読みなど。セットで関連性を持つもの。複数の列についての意味内容は考えているか？
 -現状では単一の列に対して。
 -現在は列だけではなく、単語に対して行っている。

[[第7回N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-20200515#oe82963c]]より
 項目名を限定する †
 14286個のオープンデータに出現する項目名の出現頻度上位50位までを調査した。
 1つの都道府県または市町村のCSVファイルにあったのではないか？、という項目名がある。
 例えば、
 採取水深,288
 気温,288
 水温,288
 全水深,288
 大腸菌群数,288
 全窒素,288
 亜硝酸性窒素,288
 硝酸性窒素,288
 電気伝導率,288
 とか、
 鉛,276
 砒素,276
 総水銀,276
 四塩化炭素,276
 銅,276
 など。
 これらがもし同じ自治体のデータのみであるなら、除外すべき。
 トップのフォルダを調べればよい。
 2つ以上の自治体にあるなら、除外しない。
 そういうのを除外した上で、上位50件、とか100件とか。
 「氏名」は565位になっている。
-もう一度CSVファイルを手動で除外する
--使えるCSVファイルのリストを抽出する必要である
-専門用語が多いので、除外？
-クラスタに正しく分かれているかどうか確認する必要かも
-