chin2017-20200529
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[個人ページ>seminar-personal/chin2017]] &br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*発表の考察 [#qef817b4]
[[Nぜみ先生の記事録より抜粋>http://f-lab.mydns.jp/index.p...
質問
問:目的に語彙の共通化をあげていたが、クラスタリングのこ...
-住所、アドレスなどは同じクラスタ
問:情報のレベルが同じではないものがある
-市町村レベルとストリートレベル
問:最終的に使えるかどうか
-実験中である
問:本当に同じレベルでまとまっているかを確認するべきでは?
問:実際に正しく分かれているかのか?
-クラス多数の結果によって変わる
問:列によってはほかの列との関係があるものもある。名前と...
-現状では単一の列に対して。
-現在は列だけではなく、単語に対して行っている。
[[第7回N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-...
項目名を限定する †
14286個のオープンデータに出現する項目名の出現頻度上位50...
1つの都道府県または市町村のCSVファイルにあったのではない...
例えば、
採取水深,288
気温,288
水温,288
全水深,288
大腸菌群数,288
全窒素,288
亜硝酸性窒素,288
硝酸性窒素,288
電気伝導率,288
とか、
鉛,276
砒素,276
総水銀,276
四塩化炭素,276
銅,276
など。
これらがもし同じ自治体のデータのみであるなら、除外すべき。
トップのフォルダを調べればよい。
2つ以上の自治体にあるなら、除外しない。
そういうのを除外した上で、上位50件、とか100件とか。
「氏名」は565位になっている。
-もう一度CSVファイルを手動で除外する
--使えるCSVファイルのリストを抽出する必要である
-専門用語が多いので、除外?
-クラスタに正しく分かれているかどうか確認する必要かも
終了行:
[[個人ページ>seminar-personal/chin2017]] &br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*発表の考察 [#qef817b4]
[[Nぜみ先生の記事録より抜粋>http://f-lab.mydns.jp/index.p...
質問
問:目的に語彙の共通化をあげていたが、クラスタリングのこ...
-住所、アドレスなどは同じクラスタ
問:情報のレベルが同じではないものがある
-市町村レベルとストリートレベル
問:最終的に使えるかどうか
-実験中である
問:本当に同じレベルでまとまっているかを確認するべきでは?
問:実際に正しく分かれているかのか?
-クラス多数の結果によって変わる
問:列によってはほかの列との関係があるものもある。名前と...
-現状では単一の列に対して。
-現在は列だけではなく、単語に対して行っている。
[[第7回N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-...
項目名を限定する †
14286個のオープンデータに出現する項目名の出現頻度上位50...
1つの都道府県または市町村のCSVファイルにあったのではない...
例えば、
採取水深,288
気温,288
水温,288
全水深,288
大腸菌群数,288
全窒素,288
亜硝酸性窒素,288
硝酸性窒素,288
電気伝導率,288
とか、
鉛,276
砒素,276
総水銀,276
四塩化炭素,276
銅,276
など。
これらがもし同じ自治体のデータのみであるなら、除外すべき。
トップのフォルダを調べればよい。
2つ以上の自治体にあるなら、除外しない。
そういうのを除外した上で、上位50件、とか100件とか。
「氏名」は565位になっている。
-もう一度CSVファイルを手動で除外する
--使えるCSVファイルのリストを抽出する必要である
-専門用語が多いので、除外?
-クラスタに正しく分かれているかどうか確認する必要かも
ページ名: