chin2017-20200625
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[個人ページ>seminar-personal/chin2017]]
&br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#j054175b]
ゼミより抜粋
英語の項目名をすべて除外しているように見えるので、もっと...
たとえば、
"^Unnamed: \d+$"
上記より正規表現を変更
re.search('^[Ⅰ-Ⅹ0-90-9①-⑳%%×,,..::\"’〜~―ー-−‐○...
re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、...
re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,...
re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女...
-比較用:&ref(chin2017-20200619/times_all_619_no_extract....
-英語のネーム:
|項目名|CSV回数|自治体数|
|SSID|4|4|
|No.|4|3|
|A7|4|3|
|date|3|3|
|A6|6|5|
|A3|8|6|
|TEL|14|3|
|URL|18|9|
|COD|18|3|
|url|21|5|
|FAX|28|11|
|Y|36|8|
|id|40|4|
|X|49|11|
|No|48|3|
|ID|81|13|
|x|84|3|
|latitude|89|4|
|longitude|90|4|
|E-mail|91|6|
|TEL|94|12|
|NO|122|21|
|A2|157|85|
|URL|308|44|
|No|319|32|
-学習の辞書に上記の単語がないかもしれない?
おかしいものなので、除外する
,287,28,
➡
if(name ==''):
continue
**結果について [#x32a0c06]
***2個自治体以上 [#v984507d]
-除外した後のデータ(項目名):1198個項目名
--&ref(times_all_626_2times_re.csv);
--&ref(extract_data_alllist_item_name_2times.py.txt);
***3個自治体以上 [#r5078c17]
-除外した後のデータ(項目名):662個項目名
--&ref(times_all_626_3times_re.csv);
--&ref(extract_data_alllist_item_name_3times.py.txt);
***クラスタ数50の結果 [#uaf94fe0]
-2個自治体以上
--除外した後のデータ(項目名):1184個項目名(辞書に含まれて...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_2...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_2...
30 149
34 143
48 131
...
-3個自治体以上
--除外した後のデータ(項目名):654個項目名(辞書に含まれてい...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_3...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_3...
23 68
44 68
38 55
備考:EXCELで統計し、一番多いクラスタを判断
-今回は自動化していない
****再度クラスタリング [#vf3b3db1]
-2個自治体以上
--上記のクラスタ30を再度
--&ref(chin2017-20200625/50_cluter_2times_30.csv,クラスタ...
--&ref(chin2017-20200625/label_average_cosine_2_2times_30...
--&ref(chin2017-20200625/label_average_cosine_2_2times_30...
---
|再度クラスタのバ番号|個数|
|1|148|
|2|1|
---結果は「?名称」は2となりますが、ほかにほぼ1となりま...
---&color(red){項目名の除外する必要かも?「?」を含めてい...
-3個自治体以上
--上記の23クラスタを再度
--&ref(chin2017-20200625/50_cluter_3times_23.csv,クラスタ...
--&ref(chin2017-20200625/label_average_cosine_2_3times_23...
---
|再度クラスタのバ番号|個数|
|1|37|
|2|31|
--上記の44クラスタを再度
--&ref(chin2017-20200625/50_cluter_3times_44.csv,クラスタ...
--&ref(chin2017-20200625/label_average_cosine_2_3times_44...
--
|再度クラスタのバ番号|個数|
|1|7|
|2|61|
***クラスタ数100の結果 [#ue7b9995]
-2個自治体以上
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
-3個自治体以上
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
****再度クラスタリング [#jc0a56bd]
*参考資料 [#l2f3b1fa]
1,[[いろんな空白文字を削除する【Python】>https://qiita.co...
終了行:
[[個人ページ>seminar-personal/chin2017]]
&br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#j054175b]
ゼミより抜粋
英語の項目名をすべて除外しているように見えるので、もっと...
たとえば、
"^Unnamed: \d+$"
上記より正規表現を変更
re.search('^[Ⅰ-Ⅹ0-90-9①-⑳%%×,,..::\"’〜~―ー-−‐○...
re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、...
re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,...
re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女...
-比較用:&ref(chin2017-20200619/times_all_619_no_extract....
-英語のネーム:
|項目名|CSV回数|自治体数|
|SSID|4|4|
|No.|4|3|
|A7|4|3|
|date|3|3|
|A6|6|5|
|A3|8|6|
|TEL|14|3|
|URL|18|9|
|COD|18|3|
|url|21|5|
|FAX|28|11|
|Y|36|8|
|id|40|4|
|X|49|11|
|No|48|3|
|ID|81|13|
|x|84|3|
|latitude|89|4|
|longitude|90|4|
|E-mail|91|6|
|TEL|94|12|
|NO|122|21|
|A2|157|85|
|URL|308|44|
|No|319|32|
-学習の辞書に上記の単語がないかもしれない?
おかしいものなので、除外する
,287,28,
➡
if(name ==''):
continue
**結果について [#x32a0c06]
***2個自治体以上 [#v984507d]
-除外した後のデータ(項目名):1198個項目名
--&ref(times_all_626_2times_re.csv);
--&ref(extract_data_alllist_item_name_2times.py.txt);
***3個自治体以上 [#r5078c17]
-除外した後のデータ(項目名):662個項目名
--&ref(times_all_626_3times_re.csv);
--&ref(extract_data_alllist_item_name_3times.py.txt);
***クラスタ数50の結果 [#uaf94fe0]
-2個自治体以上
--除外した後のデータ(項目名):1184個項目名(辞書に含まれて...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_2...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_2...
30 149
34 143
48 131
...
-3個自治体以上
--除外した後のデータ(項目名):654個項目名(辞書に含まれてい...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_3...
--&ref(chin2017-20200625/label_average_cosine_50_cluter_3...
23 68
44 68
38 55
備考:EXCELで統計し、一番多いクラスタを判断
-今回は自動化していない
****再度クラスタリング [#vf3b3db1]
-2個自治体以上
--上記のクラスタ30を再度
--&ref(chin2017-20200625/50_cluter_2times_30.csv,クラスタ...
--&ref(chin2017-20200625/label_average_cosine_2_2times_30...
--&ref(chin2017-20200625/label_average_cosine_2_2times_30...
---
|再度クラスタのバ番号|個数|
|1|148|
|2|1|
---結果は「?名称」は2となりますが、ほかにほぼ1となりま...
---&color(red){項目名の除外する必要かも?「?」を含めてい...
-3個自治体以上
--上記の23クラスタを再度
--&ref(chin2017-20200625/50_cluter_3times_23.csv,クラスタ...
--&ref(chin2017-20200625/label_average_cosine_2_3times_23...
---
|再度クラスタのバ番号|個数|
|1|37|
|2|31|
--上記の44クラスタを再度
--&ref(chin2017-20200625/50_cluter_3times_44.csv,クラスタ...
--&ref(chin2017-20200625/label_average_cosine_2_3times_44...
--
|再度クラスタのバ番号|個数|
|1|7|
|2|61|
***クラスタ数100の結果 [#ue7b9995]
-2個自治体以上
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
-3個自治体以上
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
--&ref(chin2017-20200625/label_average_cosine_100_cluter_...
****再度クラスタリング [#jc0a56bd]
*参考資料 [#l2f3b1fa]
1,[[いろんな空白文字を削除する【Python】>https://qiita.co...
ページ名: