個人ページ
N班ゼミ


進捗状況

ゼミより抜粋

英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは?
たとえば、
"^Unnamed: \d+$"

上記より正規表現を変更

re.search('^[Ⅰ-Ⅹ0-90-9①-⑳%%×,,..::\"’〜~―ー-−‐○〇…〒-]+$',item):#記号・数字等#記号・数字等 →英語のほうを削除
re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、H16...H25
re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,従業者数.1
re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
  • 比較用:filetimes_all_619_no_extract.csv
  • 英語のネーム:
    項目名CSV回数自治体数
    SSID44
    No.43
    A743
    date33
    A665
    A386
    TEL143
    URL189
    COD183
    url215
    FAX2811
    Y368
    id404
    X4911
    No483
    ID8113
    x843
    latitude894
    longitude904
    E-mail916
    TEL9412
    NO12221
    A215785
    URL30844
    No31932
  • 学習の辞書に上記の単語がないかもしれない?

おかしいものなので、除外する

,287,28,
➡
if(name ==''):
    continue

結果について

2個自治体以上

3個自治体以上

クラスタ数50の結果

備考:EXCELで統計し、一番多いクラスタを判断

  • 今回は自動化していない

*再度クラスタリング

  • 2個自治体以上
    • 上記のクラスタ30を再度
    • fileクラスタ30の項目名
    • file結果30
    • file結果30_個数分析
      • 再度クラスタのバ番号個数
        1148
        21
      • 結果は「?名称」は2となりますが、ほかにほぼ1となります。→おかしいと感じる?
      • 項目名の除外する必要かも?「?」を含めている単語を除外するとか
  • 3個自治体以上

クラスタ数100の結果

*再度クラスタリング

参考資料

1,いろんな空白文字を削除する【Python】


添付ファイル: filelabel_average_cosine_100_cluter_3times.xlsx 39件 [詳細] filelabel_average_cosine_100_cluter_2times.xlsx 52件 [詳細] fileclustering_100_3times.py 31件 [詳細] filelabel_average_cosine_100_cluter_3times.csv 41件 [詳細] filelabel_average_cosine_100_cluter_2times.csv 47件 [詳細] filelabel_average_cosine_2_3times_44cluster.xlsx 55件 [詳細] filelabel_average_cosine_2_3times_23cluster.xlsx 52件 [詳細] filelabel_average_cosine_2_2times_30cluster.xlsx 57件 [詳細] filelabel_average_cosine_2_3times_44cluster.csv 28件 [詳細] filelabel_average_cosine_2_3times_23cluster.csv 25件 [詳細] filelabel_average_cosine_2_2times_30cluster.csv 64件 [詳細] file50_cluter_3times_44.csv 45件 [詳細] file50_cluter_3times_23.csv 45件 [詳細] file50_cluter_2times_30.csv 66件 [詳細] filelabel_average_cosine_50_cluter_3times.xlsx 61件 [詳細] filelabel_average_cosine_50_cluter_2times.xlsx 71件 [詳細] filelabel_average_cosine_50_cluter_3times.csv 68件 [詳細] filetimes_all_626_3times_re.csv 84件 [詳細] filelabel_average_cosine_50_cluter_2times.csv 81件 [詳細] filetimes_all_626_2times_re.csv 79件 [詳細] fileextract_data_alllist_item_name_3times.py.txt 82件 [詳細] fileextract_data_alllist_item_name_2times.py.txt 79件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-06-26 (金) 16:54:18