seminar-personal/chin2017


AROBのPPTを作成

進捗報告

ゼミの内容

項目名と項目データのペア数は、全部で124万ペアある。
各クラスタが124万ペアの中に何回出てくるかをカウントした。
かなりバラツキがある。
26万回もあれば1回、2回もある。
多いクラスタと少ないクラスタは、どんなものか?
  • 上記について調査 クラスタリングの設定
    #平均法 x cosine距離
    result = linkage(df_vec,method='average',metric ='cosine')
    #くラス多数:150 項目名数:約5400個)
    # クラスタリング結果の値を取得
    clusters = fcluster(result, t=150,criterion='maxclust')
  • 多い場合
  • 1245709ペア(項目-項目名)のクラスタの出た回数
クラスタ回数中身
145148635所在地、公民館地区、地域、学校・地域、市町村、小学校、中学校...(693項目名)
133152212店舗名、施設名、団地名、駐車場名、地区名、園名、節名称、細節名称、市町名、路線名、都道府県名、市区町村名、団体名、研修名、施設名・個人名、学校名、企業名、市町村名、競技名、遺跡名、集落名、図書名、法人名、...(270項目名)
81264149名称、住所、形態、住所・場所、カテゴリ、設置施設名称、施設区分、事業種別、区分、運営区分、当初補正区分名称、会計名称、大事業名称、町名、報告番号、種類、建物名称、施設分類、種別、給付金名称、支給単位、研修番号...(300項目名)
55154193備考、フリガナ、生年月日、氏名、工場ふりがな、品名、氏名漢字、国名、意味、ふりがな、自由記述欄、件名、読み仮名、読み方、五十音、停留所ふりがな、住所ふりがな、頭文字...(43項目名)
合計1020036

割合=1020036/1245709=0.8188

  • 四つのクラスタに集中しているので、クラスタリングの信頼性が大丈夫かだ?
    • おかしいと思う
  • すぐない場合(ノイズとして考えられるかも)
  • 5回以下
    クラスタ回数中身
    41北中
    52なす、見出し
    63歳入出、県内の出
    74当落
    132で医療対(変?)
    152特にない、簡舗を含まない
    382る世帯(下記をご覧)
    393
    462動機付け支援
    745ページアクセス総計、全部公開、稼働世帯
    973函館アリーナ前、函館どつく前、三宮・花時計前
    1101残留農薬
    1491交流
    1501よりみちクルーズ
    885465行:河和田川,北中➡(項目名は?)
    161453行:作付経営体数,なす ⇒(逆?)
    1221503行:殿堂入り,見出し  (⇒?)
    577940:歳入,歳入出
    577941:歳出,歳入出
    1089954:生届出数,県内の出
    695784:※落,当落
    198571:当,当落
    198572:落,当落
    199053:決選,当落
    1089976:象者以外,で医療対
    1089977:の者,で医療対
    402903:特にない,特にない➡(項目名がない?)
    861227:延長,簡舗を含まない
    391000行:親が,る世帯
    391001行:非就業,る世帯
    1088502行:ち,う(変!)
    1088503行:注:構成比の単位は%である。,う(変!)
    1088504行:県警察本部統計による,う(変!)
    663940行:積極的支援,動機付け支援    ➡(項目名がない?)
    663941行:動機付け支援,動機付け支援
    62525:ページアクセス総計,ページアクセス総計
    660960:部分公開,全部公開➡(項目名がない?)
    660961:非公開,全部公開➡(項目名がない?)
    660962:不存在,全部公開➡(項目名がない?)
    1091265:総数,稼働世帯(逆?)
    249235:‥,函館アリーナ前(変!)
    249243:‥,函館どつく前(変!)
    380600:新長田,三宮・花時計前 ➡(項目名がないかも?)
    1091669:基準,残留農薬(逆?)
    321153:よりみちクルーズ,よりみちクルーズ➡(項目名がないかも?)
    575077:青少年交流、市民交流,交流
  • クラスタ(および項目名)の回数が少ない場合は学習する際ノイズとして考えられるかなと思いますが、除外すればいかがでしょう。
    • 120万ペアデータで1~10回等
    • クラスタリングと学習精度が向上するかも
    • 抽出するデータ方法を工夫する必要

データCSVについて

パータン1:(逆?)

飼養経営体数,乳用牛
飼養経営体数,肉用牛
飼養経営体数,豚
飼養経営体数,採卵鶏
飼養経営体数,ブロイラ
栽培経営体数,きのこ

パータン2:(項目名無い?675762~)

大豆,大豆
もやし,大豆
いか,大豆
豚もも,大豆
豚ひき肉,大豆
ぶり,大豆
鶏もも,大豆
ぽんかん,大豆
鮭,大豆
ちりめんじゃこ,大豆
菜ばな,大豆
豚ひき肉,豚ひき肉
鶏もも,豚ひき肉
たらこ,豚ひき肉
鶏ひき肉,豚ひき肉
ぽんかん,豚ひき肉
いちご,豚ひき肉
鶏むね,豚ひき肉
いか,豚ひき肉
ブラックタイガー,豚ひき肉
メルルーサ,豚ひき肉
鰆,豚ひき肉
もやし,豚ひき肉
ちりめんじゃこ,豚ひき肉
豚もも,豚ひき肉
豚もも,豚もも
鯖,豚もも
いよかん,豚もも
鰆,豚もも
いわし,豚もも
ぽんかん,豚もも
いか,豚もも
見オレンジ,豚もも
豚かた,豚もも
わかめ,豚もも
ぶり,豚もも
みかん,みかん
いちご,みかん
りんご,みかん
デコポン,みかん
ししゃも,みかん
豚もも,みかん
静岡県,静岡県
栃木県,静岡県
長野県,静岡県
三重県・愛媛県,静岡県
アイスランド,静岡県
茨城県,静岡県
熊本県,静岡県

変なデータ:除外処理する必要がある

‖,谷地頭 
‖,青柳町 
‖,宝来町 
‥,函館アリーナ前
‥,湯の川温泉
‥,湯の川
5末広町,系統
5どつく,系統
2谷地頭,系統
‥,末広町
‥,大町
‥,函館どつく前
5函館駅,系統
冬函館駅,系統
冬末広町,系統
‥,市役所前
‥,魚市場通
‥,十字街
‥,宝来町
‥,青柳町
‥,谷地頭

添付ファイル: filepre2_csv_items_all_list.csv 472件 [詳細] filecluster_150_h.png 194件 [詳細] fileitems_name_all_vec_150_191212.csv 194件 [詳細] fileAROB2020.pptx 197件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-01-10 (金) 15:03:25