個人ページ
N班ゼミ


支部大会

  • 題目(和文、英文)
    • 和文
    • 英文
  • アブストラクト(300文字以内)
    • 最近,新型コロナウイルスにより,台湾のオープンデータを活用したマスク在庫管理マップアプリが話題となった.世界的にオープンデータへの関心が高まりつつある。オープンデータの活用が推進され,国や地方自治体をはじめ多くの団体がオープンデータの公開,活用に取り組んでいる.地方自治体のオープンデータは,データ形式・フォーマットの違いにより開示されても積極的な活用まで至っていないのが現状である.本研究では,RDFに焦点を当てて,述語の語彙共通化を行うため,オープンデータの項目名をクラスタリングし,割り当てられたカテゴリを教師信号として入力し,深層学習を行い,述語のサジェストを提案する.また,実験結果を示す。(298文字)
  • 電子情報通信学会
    • 会員番号:1715909
    • 学生会員保持:4,500円(6月22日に支払い済)

ゼミより抜粋

クラスタリングのパラメータについて

  • methodは現在はaverage
  • これをsingleにしたらどうなるか?

クラスタ内の単語数についての検討

  • なぜ類似度の低い単語が同じクラスタに入っているのか?
    • 同じクラスタ内の単語間のcos類似度を計算して、分布をみる。

進捗状況

1) methodのパラメータ変更

  • 距離計算手法(averageとsingle)
  • クラスタリングはデータ同士の距離に基づいて, データをグループ分ける.
    • average:重みのない平均距離
    • single:最小距離
    • 2個自治体以上:file結果:1184
      • file結果分析:1184:クラスタ12が1105個であり、ほかにはほぼ1(44個)だ
    • 3個自治体以上:file結果:654
      • file結果分析:クラスタ6が587個であり、ほかにはほぼ1(40個)だ
    • 結果がおかしい?(以下の原因を考えているが、究明中)
      • ベクトル作成用の辞書が変?
      • クラスタリングをうまくいかない?
      • ほかのパラメータを変更するのは?

2) クラスタ同士内の分布

  • 距離関数の定義
  • 式:
    • コサイン類似度.JPG
    • コサイン類似度が 1 に近い ⟺ 2本のベクトルは同じ向きに近い
    • コサイン類似度が −1 に近い ⟺ 2本のベクトルは逆向きに近い
      import numpy as np
      def cos_sim(v1, v2):
          return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
      X = np.array([0.789, 0.515, 0.335,0])
      Y = np.array([0.832, 0.555,0,0])
      # cos(X,Y) = (0.789×0.832)+(0.515×0.555)+(0.335×0)+(0×0)≒0.942
      print(cos_sim(X, Y)) 

参考資料


添付ファイル: filecos_sim_all_for_30.xlsx 93件 [詳細] filedistribution_30.jpg 61件 [詳細] filecos_sim_all_for_30.csv 76件 [詳細] filecos_sim_for_30.py.txt 84件 [詳細] filelabel_average_cosine_50_cluter_2times_30only.csv 75件 [詳細] filelabel_single_cosine_50_cluter703_3times.xlsx 81件 [詳細] filelabel_single_cosine_50_cluter703_2times.xlsx 75件 [詳細] filelabel_single_cosine_50_cluter703_3times.csv 73件 [詳細] filelabel_single_cosine_50_cluter703_2times.csv 71件 [詳細] filelabel_average_cosine_50_cluter_2times.xlsx 27件 [詳細] fileコサイン類似度.JPG 87件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-07-04 (土) 23:29:31