#author("2020-07-03T09:46:55+00:00","default:f-lab","f-lab") [[個人ページ>seminar-personal/chin2017]] &br; [[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]] |~目次| |#contents| &br; *支部大会 [#n59d513d] -題目(和文、英文) --和文 --英文 -アブストラクト(300文字以内) --最近,新型コロナウイルスにより,台湾のオープンデータを活用したマスク在庫管理マップアプリが話題となった.世界的にオープンデータへの関心が高まりつつある.オープンデータの活用が推進され,国や地方自治体をはじめ多くの団体がオープンデータの公開,活用に取り組んでいる.地方自治体のオープンデータは,データ形式・フォーマットの違いにより開示されても積極的な活用まで至っていないのが現状である.本研究では,RDFに焦点を当てて,述語の語彙共通化を行うため,オープンデータの項目名をクラスタリングし,割り当てられたカテゴリを教師信号として入力し,深層学習を行い,述語のサジェストを提案する.また,実験結果を示す。(298文字) -電子情報通信学会 --会員番号:1715909 --学生会員保持:4,500円(6月22日に支払い済) *ゼミより抜粋 [#x56e0c04] **クラスタリングのパラメータについて [#j7f01f5a] -methodは現在はaverage -&color(red){これをsingleにしたらどうなるか?}; **クラスタ内の単語数についての検討 [#f4963093] -なぜ類似度の低い単語が同じクラスタに入っているのか? --&color(red){同じクラスタ内の単語間のcos類似度を計算して、分布をみる。}; *進捗状況 [#k9c3dcd1] **1) methodのパラメータ変更 [#o3315e95] -[[距離計算手法(averageとsingle)>https://qiita.com/pontyo4/items/a2e7dec57c3699c519a5]] -クラスタリングはデータ同士の距離に基づいて, データをグループ分ける. --average:重みのない平均距離 --single:最小距離 --2個自治体以上:&ref(chin2017-20200703/label_single_cosine_50_cluter703_2times.csv,結果:1184); ---&ref(chin2017-20200703/label_single_cosine_50_cluter703_2times.xlsx,結果分析:1184);:クラスタ12が1105個であり、ほかにはほぼ1(44個)だ --3個自治体以上:&ref(chin2017-20200703/label_single_cosine_50_cluter703_3times.csv,結果:654); ---&ref(chin2017-20200703/label_single_cosine_50_cluter703_3times.xlsx,結果分析);:クラスタ6が587個であり、ほかにはほぼ1(40個)だ --結果がおかしい?(以下の原因を考えているが、究明中) ---ベクトル作成用の辞書が変? ---クラスタリングをうまくいかない? ---ほかのパラメータを変更するのは? --- **2) クラスタ同士内の分布 [#l58ea33e] -[[距離関数の定義>https://qiita.com/obake_kaiware/items/36104a479582063308f0]] -式: --&ref(chin2017-20200703/コサイン類似度.JPG,80%); --コサイン類似度が 1 に近い ⟺ 2本のベクトルは同じ向きに近い --コサイン類似度が −1 に近い ⟺ 2本のベクトルは逆向きに近い import numpy as np def cos_sim(v1, v2): return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2)) X = np.array([0.789, 0.515, 0.335,0]) Y = np.array([0.832, 0.555,0,0]) # cos(X,Y) = (0.789×0.832)+(0.515×0.555)+(0.335×0)+(0×0)≒0.942 print(cos_sim(X, Y)) -前回の一番多くのクラスタ(30)を確認する -抽出:&ref(label_average_cosine_50_cluter_2times_30only.csv); -計算するソースコード:&ref(cos_sim_for_30.py.txt); -結果:&ref(cos_sim_all_for_30.csv); -結果分析:&ref(cos_sim_all_for_30.xlsx); -149*149=22,201ペア(重複の場合を考慮せず:実際ペア数11026ペア) --[データ名,法人] と[法人,データ名]→一回のみで計算 --分布図 &ref(distribution_30.jpg); *参考資料 [#h6872381] -1,[[距離とクラスタリング>https://www.slideshare.net/ssuserf64eb4/ss-129049925]] -2,[[数学のコサイン類似度>https://mathtrain.jp/cosdistance]] -3,[[コサイン類似度の求め方>https://qiita.com/Qiitaman/items/fa393d93ce8e61a857b1]]