#author("2020-07-08T07:53:01+00:00","default:f-lab","f-lab") [[個人ページ>seminar-personal/chin2017]] &br; [[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]] |~目次| |#contents| &br; *支部大会 [#r7ba9c19] -題目:オープンデータの述語サジェストのための項目名のクラスタリングの研究 -英語:A study on the clustering of item names for predicate suggestion of Open Data -概要:近年,新型コロナウイルスにより,台湾のオープンデータを活用したマスク在庫管理マップアプリが話題となったりと,世界的にオープンデータへの関心が高まりつつある.日本でもオープンデータの活用が推進され,国や地方自治体をはじめ多くの団体がオープンデータの公開,活用に取り組んでいる.地方自治体のオープンデータは,データ形式・フォーマットの違いにより開示されても積極的な活用まで至っていないのが現状である.本研究では,RDFに焦点を当てて,適切な述語をサジェストするために,オープンデータの項目名を抽出し,Word2Vecで得られた単語ベクトルを使用し,クラスタリングを行い,その実験結果を示す. -[[電気・情報関係学会九州支部第73回連合大会>https://gakkai-web.net/gakkai/ieek/index.html]] -発表希望グループ1: 21 計算機応用 -発表希望グループ2: 22 人工知能 -発表希望グループ3: 15 情報通信 - 著者1: 陳 博 チン/ハク 電子メールアドレス: chinhaku204@gmail.com 所属名: 鹿児島大 -著者2: 泊 大貴 トマリ/ダイキ 電子メールアドレス: sc115092@ibe.kagoshima-u.ac.jp 所属名: 鹿児島大 -著者3: 程 芳 テイ/ホウ 電子メールアドレス: mc120040@ibe.kagoshima-u.ac.jp 所属名: 鹿児島大 -著者4: 渕田 孝康 フチダ/タカヤス 電子メールアドレス: fuchida@ibe.kagoshima-u.ac.jp 所属名: 鹿児島大 *ゼミより抜粋 [#w65cc953] -&color(red){k-means法でやると違いがあるか?}; -&color(red){k-means++法は?}; -&color(red){他のクラスタも同様な傾向なのか?}; -&color(red){異なるクラスタ間の類似度の分布はどうなっているか?}; *進捗報告 [#xd8f9873] **階層的クラスタリング [#paa1391d] ***他のクラスタも同様な傾向なのか? [#y109106a] ***以下は3個以上の自治体に存在する項目名に対して:&ref(label_average_cosine_50_cluter_2times.csv); [#yf08bdc7] -クラスタ48(131個)を確認する --抽出:&ref(label_average_cosine_50_cluter_2times_48only.csv); --計算するソースコード:&ref(cos_sim_for_48.py.txt); --結果:&ref(cos_sim_all_for_48.csv); --結果分析:&ref(cos_sim_all_for_48.xlsx); --131*131=17161ペア(重複の場合を考慮せず:実際ペア数8515ペア) --分布図&ref(distribution_48.jpg); -クラスタ46(65個)を確認する --抽出:&ref(label_average_cosine_50_cluter_2times_46only.csv); --計算するソースコード:&ref(cos_sim_for_46.py.txt); --結果:&ref(cos_sim_all_for_46.csv); --結果分析:&ref(cos_sim_all_for_46.xlsx); --65*65=4225ペア(重複の場合を考慮せず:実際ペア数2080ペア) --分布図&ref(distribution_46.jpg); -クラスタ25(38個)を確認する --抽出:&ref(label_average_cosine_50_cluter_2times_25only.csv); --計算するソースコード:&ref(cos_sim_for_25.py.txt); --結果:&ref(cos_sim_all_for_25.csv); --結果分析:&ref(cos_sim_all_for_25.xlsx); --38*38=1444ペア-38=1406(重複の場合を考慮せず:実際ペア数703ペア) --分布図&ref(distribution_25.jpg); &br; ***以下は4個以上の自治体に存在する項目名に対して:&ref(label_average_cosine_50_cluter_3times.csv); [#u9e4b60a] -クラスタ23(68個)を確認する --抽出:&ref(label_average_cosine_50_cluter_3times_23only.csv); --結果:&ref(cos_sim_all_for_23.csv); --結果分析:&ref(cos_sim_all_for_23.xlsx); --68*68=4624ペア-64 /2(重複の場合を考慮せず:実際ペア数2278ペア) --分布図 &ref(distribution_23.jpg); -クラスタ44(68個)を確認する --抽出:&ref(label_average_cosine_50_cluter_3times_44only.csv); --結果:&ref(cos_sim_all_for_44.csv); --結果分析:&ref(cos_sim_all_for_44.xlsx); --68*68=4624ペア-64 /2(重複の場合を考慮せず:実際ペア数2278ペア) --分布図 &ref(distribution_44.jpg); ***異なるクラスタ間の類似度の分布はどうなっているか? [#p96cbbfc] 以下は4個以上の自治体に存在する項目名に対して -クラスタ23(68個)と44(68個)を確認する --抽出したデータ:&ref(label_average_cosine_50_cluter_3times_44only.csv); と&ref(label_average_cosine_50_cluter_3times_23only.csv); --結果:&ref(cos_sim_all_for_23_44.csv); --結果分析:&ref(cos_sim_all_for_23_44.xlsx); --68*68=4624 --分布図 &ref(distribution_23_44.jpg); **k-meansについて [#h5ce1f20] -非階層型クラスタリング:k-means -k-means++について --最適なクラスタ数の評価方法はシルエット分析法とエルボー法 --エルボー法:クラスター数を変えてクラスタリングしたときの各SSE(クラスター内誤差の平方和)をプロットしたエルボー図で、ひじのように曲がっているところのクラスター数が最適というもの。 --シルエット分析法:各点のシルエット値を計算する。シルエット値とは「他のクラスターの点と比べて、その点が自身のクラスター内の他の点にどれくらい相似しているかを示す尺度」 ---1から1の範囲の値 ---シルエット値が1に近く、かつシルエット値をプロットしたシルエット図でクラスター間の幅の差が最も少ないクラスター数が最適となる。 -X-means法もある --クラスタ数を自動推定する[[X-means法>https://qiita.com/deaikei/items/8615362d320c76e2ce0b]]について --Pelleg and Moore (2000)が提案したK-meansの拡張アルゴリズム。 ---クラスター数Kを自動決定する ---k-meansをデータ数が多くても高速に動くようなアルゴリズムに工夫する という点が、従来のk-meansとの差分。 *参考文献 [#wb2bc857] -[[1,クラスター数決定法の比較>http://www.st.nanzan-u.ac.jp/info/ma-thesis/2010/MATSUDA/m09mm020.pdf]] -[[2,k-means法の最適なクラスター数を選択する:シルエット分析>https://irukanobox.blogspot.com/2018/06/k-means_30.html?m=0]] -[[3,k-means++とk-means>https://qiita.com/g-k/items/e1d558ffcdc833e6382c]] -[[4,非階層型クラスタリング k-means>https://qiita.com/AwaJ/items/1cd3eeef497c93a6a053]]