chin2017-20200710
のバックアップ(No.8)
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
バックアップ一覧
差分
を表示
現在との差分
を表示
ソース
を表示
chin2017-20200710
へ行く。
1 (2020-07-05 (日) 07:52:37)
2 (2020-07-05 (日) 08:24:10)
3 (2020-07-05 (日) 08:28:47)
4 (2020-07-06 (月) 05:03:56)
5 (2020-07-07 (火) 01:01:52)
6 (2020-07-07 (火) 20:51:10)
7 (2020-07-08 (水) 01:12:32)
8 (2020-07-08 (水) 23:47:01)
9 (2020-07-09 (木) 01:53:58)
10 (2020-07-09 (木) 06:46:08)
11 (2020-07-09 (木) 19:17:37)
12 (2020-07-10 (金) 08:51:58)
13 (2020-07-10 (金) 20:06:35)
14 (2020-07-10 (金) 22:44:49)
15 (2020-07-11 (土) 01:42:19)
個人ページ
N班ゼミ
目次
支部大会
ゼミより抜粋
進捗報告
階層的クラスタリング
他のクラスタも同様な傾向なのか?
異なるクラスタ間の類似度の分布はどうなっているか?
k-meansについて
参考文献
支部大会
†
題目:オープンデータの述語サジェストのための項目名のクラスタリングの研究
英語:A study on the clustering of item names for predicate suggestion of Open Data
概要:近年,新型コロナウイルスにより,台湾のオープンデータを活用したマスク在庫管理マップアプリが話題となったりと,世界的にオープンデータへの関心が高まりつつある.日本でもオープンデータの活用が推進され,国や地方自治体をはじめ多くの団体がオープンデータの公開,活用に取り組んでいる.地方自治体のオープンデータは,データ形式・フォーマットの違いにより開示されても積極的な活用まで至っていないのが現状である.本研究では,RDFに焦点を当てて,適切な述語をサジェストするために,オープンデータの項目名を抽出し,Word2Vecで得られた単語ベクトルを使用し,クラスタリングを行い,その実験結果を示す.
電気・情報関係学会九州支部第73回連合大会
発表希望グループ1: 21 計算機応用
発表希望グループ2: 22 人工知能
発表希望グループ3: 15 情報通信 著者1: 陳 博 チン/ハク 電子メールアドレス:
chinhaku204@gmail.com
所属名: 鹿児島大
著者2: 泊 大貴 トマリ/ダイキ 電子メールアドレス:
sc115092@ibe.kagoshima-u.ac.jp
所属名: 鹿児島大
著者3: 程 芳 テイ/ホウ 電子メールアドレス:
mc120040@ibe.kagoshima-u.ac.jp
所属名: 鹿児島大
著者4: 渕田 孝康 フチダ/タカヤス 電子メールアドレス:
fuchida@ibe.kagoshima-u.ac.jp
所属名: 鹿児島大
↑
ゼミより抜粋
†
k-means法でやると違いがあるか?
k-means++法は?
他のクラスタも同様な傾向なのか?
異なるクラスタ間の類似度の分布はどうなっているか?
↑
進捗報告
†
↑
階層的クラスタリング
†
↑
他のクラスタも同様な傾向なのか?
†
クラスタ48(131個)を確認する
抽出:
label_average_cosine_50_cluter_2times_48only.csv
計算するソースコード:
cos_sim_for_48.py.txt
結果:
cos_sim_all_for_48.csv
結果分析:
cos_sim_all_for_48.xlsx
131*131=17161ペア(重複の場合を考慮せず:実際ペア数8515ペア
*1
/2)
分布図
クラスタ46(65個)を確認する
抽出:
label_average_cosine_50_cluter_2times_46only.csv
計算するソースコード:
cos_sim_for_46.py.txt
結果:
cos_sim_all_for_46.csv
結果分析:
cos_sim_all_for_46.xlsx
65*65=4225ペア(重複の場合を考慮せず:実際ペア数2080ペア
*2
/2))
分布図
クラスタ25(38個)を確認する
抽出:
label_average_cosine_50_cluter_2times_25only.csv
計算するソースコード:
cos_sim_for_25.py.txt
結果:
cos_sim_all_for_25.csv
結果分析:
cos_sim_all_for_25.xlsx
25*25=625ペア(重複の場合を考慮せず:実際ペア数300ペア
*3
/2))
分布図
↑
異なるクラスタ間の類似度の分布はどうなっているか?
†
↑
k-meansについて
†
非階層型クラスタリング:k-means
k-means++について
最適なクラスタ数の評価方法はシルエット分析法とエルボー法
エルボー法:クラスター数を変えてクラスタリングしたときの各SSE(クラスター内誤差の平方和)をプロットしたエルボー図で、ひじのように曲がっているところのクラスター数が最適というもの。
シルエット分析法:各点のシルエット値を計算する。シルエット値とは「他のクラスターの点と比べて、その点が自身のクラスター内の他の点にどれくらい相似しているかを示す尺度」
1から1の範囲の値
シルエット値が1に近く、かつシルエット値をプロットしたシルエット図でクラスター間の幅の差が最も少ないクラスター数が最適となる。
X-means法もある
クラスタ数を自動推定する
X-means法
について
Pelleg and Moore (2000)が提案したK-meansの拡張アルゴリズム。
クラスター数Kを自動決定する
k-meansをデータ数が多くても高速に動くようなアルゴリズムに工夫する という点が、従来のk-meansとの差分。
↑
参考文献
†
1,クラスター数決定法の比較
2,k-means法の最適なクラスター数を選択する:シルエット分析
3,k-means++とk-means
4,非階層型クラスタリング k-means
*1
17161-131
*2
4225-65
*3
62525