全体の流れ
日本のヒットソングリスト(2000-2016)+Jacket+MetaTags.zipがあればいいんですが、そんな都合の良いものはないためデータセットを作るところから始めねばなりません。分析は以下のようにやっていきます。
- [楽曲名+アーティスト名]リストを何らかの手法で集める
- [楽曲名+アーティスト名]から[メタ情報とカバージャケット画像]を取得
- [カバージャケット画像]から[タグやキャプション]を自動生成
- [タグやキャプション]を処理して特徴量にして、[メタ情報]をターゲットに予測できるか考える
最後のはただの統計処理なので適当にpythonのライブラリを回せばいいですが、最初の三つはなかなか一筋縄ではいきません。そこで、各種webサービスを最大限利用し、上記過程を行っていきます。
以降の章では、上記項目で用いた手法やサービスについて紹介していきます。