特徴量抽出
典型的な楽曲データは44100Hzで16bitのデータがステレオで収録されているので、120秒はそのままだと44100*2*120=10^7次元で話になりません。このため、何らかの方法で楽曲から特徴を抽出し、100次元程度に収める必要があります。
この章では、楽曲は「音色、展開、リズム」の三要素から成り立っているということにとりあえずして、それぞれのデータを別の手段で抽出します。
ソースコードでいうと、このあたりの処理です。
典型的な楽曲データは44100Hzで16bitのデータがステレオで収録されているので、120秒はそのままだと44100*2*120=10^7次元で話になりません。このため、何らかの方法で楽曲から特徴を抽出し、100次元程度に収める必要があります。
この章では、楽曲は「音色、展開、リズム」の三要素から成り立っているということにとりあえずして、それぞれのデータを別の手段で抽出します。
ソースコードでいうと、このあたりの処理です。