特徴量抽出


典型的な楽曲データは44100Hzで16bitのデータがステレオで収録されているので、120秒はそのままだと44100*2*120=10^7次元で話になりません。このため、何らかの方法で楽曲から特徴を抽出し、100次元程度に収める必要があります。

この章では、楽曲は「音色、展開、リズム」の三要素から成り立っているということにとりあえずして、それぞれのデータを別の手段で抽出します。

ソースコードでいうと、このあたりの処理です。

results matching ""

    No results matching ""