各ECモールの商品カテゴリ/商品分類を技術を使って一致させたい(結果確認)
前回の続きです。
前回 [https://notshown.hatenablog.jp/entry/2021/10/26/012326:e mbed:cite]
前々回はECサイト上からのカテゴリデータの取得、前回はword2vecを利用したpython実装によるデータのマッチングです。
今回はマッチング結果のデータと思ったことをメモして終わります。 pastebinのデータ量の制限があったので、一部のみです。
結論(というか思ったこと)
商品カテゴリーの1:1での一致はほぼできない
比較上、完全一致の値は取るのですが、辞書に無い言葉をスルーする前提で作ったため一部の未知語以外の一致となり精度が少し落ちました。
トップ10を抽出し、人の目で選ばせればいいかも
例えば業務で各ECマーケットに出店する上で、各ECのカテゴリーに合わせたいという目的の場合、カテゴリーの設定はお客さんがアクセスする事に影響があるので精度は落とせないと思います。 こういった技術である程度の候補を出し、その候補から人間の目でマッチングさせるようなやり方であれば、実際に業務で使えるような精度になるのではないでしょうか。
類似度を計算して、候補をクリックだけで選んでマッチングしていくガワのアプリでも作ればもっと楽になりますね。
例えば
- 5000カテゴリー
- 目視で1カテゴリー5秒
という前提であれば、 5000 * 5 / (60 * 60)=6.94時間 必要で、1日あればマッチング作業ができることになります。
今回の実験?で非常に面倒なカテゴリーのマッチングがある程度技術でサポートできると分かりました。
word2vecは面白い技術なのでそれ以外にも使えないか色々考えるのも面白いなと思いました。
以上!
各カテゴリーのデータ
au Pay マーケットのカテゴリー
Yahoo!ショッピングのカテゴリー
au Pay マーケット → yahoo!ショッピング
au Pay マーケットのカテゴリに対して、類似したyahoo!ショッピングのカテゴリを抽出
完全一致
101 / 5230 → 1.93%
トップ1データ
yahoo!ショッピング → au Pay マーケット
完全一致
83 / 3100 → 2.68%