命名って難しい

変数、関数、クラスなどなど実装より命名に毎回悩むタイプの人間による技術についてのメモ。

各ECモールの商品カテゴリ/商品分類を技術を使って一致させたい(結果確認)

前回の続きです。

前回 [https://notshown.hatenablog.jp/entry/2021/10/26/012326:e mbed:cite]

前々回 notshown.hatenablog.jp

前々回はECサイト上からのカテゴリデータの取得、前回はword2vecを利用したpython実装によるデータのマッチングです。

今回はマッチング結果のデータと思ったことをメモして終わります。 pastebinのデータ量の制限があったので、一部のみです。

結論(というか思ったこと)

商品カテゴリーの1:1での一致はほぼできない

比較上、完全一致の値は取るのですが、辞書に無い言葉をスルーする前提で作ったため一部の未知語以外の一致となり精度が少し落ちました。

トップ10を抽出し、人の目で選ばせればいいかも

例えば業務で各ECマーケットに出店する上で、各ECのカテゴリーに合わせたいという目的の場合、カテゴリーの設定はお客さんがアクセスする事に影響があるので精度は落とせないと思います。 こういった技術である程度の候補を出し、その候補から人間の目でマッチングさせるようなやり方であれば、実際に業務で使えるような精度になるのではないでしょうか。

類似度を計算して、候補をクリックだけで選んでマッチングしていくガワのアプリでも作ればもっと楽になりますね。

例えば

  • 5000カテゴリー
  • 目視で1カテゴリー5秒

という前提であれば、 5000 * 5 / (60 * 60)=6.94時間 必要で、1日あればマッチング作業ができることになります。

今回の実験?で非常に面倒なカテゴリーのマッチングがある程度技術でサポートできると分かりました。

word2vecは面白い技術なのでそれ以外にも使えないか色々考えるのも面白いなと思いました。

以上!

各カテゴリーのデータ

au Pay マーケットのカテゴリー

pastebin.com

Yahoo!ショッピングのカテゴリー

pastebin.com

au Pay マーケット → yahoo!ショッピング

au Pay マーケットのカテゴリに対して、類似したyahoo!ショッピングのカテゴリを抽出

完全一致

101 / 5230 → 1.93%

トップ1データ

pastebin.com

yahoo!ショッピングau Pay マーケット

完全一致

83 / 3100 → 2.68%

トップ1データ

pastebin.com