gooで使われてきた検索ノウハウがAPIで提供されるってよ。
NTT系のポータルサイトgooは、独自の検索エンジンや技術を蓄積してきました。今は、google独り勝ちの状況ですが、日本語の解析技術ではこのgooでも頑張っています。そんなgooが日本語解析のツールをAPIで提供するそうです。
いままで、イマイチうまくいかないなと感じていた人は使ってみると違いがわかるかもしれません。アスキーが記事にしているので紹介します。
NTTレゾナント株式会社は2014年12月3日、NTT研究所が開発して同社の検索エンジン「goo」で利用してきた、日本語解析技術に関連するAPIを公開した。gooラボから利用できる。
同社は1997年に提供開始した検索エンジン「goo」の運営しており、様々なWeb検索に関わる技術やノウハウを蓄積してきたほか、NTT研究所との連携により、様々な世界有数の技術を有する。同社は今後、こうした技術が企業のビッグデータ解析技術などの分野において活用が見込まれることから、APIの公開を順次行うことを決定した。
第一弾は、ビッグデータ解析などにおいて必要な要素技術である日本語解析に関わる4種類のAPIを公開する。このAPIを利用することで、日本語文章を単なる文字列集計だけでなく、書かれている内容に基づいた分析が可能になるとしている。
公開されたAPIは次の通り。
語句類似度算出:2つの語句に対して、構成単語や音素の情報を踏まえて、その類似度合いを算出する。例えば、「キョート」と「京都」、「カノニカル」と「canonical」といった似通った発音を持つ異なる表記の語句を、その類似度合いにより同一語句とみなすことができる。データ統合作業を自動化すると共にデータ分析の精度と生産性を高めることが可能だ。
固有表現抽出:トレンドは評判解析に必要な人名・地名・組織名を抽出する。例えば、「あのSEOの辻さんが今日の午前6時から、代々木周辺でSEOと連呼しながら歩き回っています」という文字列からは、人名として「辻」地名として「代々木」、日付表現として「午前6時」が抽出される。
ひらがな化:漢字混じりで書かれた文字列をひらがなまたはカタカナ記載に変換する。例えば、「有料リンク購入はリスクがある」という文字列を、ゆうりょうりんくは りすくがある、と変換し、文中の適当な位置に半角スペースが挿入される。
形態素解析:日本語文字列を形態素単位に分割する。例えば、「このスパムが大好きです」という文字列は、「この」「スパム」「が」「大好き」「です」というように分割される。たとえば自社製品のレビュー記事からどのような表現でよく評価されているのかといった分析が可能になる。gooラボ
https://labs.goo.ne.jp/固有表現抽出API:文字列中の人名・地名などを抽出する技術
https://labs.goo.ne.jp/api/2014/336/形態素解析API:日本語文字列を語句に分割する技術
https://labs.goo.ne.jp/api/2014/334/語句類似度算出API:2つの語句の表記ゆれ度算出
https://labs.goo.ne.jp/api/2014/330/ひらがな化API:日本語をひらがな/カタカナに変換する技術
https://labs.goo.ne.jp/api/2014/338/
どれも日本語を詳しくしらないとできない技術ですよね。googleなどとどちらが使いやすいか。