CSJ 音声中の検索語検出(Spoken Term Detection)テストコレクション

配布するデータ

現時点での利用可能なデータは,以下の通りです.

  • 検索語セット (未知語セット,既知語セット)
    • 既知語セット(コア177講演用50ターム,全講演用100ターム)
    • 未知語セット(コア177講演用50ターム)
    • 簡易性能付コア講演用セット(コア49講演(CSJのDisk3に収録)用50ターム)
  • 正解データ (ただし,フレーズ単位の正解データ)
  • 音声認識システムで使用した音声認識辞書(27k) 
  • 音声認識用音響モデルと言語モデル(CSJより学習)
  • 音声ドキュメントの認識結果(コア講演のみ)

STDテストコレクションの配布についての注意点

STDのテストコレクションの使用にあたっての注意点です。

  • 所属組織にて、日本語話し言葉コーパス(CSJ)を保有していること。
  • CSJの利用条件に準じて使用すること。

を条件に利用可能です。使用前に、テストコレクション利用に関する誓約書を提出して頂きます。以下の問い合わせ先まで、ご連絡下さい。

問い合わせ先

岩手県立大学 伊藤慶明

メールアドレス: y-itoh(あっと)

(末尾に、「.iwate-pu.ac.jp」を補完して下さい。 )

参考文献

  • Yoshiaki Itoh, Hiromitsu Nishizaki, Xinhui Hu, Hiroaki Nanjo, Tomoyoshi Akiba, Tatsuya Kawahara, Seiichi Nakagawa, Tomoko Matsui, Yoichi Yamashita, and Kiyoaki Aikawa, "Constructing Japanese Test Collections for Spoken Term Detection," Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010), 2010.9, to appear.
  • 秋葉友良,"音声ドキュメント検索の現状と課題",情報処理学会,情報処理学会研究報告,Vol.2010-SLP-82,No.10,8 pages,2010.7
  • 西崎博光,胡新輝,南條浩輝,伊藤慶明,秋葉友良,河原達也,中川聖一,松井知子,山下洋一,相川清明,“Spoken Term Detection のための テストコレクション構築とベースライン評価”,情報処理学会,情報処理学会研究報告,Vol.2010-SLP-81,No.13,8 pages,2010.5

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-07-29 (木) 20:19:54 (2670d)