大学院講義
情報科学研究科
2005
情報知識ネットワーク特論
有村博紀(北海道大学大学院情報科学研究科)、喜田拓也(北海道大学大学院情報科学研究科)
Get Flash Player

大学院教育 情報知識ネットワーク特論(2005)

教員
有村博紀(北海道大学大学院情報科学研究科)、喜田拓也(北海道大学大学院情報科学研究科)
概要

高度なネットワークと大規模記憶装置の急速な発達によって、現在、膨大な量のデータがネットワーク上で利用されている。本講義では、ネットワークを介して情報や知識を伝達し、共有するために必要な技術について講義する。具体的には、ウェブデータやテキストデータなどの大規模非定型データ処理のための基礎技術として、情報検索および、データマイニング、ウェブ情報システムに焦点をあてて、テキストパターン照合技術、パターン発見技術、HTMLやXML等の半構造データ処理について、とくにアルゴリズムとプロトコルの視点から学ぶ。

講義資料

I.情報検索とパターン照合(7回)(喜田が担当)

1. ガイダンス、および、準備 講義スライド
2. Prefix型アルゴリズム(naïve、KMP、AC、Shift-And/Or) 講義スライド
3. Suffix型アルゴリズム(BM、Galil、Horspool、Sundayほか) 講義スライド
4. 近似文字列照合 講義スライド
5. 正規表現の照合 講義スライド
6. 圧縮テキスト上のパターン照合 講義スライド
7. 文字列照合技術の今後 講義スライド

 

II.データマイニングとパターン発見(8回)(有村が担当)

 

‡ これらの資料は制限資料です。

iTUnesU リンク
タグ
対象
大学院修士課程, 博士課程,情報科学研究科
単位等
キーワード
シラバス

 

<授業計画>

・情報検索とパターン照合(7回)(喜田が担当)

 

1.ガイダンス、および、準備
本テーマに関するコースパケット(シラバスおよび資料等)を配布し、コース全体に関するオリエンテーションを行う。また、喜田が担当する前半の内容について、概説する。また、情報検索技術およびパターン照合問題について説明し、必要となる予備知識(用語の定義・オートマトン等)について解説する。

 

2.Prefix型アルゴリズム(naive、KMP、AC、Shift-And/Or)

Knuth-Morris-Prattアルゴリズムについて詳しく説明し、naiveな方法との計算量的違いについて述べる。また、実際の速度の違いを知るためのデモを見せる。さらに、NFAモデルによるKMPの理解を図り、その拡張版であるAho-Corasickアルゴリズムについて説明する。また、ビットパラレル手法による巧妙な照合アルゴリズムについて解説する。

 

3.Suffix型アルゴリズム(BM、Galil、Horspool、Sundayほか)

Boyer-Mooreアルゴリズムについて解説し、その後にGalilやHorspool、Sundayらによる改良手法についても解説する。また、BM型にさらなる改良をほどこしたアルゴリズムとしてFactor型アルゴリズムについても述べる。

 

4.近似文字列照合
近似文字列照合には様々な応用があり、また要求される問題の設定もいくとおりか存在する。近似文字列照合問題を解決する基本的なアルゴリズムから、ビットパラレル手法によるものまでそれぞれの利点・欠点を交えながら解説する。

 

5.正規表現の照合
正規表現による照合問題について述べる。正規表現と非決定性オートマトンの関係について理解を図り、基本的な照合アルゴリズムについて述べる。また、関連する最新の研究成果についての紹介を行う。

 

6.圧縮テキスト上のパターン照合
圧縮されたテキストデータに対する文字列照合について解説する。圧縮されたテキストに対して文字列照合を行う場合、いったん元のテキストに展開したのちに照合する方法が一般的だが、近年、直接照合を行うアルゴリズムが開発された。本テーマに関して、喜田らの研究成果を交えて解説する。

 

7.文字列照合技術の今後
パターン照合問題に関するその他のトピックスについて解説する。たとえば、ビットパラレル手法の日本語テキストに適用する方法や、テキストの意味や構造を意識した照合への拡張、他分野への応用などについて述べる。また、本テーマの締めくくりとしてレポート課題を出題する。

 

・データマイニングとパターン発見(8回)(有村が担当)

 

<成績評価>

前半・後半ごとにレポートを課し、学習の達成度を評価する。成績はレポートの評価で判定し、試験は行わない。

 

<教材>

教科書は特に指定しない。各テーマの最初の授業で参考書を指定する。教材として、適宜、基礎的な技術と最近の研究動向に関する資料を配布する。

 

<参考図書>

Flexible pattern matching in strings / Gonzalo Navarro, Mathieu Raffinot.[工学部・開架洋書]
Jewels of Stringology / Maxime Crochemore, Wojciech Rytter.[工・開架洋書]
情報検索アルゴリズム / 北研二, 津田和彦, 獅々堀正幹 [工学部・開架]
一般的なアルゴリズムの教科書

 

 

<受講条件等>

計算機プログラミングの経験を仮定する。アルゴリズムとデータ構造の基礎および、データベースを学部において履修していることが望ましい。

備考
学生による動画紹介レビュー

News

カテゴリー
使い方
OCWとは
お知らせ
お問い合わせ
リンク
サイトマップ
閉じる