9. 土屋智行, 言語の慣習性を中心とした言語研究の手法と展開, 日本言語教育ICT学会, 2019.12, [URL], 本講演では、現在の言語研究の手法について「言語の慣習性」という観点から概観した後、具体的な言語研究として collostruction 分析、N-gram分析、定型表現の分析を紹介する。また、これらの分析を簡易的におこなうツールの紹介もおこなう。
2000年代に開発された大規模コーパスや、特定の言語的特性に特化したコーパスが言語研究用データとして一般化してきたが、その流れと連動して、語と語の慣習的なつながりや、そのつながりによって形成されたより大きな言語単位(慣用表現、連語、等)がこれまで以上に注目されてきている。現在は「特定の言語コミュニティやコミュニケーションの状況においてどのような表現が慣習化しているのか」「人がどのような表現をまとまりとして記憶・使用しているのか」という問題意識の下で、複数の分析手法が提唱され、応用されている。たとえば、collostruction分析は語と構文パターンの共起関係を分析する手法として知られており、慣習化している言語表現とその生産性にかかわる知見が得られる。また、N-gram分析はテキスト内に頻出する重要表現を抽出する初期的な手法として、言語処理の領域で一般的に知られている。N-gram分析はウェブ上にもツールが存在するため、テキストがあれば手軽に実施できるという利点がある。加えて、コミュニケーションの円滑化・効率化を実現するために(コミュニケーションの主体が)ひとつのまとまりとして記憶・使用する表現、すなわち定型表現 (formulaic language) の観点からの研究も多くおこなわれ、言語教育の現場でも使われている。これらの研究は、上に述べた問題意識にあるような、言語データにおける慣習の存在だけでなく「データを構成するそれぞれの語彙が全体の中でどのように位置づけられ、他の語彙と関係性を持っているのか」というテキスト内での有機的な特徴の一端を明らかにすることが期待される。.
Multi-word expression (MWE) は、複合語やイディオムを典型的な現象として、その特徴と分析手法の提案が Sag et al. (2002) でなされており、また、自然言語処理の領域でも積極的に取り扱われてきたトピックの1つである。MWEの意味や機能的特徴の分析は盛んに進められており、現在は、コーパスを利用して、特定の談話的機能を持つMWEを抽出する研究 (Nesi and Basturkmen 2006) もある。談話標識は、文または発話の冒頭に出現するという特徴を持つが、文頭に出現するMWEがどれだけ談話的な機能を持つのかを明らかにできれば、両者の関係性もより精緻化できると期待できる。本発表では、文頭に出現する表現をコーパスから網羅的に抽出し、頻出するMWEのうち、談話的な機能を持つものがどれだけの割合を占めているのかを分析する。同時に、談話的機能を持つ文頭の表現について、形態素数や品詞の傾向等の観点から検討し、MWEとの関連性を考察する。
Abusive nouns (e.g. 馬鹿 baka for 'fool/stupid') in Japanese proverbs are often replaced by pronouns (e.g. 何とか nantoka for 'something') in daily conversation. For Euphemistic purposes, the speaker replaces the original words, which represent unpleasant ideas, with other words, perhaps to avoid the addressee from directly recognizing these unpleasant ideas. However, unpleasant ideas in conventionalized and shared expressions can easily be recognized regardless of the replacement, since the addressee is able to restore the original expression and its meaning. I will introduce textual data from a Japanese web-archived corpus (JpTenTen) and compare proverbs with euphemisms to ones without euphemisms, and also introduce other relevant examples.
15. 土屋智行, 言語環境に応じた言語知識の活性化, 日本英語学会, 2017.11, 本発表では、土屋 2016 [1] のデータのうち、同一人物が同一のトピックについて、異なるコミュニケーション形態(対面会話、メール、等)でおこなったやり取りを比較し、それぞれの形態で優先的に使用される構文パターンを分析する。
データは「旅行者役」「代理業者役」の2役に分かれた4名の英語話者による日本国内の旅程相談に関する課題遂行会話であり、それぞれのやり取りは異なるメディア(対面会話・電話会話・メール)で実施されている。具体的な手順として、データからn-gram表現リストを作成し、そのリストに対してパターンマッチング分析 (Kuroda 2009 [2]) を実施することで、より説明力の高い構文とその継承関係を幅広い抽象度のレベルで抽出し、比較する。
[1] 旅行課題遂行会話データベース. [2] “Pattern lattice as a model of linguistic knowledge and performance,” Proceedings of the 23rd Pacific Asia Conference on Language, Information and Computation, 278-287..
