ETS Japan
TOEFL

TOEFL®テスト日本事務局

団体・教育関係者

リサーチ

TOEFL iBT®妥当性研究の動向

早稲田大学 教育・総合科学学術院
教授 澤木泰代先生
2014年 JACET発表

1.本発表の目的

TOEFL iBT® は、米国の非営利団体ETSが開発・運営する、「読む」「聴く」「話す」「書く」の4技能における英語運用能力のテストです。高等教育機関において英語で学業を修めるのに必要な英語力をどの程度有しているか測ることを主な目的とし、日本国内でも大学・短大・大学院の入試や単位認定、教育委員会による英語教職員採用等に利用されています。日本のTOEFL iBT®ユーザーがその開発の理念や妥当性研究成果について知ることは、スコアの意味を十分に理解し、テスト結果を適切な形で利用していくうえで必要です。しかし、TOEFL iBT®の妥当性研究の多くは海外で学会発表や論文として報告されることが多く、日本のユーザーに広く届く形で発信されることが少ないのが実情です。そこで、本発表では、ETSによる研究事例を中心にTOEFL iBT®の理論的背景と妥当性研究の概要をまとめ、日本でのTOEFL iBT®利用に関する研究の方向性を提案します。

2.ETSによるTOEFL iBT®研究とその枠組み

ETSが主催し実施するTOEFL研究に関する資料は、ETSのTOEFL® Research program ウェブサイト上で数多くの刊行物や研究レポートとして公開されています。TOEFL iBT関連の研究については、2014年8月現在、様々なトピックに関する計84の論文が掲載されています(表1)。この他に、研究成果の一部は書籍や学術誌掲載論文の形でも出版されています。

[ 表1 ]
research_etsvideo02.jpg
注:ETS発行の研究レポートのみ(研究成果要約 [TOEFL® Research Insight]、書籍、学術誌掲載論文を除く)。
尚、研究レポート数はカテゴリー間で重複して掲載されているものを含む。トピック名はウェブサイト原文(https://www.ets.org/toefl/research.htmlをもとに作成)

ETSが実施するTOEFL iBT研究の枠組みは、TOEFLの歴史やTOEFL iBTの開発のいきさつをまとめたChapelle, Enright and Jamieson(2008)の共編書で詳しく紹介されています。これは近年言語テスト研究で主流となってきている、論証に基づくテスト妥当性研究の枠組み(argument-based approaches to test validation)の一つで、テスト・スコアの解釈と利用に関するテスト開発者の理念を明らかにするinterpretive argumentと、理論や実証研究に基づいてinterpretive argumentに対する裏付けを取るvalidity argumentの2つから成ります。Chapelle et al.では、TOEFL iBTの妥当性に関する論証の6つのステップを紹介しています(図1)。この図にある矢印の一つ一つをChapelle et. al. は「橋」と表現し、下から順次積み上げていく形で論証を行うことが必要としています。しかし、そのプロセスは必ずしも一方通行ではなく、一歩進んではその検証結果をもとにそれ以前のステップを見直しつつ進むため、反復的と言えます。以下、各ステップにおける検証のポイントを、ETSが実施したTOEFL iBT研究例と共に紹介します。

[ 図1 ]
research_etsvideo02.jpg
注:Chapelle, Enright and Jamieson(2008)を基に作成

(1)Domain definition(目標言語使用領域の定義の適切性)
目標言語使用領域とは、あるテストにおいて測定対象とする、実生活における目標言語(ここでは英語)使用領域のことで、TOEFL iBTの場合は高等教育機関において英語で学業を行う領域を指します。ステップ1では、TOEFL iBTのデザインの基盤となる、学業において学生が英語で遂行できなければならないタスクの定義が適切であるかを確認します。この目的で行われた研究例としては、Rosenfeld, Leung and Oltman(2001)が米国・カナダの21大学で実施したアンケート調査が挙げられます。学部・大学院の在学生345名と教員370名を対象に、様々な言語使用タスク (language use tasks)の学部・大学院における英語での遂行頻度や学業成績上の重要度を調査しました。その結果、TOEFL iBTのタスク・デザインの基礎となる、TOEFL Framework策定チームが作成したtask statementsは、多くの学術分野において頻繁に英語で遂行する必要があり、かつ学業成績においても重要度が高いことが確認されました。

(2)Evaluation(TOEFL iBTにおけるタスク・デザインと採点方法の適切性)
ステップ2では、上の目標言語使用領域の定義をふまえ、TOEFL iBT®のタスク・デザインと採点方法の適切性を検証します。研究例には、TOEFL iBTに新たに導入された、あるトピックに関する資料を読み、講義を聴いて、その内容を書いてまとめるIntegrated writing taskと、以前からTOEFLで実施しているessay taskの解答内容を比較したCumming et al.(2006)の研究があります。これは受験者の解答内容の談話的特徴をこの2つのタスク・タイプ間や能力レベル間で比較するもので、TOEFL iBT試行テスト受験者36名の解答の談話的特徴をノンパラメトリック多変量分散分析で分析しました。2つのタスク・タイプが違った特徴を持つ談話を引き出し、また談話的特徴の差で採点結果の一部を説明できるという分析結果から、ライティング・セクションでこの2つを組み合わせて出題することで、学業に必要なライティング力をより広く測定し、また設定された採点基準によって違ったレベルの解答を適切に区別できると結論づけています。

(3)Generalization(TOEFL iBT採点結果の一貫性)
ステップ2でのタスク・デザインと採点方法の適切性の検討をふまえ、ステップ3では測定精度を確保するために、どのような問題を何問出題し、また採点者による採点が必要な場合は、各受験者解答を何名で採点するか等を検討します。このステップに関する研究例には、スピーキング・セクションの問題数や採点者数と測定結果の一貫性との関係を検証したLee(2005)の論文があります。Leeはスピーキング・タスク試行テスト受験者216名の解答を一般化可能性理論により分析し、ETSが認定・訓練した採点者を使用した場合、採点結果がある程度一貫しているため、各受験者解答の採点者の数を増やすよりは、スピーキング・タスクの数を増やす方が有効であることを示し、TOEFL iBTスピーキング・セクションにおける望ましいタスク数と採点者数を提案しています。

(4)Explanation(TOEFL iBTスコアと構成概念の整合性)
このステップ4では、上の目標言語使用領域の定義に基づいてテストを作成・実施した結果、TOEFL iBTは本来測ろうとしている能力をきちんと測っており、従って算出されたテスト・スコアはその能力を反映したものだと解釈できるかを、様々な手法を用いて検証します。その一例としてSawaki, Stricker and Oranje (2008)では、総合的なアカデミック英語力と4技能それぞれの側面における英語力の指標としてtotal scoreと4つのsection scoresを報告する方針が、統計的に得られるテストの因子構造とかみ合っているかを検証しました。TOEFL iBT試行テスト受験者2,720名の受験結果の因子分析の結果、総合的なアカデミック英語力に対応する1因子と、英語の4技能それぞれに特有なアカデミック英語力に対応する4因子(reading, listening, speaking, and writing factors)を特定し、TOEFL iBTのスコア報告方針と因子構造の整合性を確認しました。

(5)Extrapolation(TOEFL iBTスコアと学業成績との関連性)
ステップ5では、TOEFL iBTスコアと、受験者の実生活におけるパフォーマンスの関連性を検証します。あるテスト結果から、受験者が将来実生活においてどのようなパフォーマンスをするか予測を可能にする情報が得られる度合いを基準妥当性と言います。例えばTOEFL iBTの基準妥当性が高ければ、それを入学者選抜に利用している大学としては有用な情報が得られるというわけです。TOEFL iBTスコアの基準妥当性研究例には、Cho and Bridgeman (2008) の論文があります。米国の10大学に在籍する2,594名のTOEFL iBT成績と学部・大学院入学後の学業成績(grade point average:GPA)の関係を分析した結果、この両者の相関自体は総じて低いながらも、TOEFL iBT成績得点群とGPAとの関係のexpectancy graph分析においては高得点群の学業成績が比較的高く、また主に北米で大学入学者選抜によく使われるGRE、GMAT、SATスコアと共にTOEFL iBTスコアを重回帰分析で予測変数に加えることで、GPA予測が向上することを確認しています。

(6)Utilization(TOEFL iBTスコアの利用の適切性と、テスト利用が望ましい影響をもたらす度合い)
ステップ6では、TOEFL iBTスコアの利用とそれが個人や教育機関、広くは社会に与える影響について検証します。関連する研究例には、TOEFL iBTの中央・東ヨーロッパでのEFL教育への影響を追う長期的研究があります。Wall & Horak(2006)はそのPhase 1に関する報告で、中央・東ヨーロッパの6か国の10の教育機関のEFL教員、学習者、ディレクターを対象にTOEFL iBT導入前のEFL教育(TOEFL準備教育)の観察とインタビュー調査を行い、その後TOEFL iBT導入のニュースが流れ、新テスト内容が伝わることでTOEFL準備教育が影響を受けるか否かを検証するためのベースライン・データを提示しています。この長期的研究についてはPhase 4までが出版されており(Wall & Horak, 2006, 2008, 2011)、TOEFL iBTのstakeholders(受験者や教師、テスト結果を様々な意思決定に利用する企業や教育機関等)によってスコアが適切に解釈され、そのスコアを利用することが受験者個人の学習や教育機関での指導、社会全体の英語教育に対する考え方等に望ましい影響を与えているかを検証してくうえで有効な資料となることが期待されます。

3.まとめと今後の日本における方向性の示唆

今回ご紹介したETSによるTOEFL iBT研究は、日本のように英語を外国語として学ぶEFL(English as a foreign language)環境で、今後どのようにTOEFL iBTを採り入れていくかを検討するうえで大いに参考になります。但し、注意が必要なのは、ETSによる研究結果が必ずしも日本のEFL環境に直接あてはまるとは限らないため、日本独自の研究が必要であるという点です。主な理由は二つで、その一つは、ETSによる研究の多くは、英語で授業を行う、主に英語圏の高等教育機関への英語非母語話者の受け入れのためのTOEFL iBTスコア利用を前提としているため、様々な国や地域出身の、異なる教育・言語・文化的背景を持つTOEFL iBT受験者を母集団としているということです。つまり日本のように大多数の学生が日本語を母語とし、比較的一様な教育・文化的背景を持つ母集団とはその性質が違います。このため、多くのETSによるTOEFL iBT研究に用いられているデータは、世界各国で実施される本試験や試行テストのデータを使用したり、また特定の研究プロジェクトのためにデータを収集する場合も、教育・言語・文化的背景が多様で、多くの出身国の学生が一緒に学んでいる環境を想定し、複数の国や教育機関から収集したデータを使ったりしています(図2)。

[ 図2 ]
research2014_3.gif注:ETS発行の研究レポートのうちデータ分析を伴う実証研究のみ。
トピック・カテゴリー間での重複を除いた数を掲載(https://www.ets.org/toefl/research.htmlをもとに作成)

日本独自の研究が必要な2つ目の理由は、英語圏の高等教育機関で学ぶ場合と、日本の高等教育機関で学ぶ場合では、英語のニーズが違うことです。例えば日本の大学の場合、英語で全て授業を行う場合もあれば、資料は英語で読んでも、ディスカッションやレポート作成は日本語で行う場合、また専攻によっては、英語は外国語科目としての履修に限られる場合もあります。よって、学業の全てを英語で行う英語圏の大学とは、英語で遂行できなければならない言語使用タスクも違ってくるわけです。

日本人を対象とし、日本で行われたTOEFL iBT研究結果で公表されているものはまだあまりありませんが、上記の観点から、日本でのTOEFL iBT利用を検討するうえでは、例えばETSの妥当性研究の枠組みに従うなどして、そのステップの一つ一つを、日本のEFL環境に照らして丁寧に再調査していく必要があります。検証すべき点はたくさんありますが、例えば、日本の大学入試でのTOEFL iBT利用を仮定した場合、日本の大学における目標言語使用領域やそこで必要となる英語力のレベルは、英語圏の大学のものとどう違うか(ステップ1)、日本の大学入学時のTOEFL iBTスコアは、大学での学業成績とどの程度関係があるか(ステップ5)、またTOEFL iBTを入試に導入することが、日本のEFL教育にどのような影響をもたらすか(ステップ6)など、様々な観点から日本で研究を行い、日本のEFLコンテクストでのTOEFL iBTの適切な利用につなげていくことが重要だと考えます。

https://www.ets.org/toefl/research/insight-series.html参考文献

Chapelle, C. A., Enright, M. K., & Jamieson, J. M.(Eds.)(2008).Building a validity argument for the Test of English as a Foreign Language™.New York: Routledge.
Cho, Y., & Bridgeman, B.(2012). Relationship of TOEFL iBT® scores to academic performance: Some evidence from American universities. Language Testing, 29(3),421-442.
Cumming, A., Kantor, R., Baba, K., Eouanzoui, K., Erdosy, U., & James, M.(2005).Analysis of discourse features and verification of scoring levels for independent and integrated prototype written tasks for the new TOEFL®test.(TOEFL® Monograph No. MS-30).Princeton, NJ:ETS.
Lee, Y.-W.(2005). Dependability of scores for a new ESL speaking test: Evaluating prototype tasks.(TOEFL® Monograph No. MS-28).Princeton, NJ: ETS. Rosenfeld, M., Leung, S., & Oltman, P. K.(2001).The reading, writing, speaking, and listening tasks important for academic success at the undergraduate and graduate levels. (TOEFL® Report No. MS-21).Princeton, NJ: ETS.
Sawaki, Y., Stricker, L. J., & Oranje, A.(2008).Factor structure of the TOEFL® Internet-based test(iBT):Exploration in a field trial sample.(TOEFL iBT® Research report No. TOEFLiBT®-04). Princeton, NJ: ETS.
Wall, D., & Horak, T.(2006).The impact of changes in the TOEFL® examination on teaching and learning in Central and Eastern Europe:Phase 1, the baseline study.(TOEL Monograph No. MS-34). Princeton, NJ: ETS.
Wall, D., & Horak, T.(2008).The impact of changes in the TOEFL® examination on teaching and learning in Central and Eastern Europe—Phase 2:Coping with change. (TOEFL iBT® Research Report No. TOEFLiBT®-05). Princeton, NJ: ETS.
Wall, D., & Horak, T.(2011).The Impact of Changes in the TOEFL® Exam on Teaching in a Sample of Countries in Europe:Phase 3, the Role of the Coursebook. Phase 4, Describing Change.(TOEFL iBT® Research Report No. TOEFLiBT®-17). Princeton, NJ: ETS.

一般社団法人 CIEE国際教育交換協議会TOEFL事業部(2012). 「TOEFL iBT®スコア利用実態調査報告書2012年版—大学編(入学試験・単位認定)・高等専門学校編(入学試験・単位認定)」東京:一般社団法人 CIEE国際教育交換協議会
*当時TOEFLテストの日本事務局であったCIEEとして行いましたが、現在はETS JapanがTOEFLテストの周知活動の一環として引き継ぎます。

付録 ETSによるTOEFL iBT®研究関連資料

1.TOEFL®Research program Webサイト(https://www.ets.org/toefl/research)
●TOEFL iBT®実施に関するデータ:TOEFL® test and score data summary
●ETSによるTOEFL iBT®研究活動に関する要約:TOEFL iBT® Research Insight series(https://www.ets.org/toefl/research/insight-series.html)

Series I volumes:
Vol. 1: TOEFL iBT® test framework and test development
Vol. 2: TOEFL® research
Vol. 3: Reliability and comparability of TOEFL iBT® scores
Vol. 4: Validity evidence supporting the interpretation and use of TOEFL iBT™ scores
Vol. 5: Information for score users, teachers and learners
Vol. 6: TOEFL® program history


●ETS発行の研究レポート:TOEFL® Monograph Series, TOEFL iBT® Research Reports, TOEFL® Research Reports 他