水曜セミナー

fig1

水曜セミナーは毎週統計関連研究室の修士以上の学生が, 研究内容を発表する場です.学生による発表は春学期・秋学期の2回あります.発表内容は, 以下の表にまとめました.見学等を希望する場合は, 授業等で先生に直接伝えて頂くか, メールにてご連絡ください.また例年, 水曜セミナーでは, 外部からゲスト登壇者を招き, 研究の視野を広げることも同時に行っています.

| 2024年度春学期 | 2024年度秋学期 |
| 2023年度春学期 | 2023年度秋学期 |
| 2022年度春学期 | 2022年度秋学期 |
| 2021年度春学期 | 2021年度秋学期 |
| 2020年度春学期 | 2020年度秋学期 |
| 2019年度春学期 | 2019年度秋学期 |
| 2018年度春学期 | 2018年度秋学期 |
| 2017年度春学期 | 2017年度秋学期 |
| 2016年度春学期 | 2016年度秋学期 |
| 2015年度春学期 | 2015年度秋学期 |

2024年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2024/10/02Foresting Innovation through Academia-Industry-Government Collaboration ~The AI Hardware Center in New York as a Model~概要:
This presentation explores the significance of Academia-Industry-Government collaboration in driving technological innovation, using the AI Hardware Center in New York as a successful model. Through the partnership between NY CREATES, IBM, and local academic institutions at the Albany NanoTech Complex, Albany has become a hub for semiconductor research and development. This collaboration not only accelerates advancements in next-generation semiconductors but also positions New York as a leader in cutting-edge fields like artificial intelligence and quantum computing.
It highlights how such multi-sector partnerships foster innovation ecosystems by pooling resources, expertise, and talent to address global challenges in technology. The AI Hardware Center exemplifies how collaborative initiatives can advance research while creating economic opportunities and strengthening national competitiveness in the high-tech sector. The synergy between government support, industry expertise, and academic research provides a blueprint for sustainable growth in semiconductor innovation.

参考文献(抜粋):
Empire State Development. (n.d.). Capital region. Empire State Development. https://esd.ny.gov/regions/capital
Empire State Development. (2022, July 20). NY CREATES and IBM partner to advance research and development of next generation semiconductors in Albany, New York. Empire State Development. https://esd.ny.gov/esd-media-center/esd-blog/nycreates-ibm-partnership
林宣安
(白石研博士課程)
2024/10/09極値統計学における閾値超過モデルの紹介概要:
現代社会では洪水や干ばつ,地震や強風,株価の暴落など様々なリスクに対して備えることが求められている.そのようなリスクは,通常小さな確率で実現する事象である.そこでそのリスクを解析するために確率分布の裾に対する統計的推測を行う分野が極値統計学である.
本発表では,極値を解析するモデルの1つである閾値超過モデルの紹介を行う .
閾値超過モデルで仮定される一般化パレート分布の紹介,パラメータの最尤推定,上側確率点の推定,閾値の決定法を扱う.

参考文献 (抜粋) :
・髙橋倫也-志村隆彰「ISMシリーズ:進化する統計数理5 極値統計学」 近代科学社(2016)
・Stuart Coles 「An Introduction to Statistical Modeling of Extreme Values」Springer(2001)
石山蓮
(南研修士1年)
2024/10/09顔画像判別とEigenface概要:
本発表は、顔認識技術の基礎となるEigenfaceの基本概念から始まり、主成分分析(PCA)を用いた顔画像の低次元表現方法を説明する。続いて、Eigenfaceの計算方法を解説し、平均顔の計算から固有ベクトルの導出までの手順を示す。
また、Eigenfaceを用いた実際の顔認識プロセスについて説明し、未知の顔画像の認識方法を解説する。Eigenfaceの利点として計算効率の良さや実装の簡便さを挙げる一方、照明条件や表情の変化に弱いという課題についても触れる。
最後に、1990年代のEigenfaceから現代のディープラーニングベースの手法まで、顔認識技術の歴史的発展を概観する。
参考文献(抜粋):
・Shantanu Jain, Vrushaket Chaudhari, Rushikesh Chuadhari, Tanvesh Chavan, and Prof. Priyanka Shahane(2022). "A survey on face recognition techniques in machine learning." International Journal of Scientific Research in Computer Science, Engineering and Information Technology, pages
50–66
・L SIROVICH and M KIRBY(1987). "Low-dimensional procedure for the characterization of human faces." Journal of the Optical Society of America. A, Optics and image science, 4(3):519–524
・Matthew Turk and Alex Pentland(1991). "Eigenfaces for recognition." Journal of cognitive neuroscience, 3(1):71–86
・Mei Wang and Weihong Deng(2021). "Deep face recognition: A survey." Neurocomputing (Amsterdam), 429:215–244
小林立青
(南研修士1年)
2024/10/16Known Unknownデータを用いたオープンセット画像認識の向上概要:
近年、画像認識分野においてオープンセット認識が注目を集めています。オープンセット認識とは、事前に定義された既知のクラスを正確に識別しつつ、想定外の「未知」クラスを適切に排除する能力を指します。
従来のオープンセット認識研究の多くは、閉じた環境(クローズドセット)で訓練を行い、開かれた環境(オープンセット)でテストするという方法論を採用してきました。しかし、この アプローチでは真のオープンセット環境での性能向上に限界がありました。
本発表で紹介する「LORD: Leveraging Open-Set Recognition with Unknown Data」は、この課題に対して革新的なアプローチを提案しています。訓練段階からknown unknownデータと呼ばれる未知に近いデータを積極的に活用し、よりオープンセットに近い環境で学習を行っています。このようなアプローチからテスト時のオープンセット認識性能を大幅に向上させる手法を探ります。


参考文献 (抜粋) :
・Koch, T., Riess, C., & Köhler, T. (2023). LORD: Leveraging Open-Set Recognition with Unknown Data. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (pp. 813-822).
・Günther, M., Cruz, S., Rudd, E. M., & Boult, T. E. (2017). Toward open-set face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (pp. 71-80).
・Rudd, E. M., Jain, L. P., Scheirer, W. J., & Boult, T. E. (2018). The extreme value machine. IEEE transactions on pattern analysis and machine intelligence, 40(3), 762-768.
川口駿
(小林研修士1年)
2024/10/16ノンパラメトリックモデルにおけるEARTH Algorithm の漸近的性質概要:

変数選択は、目的変数に対して有効な説明力を持つ説明変数を選ぶプロセスであり、機械学習等のモデル構成における重要な手法である。EARTH Algorithmはノンパラメトリックモデルに対して変数選択を行うアルゴリズムの一つである。

本発表では、Doksum et al.(2008)に基づいてEARTH Algorithmの基本的なアイデア、変数選択を行う手法、アルゴリズムが持つ漸近的性質を紹介する。



参考文献(抜粋):

・Doksum, Kjell, et al. “Nonparametric Variable Selection: The EARTH Algorithm.” Journal of the American Statistical Association, vol. 103, no. 484, 2008, pp. 1609–20.

・A. W. van der Vaart, “Asymptotic Analysis” 1998

・Hall, P. (1992), The Bootstrap and Edgeworth Expansion, New York: Springer
煤賀結斗
(白石研修士1年)
2024/10/23正解率とFスコア,miFとmaFの結論が逆転する条件概要:分類問題における性能評価の指標は多岐にわたり,その選択は結果の解釈に大きく影響を与える.しかし,評価指標によって異なる結果を示すことがある.
本発表では,代表的な指標である正解率とFスコア,さらに,Fスコアの多クラス分類バージョンであるmiF(micro-averaged F-measure)とmaF(macro-averaged F-measure)を紹介する.そして,正解率とFスコア,miFとmaFにおいて,結論が逆転する条件を,TP(True Positive)の差を用いて示す.

参考文献:
・Takahashi, Kanae, et al. "Hypothesis testing procedure for binary and multi‐class F1‐scores in the paired design." Statistics in Medicine 42.23 (2023): 4177-4192.
・高柳慎一, and 長田怜士. "評価指標入門 データサイエンスとビジネスをつなぐ架け橋." (2023).
岡田和也
(林研修士1年)
2024/10/23Local Fréchet regressionの理論と方向データへの応用概要:

距離空間上の確率要素の分布を記述する基本的な概念にはFréchet平均[Fréchet, 1948]があり, これは従来の平均の一般化である. [Petersen and Müller, 2019]はFréchet平均の概念を条件付き分布に一般化し, ユークリッド空間でない一般の距離空間上の反応変量に対する最小二乗法とノンパラメトリック回帰手法を開発した. (それぞれGlobal Fréchet Regression(GFR), Local Fréchet Regression(LFR)と呼ばれる.)

本発表では特にLocal Fréchet Regression(LFR)に焦点を当て, まずはモデルの定義とLFR推定量ついて紹介する. LFR推定量は, カーネル関数と距離関数を用いたサンプルの加重平均の形で表される目的関数の最小化解として定義されるが, この最小化問題は一般に解析的に解くことができず, また, 漸近分布を明示的に導出することはできない. そこで, まずは反応変量の空間をヒルベルト空間に限定し, ヒルベルト空間上のノンパラメトリック回帰モデルを考え, 局所多項式回帰[Fan, J. and Gijbels, I, 1996]の理論に基づいてLFR推定量の漸近分布を導出する. 次に, ヒルベルト空間でない一般の距離空間上のデータを, 正定値カーネルを用いて再生核ヒルベルト空間(RKHS)に写し, RKHS上でLFRを行うことで, 計算コストを下げつつ距離空間上のデータを解析できることを確認し, 漸近分布を用いた近似的な信頼領域の構成を考える. 最後に, 方向データへの応用を考える. 方向データとは, データの各観測値が方向や角度を表すもので, その周期性により通常の実数値データに対する統計的手法が意味をなさない場合がある. 一方, Fréchet Regressionはデータ間の距離を用いるため, 方向データも適切に解析することができると考えられる. 今回は球面上のデータを例に取り, シミュレーションによってLFRの有用性を確かめ, RKHSに写す手法を用いて球面上の信頼領域の構成を試みる.



参考文献 (抜粋) :

・Ashis, S. and BarryC, A. (2022). Directional Statistics for Innovative Applications (A Bicentennial Tribute to Florence Nightingale)}. Springer, New York.

・Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and Its Applications. Chapman & Hall, London. MR1383587

・Petersen, A. and Müller, H.-G. (2019). Fréchet regression for random objects with Euclidean predictors, Annals of Statistics, 47, 691-719.

・van der Vaart, A. and Wellner, J. (1996). Weak Convergence and Empirical Processes. Springer, New York.
飯田優希
(白石研修士1年)

2024年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2024/04/10Estimation of Effective Reproduction Number for Epidemics Using the Chain-Ladder MethodAbstract:
The effective reproduction number (R) is a crucial epidemiological metric used to assess infectious disease transmission dynamics and control measures. Accurate estimation of Rₑ is essential for informing public health interventions and predicting the course of an epidemic. In this presentation, we propose the application of the chain-ladder method to estimate R for epidemics by considering the reporting delay.
To consider the reporting delay problem, the chain-ladder method is traditionally employed to estimate incurred but not reported (IBNR) claims in insurance. However, its underlying principles can be adapted to the field of epidemiology (Kelsey, 2020). By leveraging temporal patterns of disease transmission, the chain-ladder method provides a robust framework for estimating the effective reproduction number, even when limited data are available. This method offers advantages such as simplicity, transparency, and flexibility in handling different epidemic scenarios.
During the presentation, we will outline the key steps involved in implementing the chain-ladder method for estimating R, and the theoretical results. To demonstrate the applicability of the chain-ladder method, we will present case studies from the most recent epidemic, COVID-19. We will discuss the construction of a disease run-off triangle using case data. By comparing the R estimates obtained through the chain-ladder method with other established approaches by Nishiura et al. (2010) and Toyo Keizai (2020), we will highlight the strengths and weaknesses of this methodology. In addition, other methods to estimate the reporting delay will be briefly introduced as a future research perspective.
Overall, this presentation aims to introduce the chain-ladder method as a valuable tool for estimating the effective reproduction number in epidemics. By providing insights into its implementation, strengths, and limitations, we hope to facilitate the adoption of this technique among researchers and practitioners in the field of epidemiology. Improved estimation of R will contribute to more informed decision-making and effective control strategies during future epidemics, ultimately safeguarding public health.

Reference:
Kelsey, R. (2020). COVID-19: Using an Automated Chain Ladder technique to predict ultimate Daily Deaths in a live environment. Institute and Faculty of Actuaries.https://www.actuaries.org.uk/news-and-insights/news/covid-19-using-automated-chain-ladder-technique-predict-ultimate-daily-deaths-live-environment
Nishiura, H., Chowell, G., Heesterbeek, H., & Wallinga, J. (2010). The ideal reporting interval for an epidemic to objectively interpret the epidemiological time course. Journal of The Royal Society Interface, 7(43), 297-307.
Toyo Keizai Inc. (2020). Coronavirus Disease (COVID-19) Situation Report in Japan. Toyo Keizai Online. https://toyokeizai.net/sp/visual/tko/covid19/
Lin Xuanan
(白石研博士)
2024/04/17良性過適合バウンドの裾の重い分布への緩和概要 :
ニューラルネットの発展に伴って良性過適合(Benign Overfitting)という現象がみられるようになった。これはパラメータの数を増やしても過適合せず、汎化性能が良くなる、またノイズにも強くなるという現象である。今回の発表では、良性過適合の理論づけのためのToy problemを整理して、最大マージン分類器における良性過適合を示すバウンドを紹介し、裾の重い分布への緩和を考える。


参考文献 (一部抜粋):
1. Daniel Soudry, Elad Hoffer, Mor Shpigel Nacson, Suriya Gunasekar, and Nathan Srebro.
The implicit bias of gradient descent on separable data.
Journal of Machine Learning Research, Vol. 19, No. 70, pp. 1–57, 2018.
2. Niladri S. Chatterji and Philip M. Long.
Finite-sample analysis of interpolating linear classifiers in the overparameterized regime.
Journal of Machine Learning Research, Vol. 22, No. 129, pp. 1–30, 2021.
3. Spencer Frei, Niladri S Chatterji, and Peter Bartlett.
Benign overfitting without linearity: Neural network classifiers trained by gradient descent for noisy linear data.
In Po-Ling Loh and Maxim Raginsky, editors, Proceedings of Thirty Fifth Conference on Learning Theory, Vol. 178 of
Proceedings of Machine Learning Research, pp. 2668–2703. PMLR, 02–05 Jul 2022.
4. Holger Sambale.
Some notes on concentration for α-subexponential random variables.
In Radoslaw Adamczak, Nathael Gozlan, Karim Lounici, and Mokshay Madiman, editors, High Dimensional
Probability IX, pp. 167–192, Cham, 2023. Springer International Publishing.
奥土 康太
(小林研修士2年)
2024/04/17トランスダクティブ転移学習における負の転移とM-推定による定義概要:
転移学習は, あるタスクで学習された知識を新しいタスクにおける学習に応用する手法であり, トレーニングデータとテストデータの標本空間や分布が異なる場合に学習性能を向上させることを目的としている. 一方で, 転移学習を行うことで, かえって学習性能が落ちてしまう「負の転移」という問題が存在する. 負の転移を避けることは転移学習において重要な研究課題であるが, トランスダクティブ転移学習と呼ばれる手法においては負の転移が定義されていない. 本発表では, 共変量シフト下における密度比推定を用いたシミュレーション結果とM-推定の理論を用いた負の転移の定義について紹介する.


参考文献(抜粋):
1. Pan, S. J., & Yang, Q. (2009). A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10), 1345-1359.
2. 杉山将. (2010). 密度比に基づく機械学習の新たなアプローチ. 統計数理, 58(2), 141-155
3. Stefanski, L. A., & Boos, D. D. (2002). The calculus of M-estimation. The American Statistician, 56(1), 29-38.
槻智也
(林研修士2年)
2024/04/24最適輸送と画像解析概要:
最適輸送問題の始まりは、ある地点から掘り
出した土砂を別の地点に運ぶ最も安い方法を
考えるために、輸送量とそのコストからなる
概念を導入したことだと言われている
(Monge, 1781)。その後、1940年代に輸送量
と輸送コストの内積を目的関数に持つ線形
計画問題として数学的に定式化された
(Kantorovich, 1958)。さらに、計算機で実装が
しやすいように、エントロピー項を加えた
凸問題としての最適輸送問題が提唱され、
現在では、Sinkhorn アルゴリズムによって
近似解を求めることができる。

今回の発表では、離散最適輸送問題の導入を
行ったのちに、エントロピー正則化つき問題、
その双対問題、Sinkhorn アルゴリズムを紹介
する。最適輸送問題を用いた画像解析の例
として、2022年の Yeaton et.al. の論文の
レビューを行う。最後に、今後の展開として、
不均衡最適輸送問題とその応用例を示す。

The Optimal Transport problem (OT) began
with Monge's reports in 1781, in which
he tried to search for the cheapest way to
move earth from several locations to others,
and in 1941, Kantorovich formulated it as
a mathematical problem.
Nowadays, we often suppose the entropy-
added version for calculating by computers.

I'm talking about the theory of OT in a nutshell,
and showing an example for using OT for
pathological images. In the end, I'll show you
the unbalanced OT problem and the
application with ideas for my research in the future.

参考文献:
G. Monge, “Mémoire sur la théorie des
déblais et des remblais,” De l’Imprimerie
Royale, 666–704 (1781).

L. Kantorovich, “On the translocation of
masses,” Management Sci. 5, 1–4 (1958).

A. Yeaton, R. G. Krishnan, R. Mieloszyk,
D. Alvarez-Melis, G. Huynh, “Hierarchical
Optimal Transport for Comparing
Histopathology Datasets,” Proceedings
of Machine Learning Research, 172,
1459–1469 (2022).

P. Halmos, X. Liu, J. Gold, F. Chen, L. Ding,
B. J. Raphael, “DeST-OT: Alignment of
Spatiotemporal Transcriptomics Data,”
bioRxiv preprint doi:
https://doi.org/10.1101/2024.03.05.583575,
posted March 10, 2024.


C. Villani, “Topics in Optimal Transportation,”
American Mathematical Society (2003).

G. Peyré, M. Cuturi, “Computational

Optimal Transport,” Foundations and Trends
in Machine Learning 11, 5-6, 355–607 (2019)
[arXiv:1803.00567 [stat.ML]].

佐藤竜馬,『最適輸送の理論とアルゴ
リズム』,講談社(2023).
會田 晏己
(南研修士2年)
2024/04/24ガウス過程回帰のBig Dataへの応用概要:

ガウス過程回帰 (Gaussian Process Regression) は, 統計的機械学習とベイジアンモデリングの手法の一つであり, 回帰分析を行うためのノンパラメトリックなモデルである. 説明変数と目的変数の間の関数を推定するのが機械学習の枠組みだが, ガウス過程回帰では任意の入力に対する関数値の集まりがガウス分布に従うという仮定を置くことで, 考えたい入力に対する関数値の集まりの条件付き分布を推定することができる.

ガウス過程回帰にはサンプル数が大きい場合に計算が現実的ではないという問題点がある. 本発表ではサンプル数が大きなデータ(Big Data)に対してガウス仮定回帰を適用する方法を、[1]~[3]を中心に紹介します。

参考文献 (抜粋):
[1] Rasmussen, C.E. and Williams, C.K.I. (2006). Gaussian Processes for Machine Learning. The MIT Press.
[2] Titsias, M.K. (2009). Variational Inference in Sparse Gaussian Process Regression and Latent Variable Models - a Gentle Tutorial. In International Conference on Artificial Intelligence and Statistics (AISTATS), volume 5 of Proceedings of Machine Learning Research, pages 567-574. PMLR.
[3] Hensman, J., Fusi, N. and Lawrence, N.D. (2013). Gaussian Processes for Big Data. In Conference on Uncertainty in Artificial Intelligence (UAI), pages 282-290. AUAI Press.
山本健介
(南研修士2年)
2024/05/01GRFの漸近分布の導出概要:

ランダムフォレスト(RF)は,treeを弱学習器として用いるアンサンブル学習の手法の一つである。一方,一般化ランダムフォレスト(GRF)は,[1]で提案された重みの計算にRFを用いる手法で,従来のRFで対象としていた条件付き平均の推定のみならず,条件付分位点をはじめ,興味のある様々なパラメータ関数の推定を理論的にまとめて扱うことのできる方法である。

本発表では,まずi.i.d.データに対するGRFの漸近分布の導出過程について説明する。GRFの定義に沿う形でNadaraya-Watson(NW)型の推定量を定め,GRFの重み関数とNW型の重み関数とが近似可能である事,NW型の重みを用いた重み付き平均がNW推定量の漸近的性質[2],[3]を変わらず持つ事等を確認し,GRFによる推定量の漸近分布を導出する。

続いて,時系列データに対するGRFの漸近理論という最終的な目標に向けての,現時点で考えている道筋を紹介する。α-mixingな定常過程に対して有効なWeighted-NW(WNW)推定量[4]を介することで,i.i.d.の場合と同様の流れで漸近分布を導出し得ることを述べる。



参考文献(抜粋)

[1]Athey, P., Tibshirani, J., and Wager, S. (2019). Generalized random forests. Annals of Statistics, 47, 1148-1178.

[2]Schuster, E., F. (1972). Joint Asymptotic Distribution of the Estimated Regression Function at a finite number of distinct points. The Annals of Mathematical Statistics, 43(1), 84-88.

[3]Stute, W. (1984). Asymptotic Normality of Nearest Neighbor Regression Function Estimates. Annals of Statistics, 12(3), 917-926.

[4]Cai, Z. (2001). Weighted Nadaraya-Watson Regression Estimation. Statistics & Probability Letters, 51, 307-318.
鈴木隆太
(白石研修士2年)
2024/05/01Bayesian Clusteringを用いた階層ベイズモデル概要:
階層ベイズモデルとは、データを生成する確率分布を階層的に構築し、パラメータの推定や予測を行う統計モデルである。本発表では、Balocchi, Deshpande,George and Jensen(2023)のベイジアンクラスタリングを用いた階層ベイズモデルについて紹介する。

この研究では、フィラデルフィアを384の小地区に分割し、各小地区の犯罪密度の時間的推移を推定することを目的としている。犯罪密度のパラメータは、近隣間の空間的依存性を考慮してモデリングされる。

パラメータ間の依存性を表現するために、2種類のパラメータそれぞれに対して小地区をクラスターに分割し、クラスターごとに独立な条件付き自己回帰(CAR)モデルを適用する。CARモデルは、空間的な相互作用を捉えるためのモデルである。

事後分布の計算が非常に複雑で計算負荷が高いため、すべてのパーティクルを特定する代わりに、大きな事後分布を持つパーティクルを使用して犯罪密度を変分近似する方法を採用する。これにより、計算の効率を向上させつつ、モデルの複雑性を取り扱う。

この階層ベイズモデルでは、各小地区の犯罪密度の時間的推移を、階層的な構造とクラスタリングによってモデル化する。それぞれの小地区における犯罪密度の推定には、時間的な依存性と空間的な依存性が考慮されている。

最後にシミュレーションを行い、分割と犯罪密度の予測結果を紹介する。

参考文献 (抜粋):
1. Cecilia Balocchi, Sameer K. Deshpande, Edward I. George and Shane T. Jensen(2023),"Crime in Philadelphia: Bayesian Clustering with Particle Optimization",Journal of the American Statistical Association,Volume 118, Issue 542 ,pp 818-829
2. Burbidge, J. B., Magee, L., and Robb, A. L. (1988)," Alternative Transformations to Handle Extreme Values of the Dependent Variable, "Journal of the American Statistical Association,Volume 83, Issue 401, p124.
3. Leroux, B. G., Lei, X., and Breslow, N. (2000)," Estimation of Disease Rates in Small Areas: A New Mixed Model for Spatial Dependence, "Statistical Models in Epidemiology, the Environment, and Clinical Trials, eds. M. Elizabeth Halloran and D. Berry, pp. 179–182, New York: Springer.
4. Pitman, J. (2002),"Combinatorial Stochastic Processes, "Technical report, Technical Report 621, Dept. Statistics, UC Berkeley.
5.Madeleine Udell(2011),"Introduction to Spectral Graph Theory"
6. Cecilia Balocchi, Sameer K. Deshpande, Edward I. George and Shane T. Jensen(2023),"Supplementary Materials Crime in Philadelphia: Bayesian Clustering with Particle Optimization”
小早川隼人
(南研修士2年)
2024/05/15カーネル法の数理と統計手法への展開概要:
カーネル法の基本的なアイディアは、データを元の空間から、特徴写像を用いて、高次元の特徴空間に写し、特徴空間上で解析をするというものです。元の空間上では非線形な構造を持っていたデータに対して、特徴空間上では線形な関係を見出せることが、カーネル法を用いる最大の利点です。
本発表では、はじめに、カーネル法の理論について扱い、主に再生核ヒルベルト空間やカーネル関数の定義とその性質について取り上げます。次に、カーネル法における代表的な定理である「Reperesenter定理」を取り上げ、損失関数に正則化を加えて最適化する問題における解は、カーネル関数の有限次元の線形結合で表せることを示します。また、カーネル法は、サポートベクトルマシーン、平滑化スプライン、ガウス過程回帰など、様々なデータ解析手法の基礎となっています。最後に、カーネル法による統計手法の一例として、カーネル主成分分析についてご紹介します。


参考文献 (抜粋) :
・D.P. Kroese, Z.I. Botev, T. Taimre, R. Vaisman. Data Science and Machine Learning: Mathematical and Statistical Methods, Chapman and Hall/CRC, Boca Raton, (2019).
・赤穂昭太郎,カーネル多変量解析.非線形データ解析の新しい展開, 岩波書店(2008).
・C. M. Bishop(元田ほか(監訳)),パターン認識と機械学習 下. ベイズ理論による統計的予測, 丸善出版(2008).
稲川 舞織
(南研修士1年)
2024/05/15ランダムフォレストにおけるMDIの漸近的性質概要:

ランダムフォレストにおける特徴量重要度とは、モデルの解釈性の低さを回避する目的で導入される、ある特徴量がモデルの予測に与える影響の大きさを測る尺度のことである。特徴量重要度にはいくつか種類があり、それぞれ異なる基準をもとに構成される。

本発表では、まずCART-split criterionについて紹介する。CART-split criterionは決定木を構成する際に分割点を決定する基準である。次に、これを用いて特徴量重要度の一つであるMDIを定義する。ここでは別の特徴量重要度であるMDAとの比較も行う。続いて、加法モデルや乗法モデルを含む特定のモデルの下におけるMDIの漸近的性質について、Scornet(2021)の結果を引用する形で紹介する。



参考文献(抜粋)

・E. Scornet. Trees, forests, and impurity-based variable importance. 2021. hal-02436169v3

・E. Scornet, G. Biau, and J.-P. Vert. Consistency of random forests. The Annals of Statistics, 43:1716–1741, 2015.

・BÉNARD, C., SÉBASTIEN DA VEIGA. and SCORNET, E. (2022). Mean decrease accuracy for random forests: inconsistency, and a practical solution via the Sobol-MDA. Biometrika (2022), 109, 4, pp. 881–900
煤賀結斗
(白石研修士1年)
2024/05/22極値統計学の基礎 rGEV分布の導出概要:
現代社会では洪水や干ばつ,地震や強風,株価の暴落など様々なリスクに対して備えることが求められている.そのようなリスクは,通常小さな確率で実現する事象である.そこで,そのリスクを解析するために確率分布の裾に対する統計的推測を行う分野が極値統計学である.
本発表では極値統計学の基本モデルである「GEVモデル」と「rGEVモデル」を取り上げ,それらのモデルに用いられるGEV分布とrGEV分布が,どのような考えに基づいて成り立っているのかということを扱う.


参考文献 (抜粋) :
・髙橋倫也-志村隆彰「ISMシリーズ:進化する統計数理5 極値統計学」 近代科学社(2016)
・de Haan 「sample Extremes : an elementary introduction」 Statist. Neerlandica30 (1976)
石山 蓮
(南研修士1年)
2024/05/22多クラス分類におけるF1スコアと仮説検定手順概要:

F1スコアを用いて、ペアデザインにおける2つの検査法の性能を比較する際の検定手法を紹介する。ペアデザインでは、同一の個体に対して2つの検査を行うため、検査結果間に相関が生じる可能性がある。

本発表では、F1スコアの差の漸近分布に基づいてWald統計量を構築する方法を紹介する。また、シミュレーションにより、その手法が有意水準を正しく制御し、十分な検出力を持つことを確認する。







参考文献 (抜粋) :

・K. Takahashi, K. Yamamoto, A. Kuchiba, A. Shintani, and T. Koyama. Hypothesis testing procedure for binary and multi-class f1-scores in the paired design. Statistics in Medicine, 42(23):4177‒4192, 2023.

・Sokolova M, Lapalme G. A systematic analysis of performance measures for classification tasks. Inf Process Manag. 45:427-437, 2009.
岡田和也
(林研修士1年)
2024/05/29Local Fréchet regressionの漸近的性質概要:

距離空間上の確率要素の分布を記述する基本的な概念にはFréchet平均[Fréchet, 1948]があり, これは従来の平均の一般化である. [Petersen and Müller, 2019]はFréchet平均の概念を条件付き分布に一般化し, 非ユークリッド空間上の反応変量に対する最小二乗法とノンパラメトリック回帰手法を開発した. (それぞれGlobal Fréchet Regression, Local Fréchet Regressionと呼ばれる.)
本発表では特にLocal Fréchet Regressionに焦点を当て, まずはモデルの定義と推定量の漸近的性質について紹介する. 続いて, 反応変量の空間をヒルベルト空間に限定した場合のモデルを考え, 局所多項式回帰[Fan, J. and Gijbels, I, 1996]の理論に基づいて漸近分布を明示的に導出し, Nadaraya-Watson推定量[Davis et al, 2007]との比較を行う.





参考文献 (抜粋) :

・Chen, Y. and Müller, H.-G. (2022) Uniform convergence of local Fréchet regression with applications to locating extrema and time warping for metric space valued trajectories. The Annals of Statistics, 50(3):1573-1592.

・Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and Its Applications. Chapman & Hall, London. MR1383587

・Petersen, A. and Müller, H.-G. (2019) Fréchet regression for random objects with Euclidean predictors, Annals of Statistics, 47, 691-719.

・van der Vaart, A. and Wellner, J. (1996). Weak Convergence and Empirical Processes. Springer, New York.
飯田優希
(白石研修士1年)
2024/05/29ゼロが多い計数データに適用できるモデルとその推定方法について概要:
疫学や心理学の統計的データ解析では、研究対象が事象の生起回数(カウントデータ、計数データ)であることが多く、カウントデータの分布を表すモデルとしてポアソン回帰モデルや負の二項回帰モデルが通例である。しかし、現実のデータ解析ではゼロが多く含まれることが多く、そのような場合にはカウントデータの分布と過剰なゼロの分布に分けたモデルを適用し、過剰なゼロを考慮する必要がある。
本発表では、主にzero-inflated poissonモデル[Lambert, 1992]とzero-inflated negative binomialモデル[Hilbe, 2011]に焦点を当て、モデルの構造および回帰モデル、EMアルゴリズムを用いた推定方法について紹介する。また、それぞれのモデルに対してUnwanted persuit behaviorに関するデータ[Loeys et al. 2012]について、AICを用いて比較する。


参考文献 (抜粋) :
Loeys, Tom, et al. "The analysis of zero‐inflated count data: Beyond zero‐inflated Poisson regression." British Journal of Mathematical and Statistical Psychology 65.1 (2012): 163-180.
Lambert, Diane. "Zero-inflated Poisson regression, with an application to defects in manufacturing." Technometrics 34.1 (1992): 1-14.
Mullahy, John. "Specification and testing of some modified count data models." Journal of econometrics 33.3 (1986): 341-365.
Hilbe, Joseph M. Negative binomial regression. Cambridge University Press, 2011.
Minami, Mihoko, et al. "Modeling shark bycatch: the zero-inflated negative binomial regression model with smoothing." Fisheries Research 84.2 (2007): 210-221.
西丸桜子
(林研修士1年)
2024/06/12Attentionおよび、それを用いたTransformerについて概要:
本発表で扱うTransformerは Vaswani et al (2017)で提案されたものであり、GPTをはじめ、現在の機械翻訳分野の多くのモデルの基礎となっているモデルである。
その構造としてはBahdanau et al. (2014)で提案されたAttentionを基にモデルが構築されており、これにより、文脈の意味を機械に理解させながら学習することが可能になっている。また、従来のモデルで扱われていたRNNやCNNといった構造を使わないため計算時間の点で優れている。
本発表ではAttentionを解説したのちにTransformerの内部にそれがどのように使われているかを説明する。


参考文献 (抜粋) :
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations.
Vuckovic, J. (2020). A Mathematical Theory of Attention. Journal of Artificial Intelligence Research, 67, 345-367.
Vuckovic, J. (2020). A Mathematical Theory of Attention. Journal of Artificial Intelligence Research, 67, 345-367.
川口駿
(小林研修士1年)
2024/06/12L1-PLDAモデルとL1 ノルムの扱い概要:
Sergey Ioffe(2006)で提案されているPLDA(Probabilistic Linear Discriminant Analysis)モデルはLinear Discriminant Analysis (LDA)の確率的な定式化であり、クラス間の変動を表す潜在変数とクラス内の変動を表す潜在変数を導入することで、特徴抽出と認識を同時に行うことができる。しかし、PLDAではガウス分布に基づくノイズを仮定しているため、大きなノイズが入っている画像の影響を強く受けるという問題点がある。
そこでXiangjie Hu(2022)ではガウス分布に基づくノイズの代わりにラプラス分布に基づくノイズを仮定したL1-PLDAモデルを提案している。L1-PLDAモデルでは、新たな潜在変数を導入し、ラプラス分布を無限個のガウス分布の重ね合わせで表現することで、変分EMアルゴリズムによるパラメータ推定を可能としている。
本発表では、L1-PLDAモデルについて紹介し、特にラプラス分布の扱い方に焦点を当てて説明する。


参考文献 (抜粋) :
Sergey Ioffe. "Probabilistic linear discriminant analysis."In Computer Vision – ECCV 2006, Lecture Notes in Computer Science, pages 531–542. Springer Berlin Heidelberg, Berlin, Heidelberg, 2006.
Xiangjie Hu, Yanfeng Sun, Junbin Gao, Yongli Hu, Fujiao Ju, and Baocai Yin. "Probabilistic linear discriminant analysis based on l-1-norm and its bayesian variational inference."IEEE transactions on cybernetics, 52(3):1616–1627, 2022.
小林立青
(南研修士1年)
2024/06/19Gaussian Process Regression & Matern classAbstract
We will introduce what is Gaussian Process and why we need to use it.
We will first discuss the Regression in Gaussian Process including Bayesian and some linear models until kernel.
And I will show the Matern class of covariance functions.
I will explain what happens when the parameters change in this process. Additionally, I will present examples of prior and posterior distributions with different parameters.

Reference:
Carl Edward Rasmussen and Christopher K. I. Williams.
Gaussian processes for machine learning.
Adaptive computation and machine learning. MIT Press, 2006.
Tom M Mitchell.
Machine learning, Vol. 1.
McGraw-hill New York, 1997.
Milton Abramowitz and Irene A. Stegun.
Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables.
Dover, New York, ninth dover printing, tenth gpo printing edition, 1964.
チャンユーシャン
(小林研修士1年)
2024/06/19Stein Variational Gradient Descentの紹介Abstract
Bayes推論において、真の事後分布を解析的に計算することは一般的に困難であるため、事後分布を近似する必要がある。Markov連鎖モンテカルロ法は、理論的に真の事後分布が得られるが、推論が遅いという欠点がある。一方、変分推論は高速に近似分布が得られるが、近似事後分布の空間をアドホックに設定する必要があり、計算量と近似精度が設定に依存するという問題がある。
Stein Variational Gradient Descent(SVGD)は、ノンパラメトリックな変分推論アルゴリズムであり、既存の変分推論アルゴリズムよりも汎用的である。本発表ではSVGDの導出を行う。

Reference
[1] Qiang Liu. “Stein Variational Gradient Descent as Gradient Flow”. In: Advances in Neural Information Processing Systems. Ed. by I. Guyon et al. Vol. 30. Curran Associates, Inc., 2017.
[2] Qiang Liu and Dilin Wang. “Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm”. In: Advances in Neural Information Processing Systems. Ed. by D. Lee et al. Vol. 29. Curran Associates, Inc., 2016.
[3] Yang Liu et al. “Stein Variational Policy Gradient”. In: 33rd Conference on Uncertainty in Artificial Intelligence, UAI 2017. 2017.
高木智也
(小林研修士1年)
2024/06/26nested group sequential frameworkにおける被験者設定ついて概要:
国際共同治験(multiregional clinical trial: MRCT)は、複数の国の患者を対象として世界規模で行われる治験のことである。複数の地域で同時に治験を行うことで、地域間での新薬の上市のラグを少なくし、またコスト削減に繋がることがメリットである。MRCTの結果が、特定の地域での有効性の検証に用いられるプロセスは、2つの段階に分けられる。第1段階では、全地域からなる集団の解析により、新薬の有効性が検証される。第2段階では、全地域での結果を特定の地域に適用可能かを検証する。
Simultaneous global drug development (SGDDP; Huang et al, 2012)では、MRCTの後にlocal clinical trial(LCT)を行ない、特定地域での有効性を検証する。この検証のためには、targeted ethnicとnontargeted ethnicの情報を、重み付き検定統計量によって結合して解析を行う。Wang et al. (2017)では、SGDDPを拡張した試験デザインであるnested group sequential framework (NGSF)を提案している。NGSFでは、LCTの段階で中間解析が行われ、新薬の有効性が示された解析時点で試験を終了する。これにより、被験者数の削減や試験期間の短縮に繋げることができる。本発表では、NGSFの被験者数設定について紹介する。


参考文献:
1. Huang, Q., Chen, G., Yuan, Z., & Gordon Lan, K. K. (2012). Design and sample size considerations for simultaneous global drug development program. Journal of Biopharmaceutical Statistics, 22(5), 1060-1073.
2. Jennison, C., & Turnbull, B. W. (1999). Group sequential methods with applications to clinical trials. CRC Press.
3. Wang, W., Jiang, Z., Qiu, J., Xia, J., & Guo, X. (2017). A nested group sequential framework for regional evaluation in global drug development program. Journal of Biopharmaceutical Statistics, 27(6), 945-962.
一色 修平
(林研修士2年)
2024/06/26痛みの認知と「遠慮と察し」-項目反応理論による尺度短縮-概要:

日本はアメリカやドイツと異なり,ハイコンテクスト文化-コミュニケーションにおいて言語以外の情報の重要度が高い文化-であると知られている.順天堂大学医学部の山田恵子准教授は,日本のハイコンテクストな側面に着目し,日本人特有の「遠慮や察し」のコミュニケーションスタイルが痛み関連の認知に影響を与えているのではないかと仮説を立てた.医療や介護の現場において,患者の状態を正確に把握することは,より適切な医療の提供につながる.そこで,痛みの認知と「遠慮と察し」の関連性を統計的に明らかにし,この分野の研究を深めるために,私も共同研究者として参画した.

本発表では,山田准教授によって提案された「症状の遠慮と察しコミュニケーション尺度」を効率的かつ被験者の負担を減少させる形で短縮化することを目指す.尺度の短縮は,調査の回答時間を短縮し,全体の研究効率を向上させるが,同時に信頼性の維持が重要な課題となる.この課題に対処するため,我々は 項目反応理論(item response theory; IRT)を利用した尺度の短縮を試みる.IRTは,評価項目群への反応に基づいて,被験者の潜在特性(能力,知識,性格等)や評価項目の難易度・識別力等を測定する統計的手法である.IRTを用いることで,各評価項目の性質を詳細に分析し,それに基づいて適切な尺度短縮の基準を設定することが可能になると考えられる.このアプローチにより,尺度が洗練され,概念の明確化が進むと同時に,被験者の負担軽減と研究の全体的な効率化を実現することを目指す.



参考文献(抜粋)

[1] 加藤健太郎, 山田剛史, & 川端一光. (2014). R による項目反応理論. 株式会社 オーム社.

[2] 小山慎治, & 池田裕. (2011). 「遠慮・察しコミュニケーション尺度」 の作成: 予備調査による尺度の改訂. 異文化コミュニケーション研究, 23, 21-46.

[3] 並川努. (2015). 心理尺度短縮版作成における IRT の活用に関する研究. 名古屋大学博士課程 (心理学) 学位論文, 1-108.
板谷勇輝
(林研修士2年)
2024/07/03欠測があるデータにおける統計的因果推論概要:
調査観察研究において因果効果を推定する場合,処置群と対照群の単純な差は処置の有無だけでなく,両群の共変量分布の違いにも由来するとも考えられるため,両群の共変量分布を調整する必要がある.
また,現実のデータには欠測がある場合が多い.データの欠測は一般的に3種類に分けることができるが,その種類の一つであるMissing Not At Random (MNAR)の場合,欠測による影響を調整し,母集団のパラメータを推定することが3種類の中で最も難しい.これに対し,Sun et al. (2016)によって,MNARの場合における操作変数を用いた母集団平均の推定法が提案された.
共変量調整と欠測の2つの課題に対し,Yoneyama and Minami (2023)は,Sun et al. (2016)の方法を因果推論に拡張し,MNARの場合において結果変数のモデリングを行うことなく,因果効果として平均処置効果や処置群・対照群での平均処置効果を推定する方法を提案した.

本発表では,共変量を条件づけた処置(欠測)確率である傾向スコア(Rosenbaum and Rubin, 1983)を利用した因果推論や欠測データの調整について概説したのち,Yoneyama and Minami (2023)について紹介する.


参考文献(抜粋):
・Rosenbaum, Paul R. and Donald B. Rubin (1983) “The Central Role of the Propensity Score in Observational Studies for Causal Effects,” Biometrika, Vol. 70, No. 1, pp. 41–55, URL: https://doi.org/10.1093/biomet/70.1.41.
・Hirano, Keisuke, Guido W. Imbens, and Geert Ridder (2003) “Efficient Estimation of Average Treatment Effects Using the Estimated Propensity Score,” Econometrica, Vol. 71, No. 4, pp. 1161–1189, URL: https://doi.org/10.1111/1468-0262.00442.
・Sun, BaoLuo, Lan Liu, Wang Miao, Kathleen Wirth, James Robins, and Eric Tchetgen Tchetgen (2018) “Semiparametric Estimation with Data Missing Not at Random Using an Instrumental Variable,” Statistica Sinica, Vol. 28, No. 4, pp. 1965–1983, URL: https://doi.org/10.5705/ss.202016.0324.
・Yoneyama, Shintaro and Mihoko Minami (2023) “Treatment Effects Estimation with Missing not at Random Data Without Outcome Modeling,” Journal of Statistical Theory and Practice, Vol. 17, No. 41, URL: https://doi.org/10.1007/s42519-023-00338-3.
米山 慎太郎
(南研博士課程)
2024/07/17Physics-Informed Neural Networkにおける学習誤差の現状と課題概要:
製造業における製品設計の工程において、目標性能を満たすか物理シミュレーションを行う工程が存在する。
シミュレーションは微分方程式を数値計算によって解かれるが、メッシュを作成して問題を離散近似する必要がある点、
計算コストが作成したメッシュに依存して増加する点などの問題点が存在する。
これらを解決する手法としてNeural Networkで微分方程式を解くPhysics-Informed Neural Networks(PINNs)が近年注目されており、
関連した研究も多数報告されている。しかしPINNsの実務利用にあたっては学習の安定性・予測精度等に課題がまだ残されており、
その性質の解析が必要とされている。

本発表ではPINNsの性質、特に①予測誤差の理論評価、②モデル学習データのサンプリングアルゴリズムについて概要の説明と課題点について説明した上で、
今後の研究方針について説明する。
参考文献(抜粋):
- Raissi, Maziar, Paris Perdikaris, and George E. Karniadakis. “Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations.” Journal of Computational physics 378 (2019): 686-707
- Wang, Sifan, Xinling Yu, and Paris Perdikaris. “When and why PINNs fail to train: A neural tangent kernel perspective.” Journal of Computational Physics 449 (2022): 110768.
- Cuomo, Salvatore, et al. “Scientific machine learning through physics–informed neural networks: Where we are and what’s next.” Journal of Scientific Computing 92.3 (2022): 88.
竹原大翼
(小林研博士課程)

2023年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2023/10/04Estimation of Effective Reproduction Number for Epidemics Using the Chain-Ladder MethodAbstract:
The effective reproduction number (R) is a crucial epidemiological metric used to assess infectious disease transmission dynamics and control measures. Accurate estimation of R is essential for informing public health interventions and predicting the course of an epidemic. In this presentation, we propose the application of the chain-ladder method to estimate Re for epidemics.
The chain-ladder method is traditionally employed to estimate incurred but not reported (IBNR) claims in insurance. However, its underlying principles can be adapted to the field of epidemiology (Kelsey, 2020). By leveraging temporal patterns of disease transmission, the chain-ladder method provides a robust framework for estimating Re, even when limited data are available. This method offers advantages such as simplicity, transparency, and flexibility in handling different epidemic scenarios.
During the presentation, we will outline the key steps involved in implementing the chain- ladder method for estimating R, as well as the consistency of the estimator. To demonstrate the applicability of the chain-ladder method, we will present case studies from the most recent epidemic, COVID-19. We will discuss the construction of a disease run-off triangle using case data. By comparing the Re estimates obtained through the chain-ladder method with other established approaches by Nishiura et al. (2010) and Toyo Keizai (2020), we will highlight the strengths and weaknesses of this methodology.
Overall, this presentation aims to introduce the chain-ladder method as a valuable tool for estimating the effective reproduction number in epidemics. By providing insights into its implementation, strengths, and limitations, we hope to facilitate the adoption of this technique among researchers and practitioners in the field of epidemiology. Improved estimation of R will contribute to more informed decision-making and effective control strategies during future epidemics, ultimately safeguarding public health.

Reference:
Kelsey, R. (2020). COVID-19: Using an Automated Chain Ladder technique to predict ultimate Daily Deaths in a live environment. Institute and Faculty of Actuaries. https://www.actuaries.org.uk/news-and-insights/news/covid-19-using-automated- chain-ladder-technique-predict-ultimate-daily-deaths-live-environment
Nishiura, H., Chowell, G., Heesterbeek, H., & Wallinga, J. (2010). The ideal reporting interval for an epidemic to objectively interpret the epidemiological time course. Journal of The Royal Society Interface, 7(43), 297-307.
Toyo Keizai Inc. (2020). Coronavirus Disease (COVID-19) Situation Report in Japan. Toyo Keizai Online. https://toyokeizai.net/sp/visual/tko/covid19/
Lin Xuanan
(白石研博士2年)
2023/10/11マシューズ相関係数の漸近的な性質概要:
二値分類の評価は,機械学習の普及とともに、ますますその重要性が増している.現在,さまざまな性能指標が提案されているが,どの指標を特定の状況で参照すべきかどうかは,常に難しい課題の一つである.しかし,Chicco et al. [2020, 2021] によれば,マシューズ相関係数(Matthews correlation coefficient;MCC)は、分類器が正例と負例の大部分を正確に予測できた場合にのみ、高いスコアを生成する唯一の二値分類性能指標であり, AccuracyやBalanced Accuracy,F_1 scoreなどの他のよく用いられる性能指標よりも信頼性が高いと示唆している.
本発表では,MCCおよびMCCの差の漸近的な信頼区間を構成する方法をいくつか紹介し,それらの比較・検討を行う.さらに,これらの理論的アプローチを実データに適切に適用するために,さまざまな条件下でシミュレーションを実施し,その結果を通じて有限標本近似の精度を検証する.この研究を通じて,二値分類評価のための信頼性の高いツールを提供し,分類器の性能の信頼性の定量的評価や効率的な仮説検定の実現を目指す.

参考文献(抜粋):
[1] Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics, 21(1), 1-13.
[2] Chicco, D., Tötsch, N., & Jurman, G. (2021). The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation. BioData mining, 14(1), 1-22.
[3] Zou, G. Y. (2007). Toward using confidence intervals to compare correlations. Psychological methods, 12(4), 399.
板谷勇輝
(林研修士1年)
2023/10/18時系列データに対するGRFの漸近理論の構成への展望概要:
ランダムフォレスト(RF)は,treeを弱学習器として用いるアンサンブル学習の手法の一つである。一方,一般化ランダムフォレスト(GRF)は,[1]で提案された重みの計算にRFを用いる手法で,従来のRFで対象としていたconditional meanの推定のみならず,conditional quantileをはじめ,興味のある様々なパラメータ関数の推定を行うことができる。
本発表では,時系列データに対するGRFの漸近理論の構成という最終的な目標に向けての,現時点で考えている道筋を紹介する。まずIIDにおけるGRFの概要について述べ,Nadaraya-Watson(NW)推定量へとGRFを近似することにより,その枠組みでの漸近理論が利用できるようになることを確認する。つづきα-mixingな確率過程に対して有効なWeighted NW推定量について構成法と漸近理論を紹介し,時系列に対するGRFの理論への応用が期待されることについて述べる。

参考文献:
[1] Athey, P., Tibshirani, J., and Wager, S. (2019). Generalized random forests. Annals of Statistics, 47, 1148-1178.
[2] Schuster, E., F. (1972). Joint Asymptotic Distribution of the Estimated Regression Function at a finite number of distinct points. The Annals of Mathematical Statistics, 43(1), 84-88.
[3] Stute, W. (1984). Asymptotic Normality of Nearest Neighbor Regression Function Estimates. Annals of Statistics, 12(3), 917-926.
[4] Cai, Z. (2001). Weighted Nadaraya-Watson Regression Estimation. Statistics & Probability Letters, 51, 307-318.
鈴木隆太
(白石研修士1年)
2023/10/18Bayesian Clusteringを用いた階層ベイズモデル概要:
階層ベイズモデルとは、データを生成する確率分布を階層的に構築し、パラメータの推定や予測を行う統計モデルである。本発表では、Balocchi, Deshpande,George and Jensen(2023)のベイジアンクラスタリングを用いた階層ベイズモデルについて紹介する。
この研究では、フィラデルフィアを384の小地区に分割し、各小地区の犯罪密度の時間的推移を推定することを目的としている。犯罪密度のパラメータは、近隣間の空間的依存性を考慮してモデリングされる。
パラメータ間の依存性を表現するために、2種類のパラメータそれぞれに対して小地区をクラスターに分割し、クラスターごとに独立な条件付き自己回帰(CAR)モデルを適用する。CARモデルは、空間的な相互作用を捉えるためのモデルである。
クラスターの集合であるパーティションの事前分布には、T-EP(Truncated Ewens-Pitman)分布を用いる。T-EP分布は、中国料理店過程の確率分布をクラスター数を調節するために拡張した確率分布である。
事後分布の計算が非常に複雑で計算負荷が高いため、すべてのパーティクルを特定する代わりに、大きな事後分布を持つパーティクルを使用して犯罪密度を変分近似する方法を採用する。これにより、計算の効率を向上させつつ、モデルの複雑性を取り扱う。
この階層ベイズモデルでは、各小地区の犯罪密度の時間的推移を、階層的な構造とクラスタリングによってモデル化する。それぞれの小地区における犯罪密度の推定には、時間的な依存性と空間的な依存性が考慮されている。

参考文献 (抜粋):
1. Cecilia Balocchi, Sameer K. Deshpande, Edward I. George and Shane T. Jensen(2023),”Crime in Philadelphia: Bayesian Clustering with Particle Optimization”,Journal of the American Statistical Association,Volume 118, Issue 542 ,pp 818-829
2. Burbidge, J. B., Magee, L., and Robb, A. L. (1988),“ Alternative Transformations to Handle Extreme Values of the Dependent Variable, ”Journal of the American Statistical Association,Volume 83, Issue 401, p124.
3. Leroux, B. G., Lei, X., and Breslow, N. (2000),“ Estimation of Disease Rates in Small Areas: A New Mixed Model for Spatial Dependence, ”Statistical Models in Epidemiology, the Environment, and Clinical Trials, eds. M. Elizabeth Halloran and D. Berry, pp. 179–182, New York: Springer.
4. Pitman, J. (2002),“ Combinatorial Stochastic Processes, ”Technical report, Technical Report 621, Dept. Statistics, UC Berkeley.
小早川隼人
(南研修士1年)
2023/10/25co-primary endpointを設定する臨床試験における、restricted null spaceに基づく均衡法について概要:
医薬品や医療機器が市場で販売されるためには、臨床試験において安全性や有効性を示して厚生労働省に承認されることが必要である。臨床試験における新薬の有効性は統計的仮説検定により検証される。
臨床試験では、通常1つのprimary endpoint(疾患の改善度合いの評価の指標)が用いられ、それに対する確率変数を用い仮説検定が行われる。しかし、2つ以上の指標によって評価される疾患では、複数のprimary endpoint(co-primary endpoint)を試験に用いることが必要な場合がある。このような場合、複数のco-primary endpointを設定して試験が行われる。
臨床試験においては、費用、時間、危険性のある薬剤を投与される患者数などの削減のためにサンプルサイズは少ない方が望ましい。しかし、co-primary endpointを設定する試験を、基本的な検定方法であるintersection-union testにより行うと、必要なサンプルサイズが多くなってしまうことが問題である。この問題を解決するために、均衡法(balanced adjustment method)という検定方法がKordzakhia et al. (2010)で提案されている。本発表ではco-primary endpointを設定する臨床試験における、restricted null spaceに基づく均衡法について紹介する(restricted null space:帰無仮説の母数空間の範囲を、現実的な範囲に狭くした空間)。

参考文献:
1. Chuang‐Stein, C., Stryszak, P., Dmitrienko, A., & Offen, W. (2007). Challenge of multiple co‐primary endpoints: a new approach. Statistics in medicine, 26(6), 1181-1192.
2. Kordzakhia, G., Siddiqui, O., & Huque, M. F. (2010). Method of balanced adjustment in testing co‐primary endpoints. Statistics in Medicine, 29(19), 2055-2066.
3. Offen, W., Chuang-Stein, C., Dmitrienko, A., Littman, G., Maca, J., Meyerson, L., ... & Yeh, C. H. (2007). Multiple co-primary endpoints: medical and statistical solutions: a report from the multiple endpoints expert team of the Pharmaceutical Research and Manufacturers of America. Drug Information Journal, 41(1), 31-46.
一色修平
(林研修士1年)
2023/10/25良性過適合とそれを説明する理論の紹介概要 :
ニューラルネットの発展に伴って良性過適合(Benign Overfitting)という現象がみられるようになった。これはパラメータを増やし訓練誤差が0になるまで学習することで、汎化性能が良くなる、またノイズにも強くなる現象である。今回の発表では、線形回帰においての良性過適合がおきることを示す定理と、あるモデルに従うデータにおいて、隠れ一層ニューラルネットを勾配法で学習させたときに良性過適合が起きることを表す定理を紹介する。

参考文献 (一部抜粋):
1. Peter L. Bartlett, Philip M. Long, G ́a bor Lugosi, and Alexander Tsigler. Benign overfitting in linear regression. Proceedings of the National Academy of Sciences, Vol. 117, No. 48, pp. 30063–30070, apr 2020.
2. Spencer Frei, Niladri S. Chatterji, and Peter L. Bartlett. Benign overfitting without linearity: Neural network classifiers trained by gradient descent for noisy linear data, 2023.
奥土康太
(小林研修士1年)
2023/11/01転移学習と共変量シフトにおける重点サンプリングの紹介概要:
伝統的な機械学習の手法ではトレーニングデータとテストデータが同じ標本空間をもち, 同じ分布に従うことを仮定している. この仮定が満たされない場合には学習性能が低下する恐れがあり, モデルの再構築をする必要がある. しかし, トレーニングデータを収集するためのコストが大きい場合にはモデルの再構築は容易ではない. 転移学習はあるタスクで学習された知識を新しいタスクにおける学習に応用する手法であり, データのラベリングが難しい場合やデータのサンプルサイズが小さい場合に有用である. 本発表では転移学習の定義や例を紹介し, その中でも共変量シフトという状況において重点サンプリングを用いて過去の知識を利用することが出来ることを紹介する.

参考文献(抜粋):
1. Pan, S. J., & Yang, Q. (2009). A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10), 1345-1359.
2. Huang, J., Gretton, A., Borgwardt, K., Schölkopf, B., & Smola, A. (2006). Correcting sample selection bias by unlabeled data. Advances in neural information processing systems, 19.
3. 杉山将. (2010). 密度比に基づく機械学習の新たなアプローチ. 統計数理, 58(2), 141-155.
槻智也
(林研修士1年)
2023/11/01ガウス過程回帰の紹介概要:
ガウス過程回帰 (Gaussian Process Regression) は、統計的機械学習とベイジアンモデリングの手法の一つであり, 回帰分析を行うためのノンパラメトリックなモデルです. 入力に対する関数値の集まりがガウス分布に従うという仮定を置くため, テスト点に対する出力(関数値の集まり)の平均と分散を見ることで自然に予測関数の推定を行うことができます.
本発表ではこのガウス仮定回帰を主に[1]に沿って紹介します.
まず初めに, 標準的な線形回帰のベイズ分析を行い記号を共有した後, 入力を特徴量に変換した線形モデルのベイズ分析を行います. そうして, 特徴空間での線形回帰モデルのテスト出力の分布の形を確認し, カーネル関数が自然に現れることを確認します.
次に, ガウス過程(Gaussian Process)とカーネル関数について紹介します. ガウス過程に従う関数が平均関数とカーネル関数のみによって決まることを確認し, いくつか代表的なカーネル関数の例とそれらを用いて生成した関数値の集合(サンプルパス)の例を紹介します. その後, ガウスカーネルや動径基底関数(Radial Basis Function; RBF)と呼ばれるカーネル関数を用いたガウス過程が, ある基底関数を用いた場合の無限個の基底関数を持つ線形回帰モデルと等しいことを入力を1次元として証明します. これをもって, 一般のカーネル関数についても同様に対応する基底展開が存在する(Mercer's Theorem)ことの示唆とします. また, カーネル関数が満たすべき条件も紹介します.
さいごに, ガウス過程回帰を紹介します. テスト点に対する出力の分布を計算します. そして, その平均がサンプル数と同じ数のカーネル関数の重み付き線形和で表せることを確認し, これをRepresenter Theorem の現れとして紹介します.


参考文献 (抜粋):
[1] C. E. Rasmussen & C. K. I. Williams, Gaussian Processes for Machine Learning, the MIT Press, 2006, ISBN 026218253X. c 2006 Massachusetts Institute of Technology. www.GaussianProcess.org/gpml
山本健介
(南研修士1年)
2023/11/08Diffusion modelのノイズ分布についての考察概要:
近年,生成モデルの枠組みのひとつである拡散モデルが注目を集めている. その中でDDPM(Denoising Diffusion Probabilistic Model)は拡散モデルの最も基本的なモデルである.
DDPMは画像をノイズに変換またその逆を行う各ステップで正規分布のノイズを加えているが,他の分布に置き換えても学習,生成ができるのかを考える.
本発表ではDDPMについて解説したのち,ノイズをガンマ分布に変えたモデルであるDDGM[2]について簡単に説明する.その後コーシー分布をノイズにした場合の学習,生成のアルゴリズムについて考察をする.

文献(抜粋):
1. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in Neural Information Processing Systems 33 (2020): 6840-6851.
2.Nachmani, Eliya, Robin San Roman, and Lior Wolf. "Denoising diffusion gamma models." arXiv preprint arXiv:2110.05948 (2021).
海老澤優
(小林研修士2年)
2023/11/08臨床試験における予後共変量調整概要:
臨床試験での治療効果の推定における共変量調整の必要性は広く議論されている。Ye et al. (2022)では、多群の場合において、共変量調整を行うモデルであるANCOVAとANCOVA IIを比較し、漸近分散の観点から、ANCOVA IIの方が良いモデルであることを示している。ただし、2群の場合ではその良さが発揮されにくいことがわかっている。
ANCOVA, ANCOVA IIと似たようなモデルとして、PROCOVA, PROCOVA IIというモデルが存在する。これらは、予後スコアを共変量として含むモデルである。予後スコアとは、ヒストリカルデータから導出される共変量のことであり、近年、ヒストリカルデータの活用が注目されている。
Shuler et al. (2021)では、2群の特定の場合において、PROCOVA II推定量のセミパラメトリック有効性を証明している。しかし、一般的な条件下でのモデルの比較はほとんど行われていない。
本発表では、ANCOVAとANCOVA II、PROCOVAとPROCOVA IIの類似性を検証し、これらのモデルを比較する。

参考文献(抜粋):
[1] Schuler, A., Walsh, D., Hall, D., Walsh, J., & Fisher, C. (2021). Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score. arXiv preprint arXiv:2012.09935.
[2] Ye, T., Shao, J., Yi, Y., & Zhao, Q. (2022). "Toward Better Practice of Covariate Adjustment in Analyzing Randomized Clinical Trials," Journal of the American Statistical Association.
三宅佑果
(林研修士2年)
2023/11/15電池データへのSSDOを用いた異常検知について概要:
実世界の異常検知において事前に全ての異常のタイプを収集することの難しさや、ラベル付けのコストの観点から、教師なし学習や半教師あり学習が用いられることが主流である。

SSDO(Semi Supervised Detection of Outliers)[1]は、半教師ありの問題設定で動作する異常検知手法であり、クラスタリングを基に異常スコアを計算し、与えられたラベルを基に異常スコアを更新する。

本発表ではVercruyssen et al. (2018)の論文を基に、SSDOについて紹介したのち、修士論文で扱う電池データにSSDOを適応する際の展望を述べる。


参考文献(抜粋)
1. Vercruyssen, V., Meert, W., Verbruggen, G., Maes, K., Baumer, R., & Davis, J. (2018). Semi-Supervised Anomaly Detection with an Application to Water Analytics. In ICDM (Vol. 2018, pp. 527-536).
2. Wagstaff, K., Cardie, C., Rogers, S., & Schrödl, S. (2001). Constrained k-means clustering with background knowledge. In Icml (Vol. 1, pp. 577-584).
竹ノ谷洸太郎
(林研修士2年)
2023/11/15行列式点過程によるグラフ生成概要:
グラフラプラシアンLをカーネルとして用いた行列式点過程 (Determinantal Point Processes, 以下DPPと記す) による部分グラフの生成を行う. DPPによるサンプリングは与えられたカーネルの部分行列式の値に影響を受ける. そのため生成された部分グラフにSpectral Gap (グラフの大域的な連結度合いの良さを反映する)が上がる等の特徴がみられるのではないかと考えた. 
 DPPは通常, 出現頻度や斥力をモデル化するのに用いる. しかし, 本発表では元のグラフにおける頂点間の隣接構造ではなく, 生成した部分グラフの大域的な特徴に着目し、DPPが与える効果を検証する.

参考文献(抜粋)
[1] Kulesza, A., & Taskar, B. (2012). Determinantal point processes for machine learning. Foundations and Trends®in Machine Learning, 5(2–3), 123-286.
[2] Wilhelm, M., Ramanathan, A., Bonomo, A., Jain, S., Chi, E. H., & Gillenwater, J. (2018, October). Practical diversified recommendations on youtube with determinantal point processes. Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 2165-2173.
[3] Cavalletti, F., & Manini, D. (2022). Isoperimetric inequality in noncompact MCP spaces. Proceedings of the American Mathematical Society, 150(8), 3537-3548.
鴨志田陸
(小林研修士2年)
2023/11/29コピュラによる市場リスクの解析と個人資産のリスク管理概要:
リスク管理,特に,ヴァインコピュラを用いたリスク合算について関心がある.
コピュラとは,接合分布関数と言い,多変量の同時分布関数と周辺分布関数との関係を表す関数である.あるいは別の言い方をすると,1次元周辺分布が U(0,1) であるような多変量分布関数である.
ヴァインコピュラとは,2変量ごとに適切な依存関係を選択し,それらを用いて多変量の関係性を表す手法である.
本発表では,まず,期間別に株と債券の関係性を紹介し,関係性を適切に表せるコピュラを選択する.
続いて,個人の「オペレーショナルリスク」の定義とデータ生成を行い,これと,株,債券との関係性を探り,ヴァインコピュラを構築する.
最後に,オペレーショナルリスクから無形資産を導出し,「株,債券,無形資産」の統合資産に対するリスク管理としてVaRを算出する.

参考文献(抜粋):
Roger B.Nelsen,(2006),“An Introduction to Copulas”,Springer,pp.7-39
Claudia Czado,(2019),“Analyzing Dependent Data with Vine Copulas”,Springer,pp.95-108
吉羽要直,(2016),“接合関数を用いた市場リスク合算と金融実務への応用”,日本統計学会誌 第45巻第2号,pp.329-352
前田寿満,(2016),“ヴァインコピュラを用いた統合リスク管理”,金融研究 第35巻第2号
加納光
(南研修士2年)
2023/12/06因果グラフを活用したXAI手法と欠測を含むデータへの応用概要:
機械学習による予測の根拠を抽出するExplainable AI(XAI)の中で,Shapley値を用いた手法が様々提案されている.
その中でもデータの特徴量間に存在する因果関係を,Shapley値を用いた手法に反映する取り組みがなされている.

本発表ではその中でも,特徴量間の因果関係を表す因果グラフとShapley値とを組み合わせた手法であるShapley Flowについて紹介する.
Shapley Flowはグラフの形で表すことで可読性の高さを持つ一方で,利用できる状況に制約が生ずる.
特に欠測を含むデータに対して起こりうる問題と,その改良について展望を述べる.

参考文献(抜粋):
Wang, J.; Wiens, J.; Lundberg, S. M. (2021) Shapley Flow: a graph-based approach to interpreting model predictions. In International Conference on Artificial Intelligence and Statistics, pp. 721-729.
風呂井啓人
(小林研修士2年)
2023/12/06Hawkes グラフによりパラメトライズされたMarkov Regime-Switching 計数時系列に対する統計的推定概要:
多変量時系列データにおいて,変数間の関係が状況に応じて少なからず変化しいくつかの状態(regime)が存在することがある.このような状態が複数存在する時系列データに対するモデルとして Markov Regime-Switching モデルがある.
本発表では,多変量計数時系列モデルの一つである Linear Poisson Network Autoregression (PNAR) モデルが regime-switching をもち,Hawkes グラフによってパラメトライズされた Markov Regime-Switching Graph Based Linear PNAR (RS-GLPNAR) モデルを考える.PNAR モデルは Armillotta and Fokianos (2021) によって提案され,各変数の条件付き分布がポアソン分布で,同時分布は周辺分布と copula を使って定義されているモデルである.また,Hawkesグラフは Embrechts and Kirchner (2018) によって提案され,イベントの自己励起性や相互励起性を可視化することができる.
現在,RS-GLPNARモデルに対してランダムフォレストを用いた各状態における Hawkes グラフの推定量を考えている.そこで本発表ではモデルの説明や現在考えている推定量について説明し,regime-switching をもつ自己回帰モデルの漸近的性質に関する先行研究のレビューを行う.最後に今後の展望を述べる.

参考文献 (抜粋) :
1. Athey, S., Tibshirani, J. and Wager, S. (2019). Generalized Random Forest. The Annals of Probability. 47(2) 1148-1178.
2. Donc, R., Moulines, É. and Rydén, T. (2004). Asymptotic Properties of the Maximum Likelihood Estimator in Autoregressive Models with Markov Regime. The Annals of Statistics. 32(5) 2254-2304.
3. Embrechts, P. and Kirchner, M. (2018). Hawkes graphs. Theory of Probability and Its Applications. 62(1) 132-156.
木内希
(白石研修士2年)
2023/12/13k近傍法を用いたリチウムイオン電池の微小内部短絡検出概要:
演者の興味の中心は生物統計・機械学習である.にもかかわらず,なぜこのような研究を実施することになったのか?統計学に携わることの面白さを,普段と異なる視点から紹介する試みを行う.
なお,研究自体の概要は下記の通りである.
リチウムイオン電池の内部で生じる短絡は,発火原因の一つとして知られている.微小な内部短絡を検出できることは早期に異常を発見できることに繋がり,リチウムイオン電池を使用する際の
安全性向上に資する.本研究の目的は,高い安全性が求められる電動航空機への適用を視野に,リチウムイオン電池の微小内部短絡を検出するための統計的解析の枠組みを検討することである.
本研究ではまず,新品のリチウムイオン電池(正常電池)と,意図的に劣化させて内部短絡を生じさせやすくした同型リチウムイオン電池(異常電池)とを用意した.次に,内部短絡が生じた際に
特有の電圧の時系列変化を捉える4つの特徴量を設計した.劣化電池からは大きな特徴量の値が得られ,一方で新品電池からはそのような値は得られなかった.
このことから,新品電池を正常な標本とし,劣化電池の異常をk近傍法により検出することを試みた.その結果,本研究で提案する方法により,微小内部短絡に由来する異常な電圧の振る舞いを
記述する特徴量に基づいてリチウムイオン電池の微小内部短絡を検出できる可能性が示された.

参考文献 (抜粋) :
1. 井出,入門 機械学習による異常検知 -Rによる実践ガイド-,2015,コロナ社
2. 志村ら, k 近傍法を用いたリチウムイオン電池の微小内部短絡検出, データ分析の理論と応用, 2023, 12巻, 1号, p.1-15
(URL: https://doi.org/10.32146/bdajcs.12.1)
林 賢一
2023/12/20ホタルの光と意思決定の統計的推測概要:
ホタルは種およびオス・メスによって発光の特徴が異なる。
本研究では、ヒメボタルとヘイケボタルのそれぞれについて、 愛知県東浦町でビデオ撮影したオスとメスの発光の観察データと、ホタルの発光と同じように光る人工的な電子ボタルを用いたオスの誘引成否の実験データに基づいて、ホタルの発光と交尾相手を探す際の「意思」決定について統計的推測を行い、ホタルが特徴的な光り方をする理由について考察する。
本研究は、ホタル愛好家の高津英夫氏と生物学者の吉村仁氏/大場裕一氏との共同研究であり、観察データ、実験データはすべて高津氏が取得したものである。

参考文献 :
ヒメボタル
Spontaneous flash communication of females in an Asian firefly.
Takatsu, H., Minami, M., Tainaka, & J. Yoshimura, Journal of Ethology, 30, 355–360 (2012).
ヘイケボタル
Flickering flash signals and mate recognition in the Asian firefly, Aquatica lateralis,
H. Takatsu, M. Minami & Y.i Oba, Scientific Reports, volume 13, Article number: 2415 (2023)
南美穂⼦
2024/01/17Missing Not at Randomを調整するための拡張傾向スコアにおける共変量選択概要:
実際の研究において,しばしばデータの欠測に直面するが,適切に調整しないと関心のある指標の推定に対しバイアスが生じる.特にMissing Not at Random (MNAR)と呼ばれる,欠測するかどうかが観測値のみならず欠測値にも依存する欠測メカニズムの場合,その調整は他の欠測メカニズムに比べて特に難しい.

MNARを調整し,結果変数の母集団平均を推定する方法にSun et al. (2018) [1]がある.この方法では,まず結果変数や共変量を条件付けに含めた欠測確率である拡張傾向スコアを推定し,次に拡張傾向スコアの推定量を用いて結果変数の母集団平均の推定をする,つまり,2段階で推定を行う.

近年,MNAR以外の欠測メカニズムにおいて2段階推定により欠測を調整し母集団平均を推定する場合,1段階目の推定精度を高めることが2段階目の推定精度をむしろ悪化させる場合があるという興味深い報告があり,その性質から1段階目の推定モデルに対し共変量選択の指針が提案されている[2-3].しかし,MNARの場合の2段階推定に対しては,現状このような議論がなされていない.

本発表では,まずSun et al. (2018)の拡張傾向スコアを用いた2段階推定によるMNAR調整法について概説する.次に本発表の主張として,拡張傾向スコアの推定モデルに含める共変量と結果変数の母集団平均の推定との関連について,
・ 母集団平均推定の一致性のために,最小限拡張傾向スコアのモデルに含めるべき共変量
・ 拡張傾向スコアのモデルに含めると母集団平均の推定精度が悪化するので,むしろモデルに含めない方が良い共変量
を理論的考察やシミュレーション実験で示し,拡張傾向スコアモデルに対する共変量選択の指針を与える.


参考文献 (抜粋):
[1] Sun, BaoLuo, Lan Liu, Wang Miao, Kathleen Wirth, James Robins, and Eric Tchetgen Tchetgen (2018) “Semiparametric Estimation with Data Missing Not at Random Using an Instrumental Variable,” Statistica Sinica.
[2] Seaman, Shaun R and Ian R White (2013) “Review of inverse probability weighting for dealing with missing data,” Statistical Methods in Medical Research, Vol. 22, No. 3, pp. 278–295, URL: https://doi.org/10.1177/0962280210395740.
[3] Wang, Hengfang and Jae Kwang Kim (2022) “Information projection approach to propensity score estimation for handling selection bias under missing at random,” arXiv, URL: https://doi.org/10.48550/arXiv.2104.13469.
米山 慎太郎
(南研博士)
2024/01/24物理制約を考慮した機械学習とその理論概要:
製造業全般において、CADなどで作成した製品デザインに対し、目標性能を満たすかシミュレーションを行う工程が存在する。シミュレーションは微分方程式を数値計算によって解く方法が標準的だが、(3D)モデルのメッシュ化・境界条件の設定などに時間を要している。本発表ではその解決策として微分方程式をNeuralNetworkで解く手法であるPhysics Informed Neural Networks(PINNs)について概要を説明し、その問題点をNeural Tangent Kernel(NTK)を用いた学習理論によって説明する。参考文献 (抜粋):
[1] Raissi, Maziar, Paris Perdikaris, and George E. Karniadakis. “Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations.” Journal of Computational physics 378 (2019): 686-707.
[2] Jacot, Arthur, Franck Gabriel, and Clément Hongler. “Neural tangent kernel: Convergence and generalization in neural networks.” Advances in neural information processing systems 31 (2018).
竹原 大翼
(小林研博士)

2023年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2023/04/12The application of Particle Filter on the estimation of epidemic modelling.Abstract:
One of the most popular epidemic models is the SIR model (Kermack & McKendrick, 1927), which categorizes the population into three groups: Susceptible (S), Infected (I) and Removed (R). However, in the real world, it may be hard to report the exact population in each group, because collecting the data for the officials could be hard. It is assumed that the reported data seems underestimate. Then the commonly used Gaussian distribution may not properly describe the observation errors. To imply the non-Gaussian observation errors to the state space model, the Particle Filter was introduced, which would be used to estimate the “hidden” states. Knowing what really happens is important for policymakers.
In this presentation, the Particle Filter algorithm will be introduced followed by the EM algorithm (Dempster et al. 1977) to estimate its parameters. To better illustrate the algorithms, the simulated numerical data will be used.

Reference:
Chopin, N., & Papaspiliopoulos, O. (2020). An introduction to sequential Monte Carlo (Vol. 4). New York: Springer.
Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the royal statistical society: series B (methodological), 39(1), 1-22.
Durbin, J., & Koopman, S. J. (2012). Time series analysis by state space methods (Vol. 38). OUP Oxford.
Kermack, W. O., & McKendrick, A. G. (1927). A contribution to the mathematical theory of epidemics. Proceedings of the royal society of London. Series A, Containing papers of a mathematical and physical character, 115(772), 700-721.
Sun, Q., Richard, S., & Miyoshi, T. (2022). Analysis of COVID-19 in Japan with Extended SEIR model and ensemble Kalman filter. Journal of Computational and Applied Mathematics, 419.
Lin Xuanan
(白石研博士)
2023/04/19Generalized Random Forest を用いたHawkes過程のノンパラメトリック推定概要:
新型コロナウイルスの新規感染者数の予測を行う数理モデルの一つにHawkes過程がある.Hawkes過程は確率過程のクラスである点過程の一種で、イベントの瞬間的発生頻度を表す強度関数が過去のイベントに依存しているという特徴を持つ.新型コロナウイルスの実データの観測列の特徴から連続時間モデルの離散観測に関心を持っている.
一方Generalized Random Forest (GRF) は Athey et al. (2019) により提案された,ランダムフォレストをもとにしたノンパラメトリックな統計的推定法である.興味のある関数パラメータを局所推定方程式の解として定義することで様々な関数の推定を行うことができる.
本発表では, Hawkes 過程の離散観測を考え,各観測区間内で発生したイベント数を用いてGRFによりHawkes過程の推定を行うことを考える.Hawkes過程及びGRF について紹介をしたあと,シミュレーション結果について紹介をする.

文献(抜粋):
・Athey, S., Tibshirani, J. and Wager, S. (2019). Generalized Random Forest. The Annals of Statistics, 47 (2), 1148-1178.
・Brémaud, P. and Massoulié, L. (1996). Stability of Nonlinear Hawkes Processes. The Annals of Probability, 24 (3), 1563-1588.
・監物輝夫, 中川秀敏. (2019). 多次元 Hawkes 過程を用いた倒産リスク伝播構造の推定 -Hawkes グラフ表現による可視化-.ジャフィー・ジャーナル, 17, 15–44.
・清水泰隆. (2018). 保険数理と統計的方法. 共立出版.
木内希
(白石研修士2年)
2023/04/26コピュラとヴァインコピュラの基礎概要:
リスク管理,特に,ヴァインコピュラを用いたリスク合算について関心がある.本発表では,その基礎となるコピュラとヴァインコピュラを,コピュラに関しては Roger B.Nelsenの“An Introduction to Copulas”,ヴァインコピュラに関してはClaudia Czadoの“Analyzing Dependent Data with Vine Copulas”に基づいて紹介する.
コピュラとは,接合分布関数と言い,多変量の同時分布関数と周辺分布関数との関係を表す関数である.あるいは別の言い方をすると,1次元周辺分布が U(0,1) であるような多変量分布関数である.
ヴァインコピュラとは,2変量ごとに適切な依存関係を選択し,それらを用いて多変量の関係性を表す手法である.
本発表ではまず,コピュラや,コピュラを学ぶ上で重要となるスクラーの定理などについて述べていく.(2変量の場合のみを紹介する.)
そして,ヴァインコピュラについて,一般的に用いられる正則ヴァインや,リスク管理で実用的に用いられるC-ヴァインとD-ヴァインについてグラフ理論に基づいて紹介する.

参考文献(抜粋):
Roger B.Nelsen,(2006),“An Introduction to Copulas”,Springer,pp.7-39
Claudia Czado,(2019),“Analyzing Dependent Data with Vine Copulas”,Springer,pp.95-108
加納光
(南研修士2年)
2023/04/26Diffusion modelと微分方程式
~生成の高速化に向けて~
概要:
近年,MidjournyやStable Diffusionなどの画像生成AIの発展が著しい。これらに用いられている生成モデルであるDiffusion model(拡散モデル)についての解説を昨年の水曜セミナーで行った.

Diffusion modelはデータに徐々にノイズを加える拡散過程の逆をたどることで,ノイズからデータを生成する.ここで,ノイズを加えるステップ数を無限大に増やした状況を考え連続化させることにより,Diffusion modelは確率微分方程式(SDE)ととらえることができる.
今回は,その確率微分方程式の導出とその性質について解説を行う.また,連続型のDiffusion modelは高速で高精度な生成に応用されており,その一手法であるDPM-Solverについても説明する.

文献(抜粋):
1. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in Neural Information Processing Systems 33 (2020): 6840-6851.
2. Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Ermon, S., & Poole, B. (2020). Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456.
海老澤優
(小林研修士2年)
2023/05/10PU leaningにおける基本的な方法について概要:
PU learningとはPositive and Unlabeled learningの略称である。PU learningは事例xに対して二値のラベルyの確率p(y=1|x)を予測する問題であり、ラベルデータが正例(y=1)の一部のみに与えられている。ラベル付けされている事例をs=1とし、ラベル付けをされていない事例をs=0とし、g(x)=p(s=1|x)を学習し、補題を用いてg(x)からf(x)を得る。本発表ではPU learningの重要な補題を中心に基本的な方法について説明し、今後の研究の展望についてお話しする。

参考文献:
Charles Elkan, Keith Noto, (2005), “Learning Classifiers from Only Positive and Unlabeled Data”, KDD ’08:Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, pp.213-220.
竹ノ谷洸太郎
(林研修士2年)
2023/05/10Shapley値の非対称化によるXAI手法の改良概要:
Explainable AI(XAI)とは、機械学習モデルによる予測の根拠を抽出する手法である。このXAIに対し、ゲーム理論の指標であるShapley値を応用する手法がSHAPである。
しかしSHAPには、予測結果と根拠の因果関係を正しく表すことが出来ていないという課題がある。
本発表ではまずFrye et al.[1]に基づき、SHAPの抱える課題を説明する。またFrye et al.[2]に基づき、Shapley値の対称性公理を緩和することによって、既知の因果関係を導入する方法について紹介する。

参考文献(抜粋)
[1]Frye et al.(2020) SHAPLEY EXPLAINABILITY ON THE DATA MANIFOLD. arxiv:20006.01272
[2]Frye et al.(2020) Asymmetric Shapley values: incorporating causal knowledge into model-agnostic explainability. Advances in Neural Information Processing Systems, vol. 33, pp. 1229–1239.
風呂井啓人
(小林研修士2年)
2023/05/17Sarcasm Detection Results & AnalysisAbstract:
This time I'm going to show the results of training using Roberta based structure, with introduction to different approaches to deal with overfitting problem faced and stated during last seminar. Also, I would include some further results based on different linguistics devices associations, and also about the effect by the appearance of ChatGPT.

References:
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT, pages 4171-4186.
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., ... & Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
Eke, C. I., Norman, A. A., & Shuib, L. (2021). Context-based feature technique for sarcasm identification in benchmark datasets using deep learning and BERT model. IEEE Access, 9, 48501-48518.
Akula, R., & Garibay, I. (2021). Interpretable multi-head self-attention architecture for sarcasm detection in social media. Entropy, 23(4), 394.
Ilić, S., Marrese-Taylor, E., Balazs, J. A., & Matsuo, Y. (2018). Deep contextualized word representations for detecting sarcasm and irony. arXiv preprint arXiv:1809.09795.
Vitman, O., Kostiuk, Y., Sidorov, G., & Gelbukh, A. (2022). Sarcasm Detection Framework Using Emotion and Sentiment Features. arXiv preprint arXiv:2211.13014.
郭暁涵
(小林研修士2年)
2023/05/17Towards new counterfactual explanation for time series anomaly detectionAbstract:
In this presentation I will introduce a method to generate counterfactual explanations for anomaly detection models in time series. The models I use rely on latent representation learning and the new method tries to use these representations to explore the latent space and generate new samples. I will explain what I have tried so far, why there are some limitations, and what I intend to do to tackle them.

References:
Audibert, Julien, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. ‘USAD: UnSupervised Anomaly Detection on Multivariate Time Series’. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 3395–3404. KDD ’20. New York, NY, USA: Association for Computing Machinery, 2020. https://doi.org/10.1145/3394486.3403392.
Carmona, Chris U., François-Xavier Aubet, Valentin Flunkert, and Jan Gasthaus. ‘Neural Contextual Anomaly Detection for Time Series’. arXiv, 16 July 2021. https://doi.org/10.48550/arXiv.2107.07702.
Rodriguez, Pau, Massimo Caccia, Alexandre Lacoste, Lee Zamparo, Issam Laradji, Laurent Charlin, and David Vazquez. ‘Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations’. arXiv, 11 November 2021. https://doi.org/10.48550/arXiv.2103.10226.
Sulem, Deborah, Michele Donini, Muhammad Bilal Zafar, Francois-Xavier Aubet, Jan Gasthaus, Tim Januschowski, Sanjiv Das, Krishnaram Kenthapadi, and Cedric Archambeau. ‘Diverse Counterfactual Explanations for Anomaly Detection in Time Series’. arXiv, 21 March 2022. https://doi.org/10.48550/arXiv.2203.11103.
Victor Thiébot
(小林研修士2年)
2023/05/24連続空間でのDPPとモンテカルロ積分への応用概要:
対象となる集合から、重要度が高くかつ類似度が互いに低い集合を取り出すための確率モデルに行列式点過程(DPP:Determinantal Point Processes)がある。行列式点過程では抽出するサンプルの出現確率を、要素そのものの出現頻度(quality)と要素同士の相違性(diversity)の2つの表現を内包させた行列の行列式で与える。今回の発表では、まず連続空間からサンプリングする場合のDPPの定義を与える。そして、積分近似手法であるモンテカルロ積分への応用例を紹介する。

参考文献:
[1]R. Bardenet., F. Lavancier., X. Mary. and A. Vasseur. (2018). ON A FEW STATISTICAL APPLICATIONS OF DETERMINANTAL POINT PROCESSES. PROCEEDINGS AND SURVEYS,Vol.60, 180-202.
[2]R. Bardenet and A. Hardy. (2016). Monte Carlo with determinantal point processes. arXiv preprint arXiv:1605.00361.
鴨志田陸
(小林研修士2年)
2023/05/24臨床試験における共変量調整について概要:
臨床試験において治療効果を推定する際、共変量調整を行うべきかどうかは長年の問題であった。というのも、Freedman (2008)やTsiatis et al. (2008)によれば、共変量調整を行っても推定の精度が常に向上するとは限らないからである。しかし、Ye et al. (2022)では、共変量調整を行うANHECOVAモデルについて、有効性の向上や幅広い適用性について理論的な保証を与えた。本発表では、Ye et al. (2022)を基に、単純無作為化の下でのANHECOVA推定量の性質について紹介する。

参考文献:
[1] Freedman, D. A. (2008), “On Regression Adjustments in Experiments with Several Treatments,” Annals of Applied Statistics, 2, 176–196.
[2] Tsiatis, A. A., Davidian, M., Zhang, M., and Lu, X. (2008), “Covariate Adjustment for Two-Sample Treatment Comparisons in Randomized Clinical Trials: A Principled yet Flexible Approach,” Statistics in Medicine, 27, 4658–4677.
[3] Ye, T. et al. (2022) "Toward Better Practice of Covariate Adjustment in Analyzing Randomized Clinical Trials," Journal of the American Statistical Association,DOI:10.1080/01621459.2022.2049278.
三宅佑果
(林研修士2年)
2023/05/31Missing Not at Randomの欠測を調整する拡張傾向スコアの変数選択概要:
調査観察研究では,しばしば交絡やデータの欠測の問題に直面するため,共変量分布や欠測について調整を行う必要がある.
共変量分布やMissing at Randomの欠測の調整法として,まず,共変量を条件づけた時の割り当て/欠測確率である傾向スコアを推定し,次に,推定した傾向スコアの値を用いて関心のある因果効果や母集団平均を推定する方法がよく知られている.
近年,傾向スコアの推定モデルに,結果変数に関連のある変数のみ含め,割り当てのみに関連のある変数は含めないように変数を選ぶと,最も平均処置効果/母集団平均の推定値のばらつきを小さくする,という結果が複数報告されている(e.g. [1-5]).この変数選択の基準は,推定された傾向スコアの割り当て/欠測に対する予測精度を高めることには反しているが,最終的に関心のある推定値についてはばらつきを小さく推定できるという点で興味深い.
本発表では上記の先行研究について概説した後,Missing Not at Random (MNAR)の調整について変数選択の議論を行う.具体的には,拡張傾向スコアを用いた,アウトカムにMNARの欠測があるときの母集団平均の推定法 [6]において,拡張傾向スコアの推定モデルに含める変数と母集団平均のバイアス・ばらつきの関連について,シミュレーションを通じて検証する.またその結果を基に,母集団平均の推定値のばらつきを小さくする,拡張傾向スコアの変数選択の基準について報告する.

参考文献(抜粋):
[1] Brookhart, M. Alan, Sebastian Schneeweiss, Kenneth J. Rothman, Robert J. Glynn, Jerry Avorn, and Til Stürmer (2006) “Variable Selection for Propensity Score Models,” American Journal of Epidemiology, Vol. 163, No. 12, pp. 1149–1156, 04, URL: https://doi.org/10.1093/aje/kwj149.
[2] Luna, Xavier De, Ingeborg Waernbaum, and Thomas S. Richardson (2011) “Covariate selection for the nonparametric estimation of an average treatment effect,” Biometrika, Vol. 98, No. 4, pp. 861–875, URL: http://www.jstor.org/stable/23076177.
[3] Shortreed, Susan and Ashkan Ertefaie (2017) “Outcome-adaptive lasso: Variable selection for causal inference,” Biometrics, Vol. 73, pp. 1111–1122, 03, URL: https://doi.org/10.1111/biom.12679.
[4] Seaman, Shaun R and Ian R White (2013) “Review of inverse probability weighting for dealing with missing data,” Statistical Methods in Medical Research, Vol. 22, No. 3, pp. 278–295, URL: https://doi.org/10.1177/0962280210395740.
[5] Wang, Hengfang and Jae Kwang Kim (2022) “Information projection approach to propensity score estimation for handling selection bias under missing at random,” arXiv, URL: https://doi.org/10.48550/arXiv.2104.13469.
[6] Sun, BaoLuo, Lan Liu, Wang Miao, Kathleen Wirth, James Robins, and Eric Tchetgen Tchetgen (2018) “Semiparametric Estimation with Data Missing Not at Random Using an Instrumental Variable,” Statistica Sinica.
米山慎太郎
(南研博士)
2023/06/07ランダムフォレストの漸近理論とBARTの紹介概要:
ランダムフォレスト(RF)とは,treeを弱学習器として用いるアンサンブル学習の手法の一つである。本発表ではまず,Wager and Athey. [1]に基づき,適切な仮定の下で構成したRFによる推定量が漸近的に正規分布に従うことを見る。続いて,RFと同様にtree-basedな手法であることから,RFと比較されることの多いBayesian additive regression trees(BART)モデルについて紹介する。

参考文献:
[1] Wager S, Athey S. 2018. Estimation and inference of heterogeneous treatment effects using random forests. Journal of the American Statistical Association, 113(523):1228-1242.
[2] Chipman HA, George EI, McCulloch RE. 1998. Bayesian CART model search. J. Am. Stat. Assoc. 93:935–48.
[3] Chipman HA, George EI, McCulloch RE. 2010. BART: Bayesian additive regression trees. Ann. Appl. Stat.4:266–98.
[4] Jennifer Hill, Antonio Linero, and Jared Murray. 2020. Bayesian Additive Regression Trees: A Review and Look Forward. Annu. Rev. Stat. Appl. 7:251-278.
鈴木隆太
(白石研修士1年)
2023/06/07Tacotron2における音声合成の中間表現の観察概要:
音声合成は、テキストを入力として対応する音声を生成する技術であり、深層学習の進展により大きな進歩を遂げてきました。本研究では、音声合成の代表的なモデルであるTacotron2の生成過程において得られる中間表現を観察し、その中間表現が音声情報をどのように表現しているのかを解明することを目的とします。
中間表現は、テキストや音声の潜在的な状態やAttentionと呼ばれる変数からなります。高品質な音声合成においては、中間表現が話者固有の音声情報を適切に表現している可能性があり, 私はこの仮説を検証するために, Tacotron2の生成過程における中間表現を観察しました.
具体的には, 今回はテキストの状態に注目して, 可視化や類似性の比較を行うことで, 異なる話者や異なるテキストに対して表現がどのように変化するのかを観察します.

参考文献 (抜粋):
[1] 山本龍一, 高道慎之介, 『Pythonで学ぶ音声合成 機械学習実践シリーズ』, 株式会社インプレス (2021)
[2] Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu, "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions", arXiv preprint arXiv:1712.05884 (2017)
山本健介
(南研修士1年)
2023/06/14Bayesian Clusteringを用いた階層ベイズモデル概要:
階層ベイズモデルとは、データを生成する確率分布を階層的に構築し、パラメータの推定や予測を行う統計モデルである。本発表では、Balocchi, Deshpande,George and Jensen(2023)のベイジアンクラスタリングを用いた階層ベイズモデルについて紹介する。
この研究では、フィラデルフィアを384の小地区に分割し、各小地区の犯罪密度の時間的推移を推定することを目的としている。犯罪密度のパラメータは、近隣間の空間的依存性を考慮してモデリングされる。
パラメータ間の依存性を表現するために、2種類のパラメータそれぞれに対して小地区をクラスターに分割し、クラスターごとに独立な条件付き自己回帰(CAR)モデルを適用する。CARモデルは、空間的な相互作用を捉えるためのモデルである。
クラスターの集合であるパーティションの事前分布には、T-EP(Truncated Ewens-Pitman)分布を用いる。T-EP分布は、中国料理店過程の確率分布をクラスター数を調節するために拡張した確率分布である。
この階層ベイズモデルでは、各小地区の犯罪密度の時間的推移を、階層的な構造とクラスタリングによってモデル化する。それぞれの小地区における犯罪密度の推定には、時間的な依存性と空間的な依存性を考慮している。

参考文献 (抜粋):
1. Cecilia Balocchi, Sameer K. Deshpande, Edward I. George and Shane T. Jensen(2023),”Crime in Philadelphia: Bayesian Clustering with Particle Optimization”,Journal of the American Statistical Association,Volume 118, Issue 542 ,pp 818-829
2. Burbidge, J. B., Magee, L., and Robb, A. L. (1988),“ Alternative Transformations to Handle Extreme Values of the Dependent Variable, ”Journal of the American Statistical Association,Volume 83, Issue 401, p124.
3. Leroux, B. G., Lei, X., and Breslow, N. (2000),“ Estimation of Disease Rates in Small Areas: A New Mixed Model for Spatial Dependence, ”Statistical Models in Epidemiology, the Environment, and Clinical Trials, eds. M. Elizabeth Halloran and D. Berry, pp. 179–182, New York: Springer.
4. Pitman, J. (2002),“ Combinatorial Stochastic Processes, ”Technical report, Technical Report 621, Dept. Statistics, UC Berkeley.
小早川隼人
(南研修士1年)
2023/06/142つのco-primary endpointを持つ臨床試験の群逐次デザインについて概要:
医薬品や医療機器が市場で販売されるためには、臨床試験において安全性や有効性を示して厚生労働省に承認されることが必要である。臨床試験における新薬の有効性は統計的仮説検定により検証される。
臨床試験における仮説検定では、通常1つのprimary endpoint(確率変数)が用いられる。しかし、2つ以上の指標によって特徴付けられる疾病では、複数のprimary endpointを必要とする。このような場合、複数のco-primary endpointを持つデザインによる試験が行われる。
また、臨床試験における統計的検定では、試験の途中で中間解析を行い、新薬が有効であると判断して試験を終了するか、そのまま試験を継続するかを、その時点までに得られたデータによる検定によって決定する方法がある。このような試験デザインは群逐次デザインと呼ばれる。
本発表では、2つのco-primary endpointを持つ臨床試験の群逐次デザインの概要を説明し、これが被験者数を削減し得ることを示す。

参考文献(抜粋):
1. Offen et al. (2007). Multiple co-primary endpoints: Medical and
statistical solutions. Drug Information Journal 41, 31–46.
2. Christopher Jennison and Bruce W.Turnbull. (1999). GROUP
SEQUENTIAL METHODS APPLICATIONS to CLINICAL TRIALS, New York: CHAPMAN & HALL/CRC. (邦訳 『臨床試験における群逐次
法ー理論と応用ー』 森川敏彦・山中竹春訳, シーエーシー
(2012))
3. Asakura et al. (2014) Sample size determination in group-
sequential clinical trials with two co-primary endpoints. Statistics in medicine, 2014, Vol.33 (17), p.2897-2913
一色修平
(林研修士1年)
2023/06/21XGBoostのアルゴリズムと終末がん患者に対する予後予測への応用概要:
多数の弱学習器を組み合わせて予測精度の高い学習器を構成する学習方法をアンサンブル学習と呼ぶ. アンサンブル学習の手法の1つにブースティングがある. ブースティングでは予測値と実測値の「ずれ」を削減するように逐次的に学習器を追加して精度の高い学習器を構成する. XGBoostは弱学習器として木を用いたブースティング手法であり, データ分析コンペティション等で良い結果を残している手法である.
本発表ではChen et al. (2016) で述べられているXGBoostのアルゴリズムを紹介する. また, 卒業研究で行った終末がん患者に対する予後予測の問題にXGBoostを応用した結果と, 追加で行ったシミュレーションの結果を報告する.

参考文献 (抜粋):
1. Chen, Tianqi, Carlos Guestrin. ”Xgboost: A scalable tree boosting system.” Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016.
2. Hamano, J., Takeuchi, A., Yamaguchi, T., Baba, M., Imai, K., Ikenaga, M., ... & Morita, T. A combination of routine laboratory findings and vital signs can predict survival of advanced cancer patients without physician evaluation: a fractional polynomial model. European Journal of Cancer, 2018, 105, 50-60.
3. Trevor Hastie 著, Robert Tibshirani 著, Jerome Friedman 著, 杉山 将 監訳, 井手 剛 監訳, 神嶌 敏弘 監訳, 栗田 多喜夫 監訳, 前田 英作 監訳, 『統計的学習の基礎 データマイニング・推論・予測』, 2014, 共立出版
槻智也
(林研修士1年)
2023/06/21二値分類アルゴリズムの統計的一致性について概要:
不均衡データとは,一方のクラスが他方のクラスよりも大きな割合を占めるデータのことを指す.この種のデータに対する分類問題では,単純に予測と実際の値が一致する割合(正解率)を指標としても,必ずしもその性能を十分に評価できないという問題がある.不均衡データを取り扱う場合,性能指標としてよく利用されるのはTrue Positive Rate(TPR),True Negative Rate(TNR),Precisionなどを複合的に考慮した指標である.代表的なものとしては,TPRとTNRの算術平均で定義されるAMメジャーや,TPRとPrecisionの調和平均で定義される F1スコアなどが挙げられる.
本発表では,Narasimhan et al. (2014)に基づき,TPR,TNR,そしてクラス確率P(y=1)の連続関数として表現される性能指標に関して,二値分類アルゴリズムの一致性を示す.アルゴリズムの一致性とは,アルゴリズムが標本から学習した分類器の性能が,標本サイズが大きくなるにつれ,(ある意味で)理想的な値に漸近するという性質を指す.本発表では,適当なクラス確率推定値に対して経験的に決定された閾値を割り当てることで分類器を学習するプラグインアルゴリズムについて検討する.

参考文献(抜粋):
[1] Narasimhan, H., Vaish, R., & Agarwal, S. (2014). On the statistical consistency of plug-in classifiers for non-decomposable performance measures. Advances in neural information processing systems, 27.
[2] Menon, A., Narasimhan, H., Agarwal, S., & Chawla, S. (2013, May). On the statistical consistency of algorithms for binary classification under class imbalance. In International Conference on Machine Learning (pp. 603-611). PMLR.
板谷勇輝
(林研修士1年)
2023/07/05乗法生成ポートフォリオの統計的推論に向けた研究要旨:
Stochastic Portfolio Theory(SPT)は,古典的なポートフォリオ理論の枠組み(現代ポートフォリオ理論(MPT)や資産資本価格モデル(CAPM)等)とは異なり,市場に関する多くの制約を置かずに,市場そのもの及びその中に存在するポートフォリオ戦略の価値変動について解析する分野である.
一方で,当該分野における統計的な理論は未だ研究されておらず,その点でSPTは実務上応用がしにくい分野となっている.
本発表では,まずSPTの基本的事項について述べるため,離散時間モデルのSPTに関して述べた論文Wong (2019)についてレビューを行う.その上で,統計的推論のために必要となる材料を作ることを目的とした,簡単なセッティングの下での数値実験について紹介する.
最後に,まとめと今後の研究方針について述べる.

参考文献(抜粋):
Samo, Y. L. K. & Vervuurt, A. (2016) Stochastic Portfolio Theory: A Machine Learning Perspective. arXiv:1605.02654
Wong, K. T. L. (2019) Information Geometry in Portfolio Theory. Geometric Structures of Information, pp.105–136. Springer, New York.
木原泰斗
(白石研博士3年)
2023/07/12Importance Variable Techniques for Random Forest (Sobol-MDA, MDI-oob, SHAFF)Abstract:
Random Forest is one of the most popular Machine Learning algorithms and it is used in a wide range of applications. However, for the moment, its "black-box" aspect makes it inappropriate for critical decision-making applications, such as in healthcare. Consequently, it is needed to find some methods helping the interpretation of how one random forest combines the input variables to make some accurate predictions.
My presentation will be focused on Variable Importance methods, which represent the most prominent line of work in this field.

References:
1) Scornet, E., Biau, G. Vert, J.-P. (2015) Consistency of random forests. Ann. Statist. 43, 1716–41.
2) B´enard, C., da Veiga, S., Scornet, E. (2022) Mean decrease accuracy for random forests: inconsistency, and a practical solution via the Sobol-MDA. Biometrika (2022), 109,4, pp. 881–900.
3) Li, X., Wang, Y., Basu, S., Kumbier, K., Bin, Y. (2019). A Debiased MDI Feature Importance Measure for Random Forests. arXiv:1906.10845.
4) B´enard, C., Biau, G., da Veiga, S., Scornet, E. (2022). SHAFF: Fast and consistent SHApley eFfect estimates via random Forests. arXiv:2105.11724.
5) Biau, G., Scornet, E. (2015) A Random Forest Guided Tour. arXiv:1511.05741.
David Fereres
(白石研修士1年)
2023/07/12PAC-Bayesの紹介概要 :
機械学習の理論的保証のためのフレームワークとしてPAC learningというものがある。汎化誤差の上界に関する不等式を十分1に近い確率で求めたものである。その考えをBayes理論に反映させたものがPAC-Bayesである。PAC-Bayesでは事前分布から汎化誤差の良い上界を得る事後分布を与える。今回の発表では、PAC learningの説明からはじめ、PAC-Bayes boundの一つであるCatoni's boundとそれから与えられるGibbs posteriorを導出する。

参考文献 :
Pierre Alquier, User-friendly introduction to PAC-Bayes bound, 2023
Francis Bach, Learning Theory from First Principles, Chapter 14.4, 2023
Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. Foundations of machine learn-ing, MIT press, 2018.
Peter L Bartlett, Dylan J Foster, and Matus J Telgarsky. Spectrally-normalized margin bounds for neural networks. Advances in neural information processing systems,Vol. 30, pp14-15, 2017.
奥土康太
(小林研修士1年)

2022年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2022/10/5Dimension reduction generalized random forest概要:
本発表では、Athey, Tibshirani and Wager (2019) によって提案された、局所推定方程式の解として定義される汎関数パラメータの推定手法であるGeneralized random forestに、Sufficient dimension reduction の手法を組み合わせた、dimension reduction generalized random forest(DR-GRF)について発表を行う。
DR-GRFの応用として、causal inferenceへの応用について説明し、シミュレーション結果などを通して、推定精度の向上などについて報告する。

文献(抜粋):
Ghojogh et al., (2021). "Sufficient dimension reduction for high-dimensional regression and low-dimensional embedding: Tutorial and Survey". arXiv:2110.09620v1
Loyal et al., (2021). "Dimension reduction forest: local variable importance using structural random forest", arXiv:2103.13233v1.
Athey et al., (2019). Generalized Random Forests. Annals of Statistics, 47(2).
中村 知繁
(南研研究員)
2022/10/12SHAPを用いた機械学習モデルの予測根拠の説明概要:
本発表ではLundberg, Lee(2017)によって提案された、機械学習モデルの予測根拠を、協力ゲーム理論に用いられるShapley Valueを利用することで説明する手法について紹介します。
Shapley Valueの性質とこれを応用したSHAPの性質について紹介し、シミュレーションによる他手法との比較検討について報告します。

文献(抜粋):
Lundberg, S.M.; Lee, S.I. (2017) A unified approach to interpreting model predictions. Proceedings of the 31st International Conference on Neural Information Processing Systems, pp. 4768-4777.
Molnar, C.(2020) Interpretable Machine Learning. https://christophm.github.io/interpretable-ml-book/.
風呂井 啓人
(小林研修士1年)
2022/10/19離散時間Hawkes過程の極限定理概要:
新型コロナウイルスの新規感染者数の予測を行う数理モデルの一つにHawkes過程がある。Hawkes過程は確率過程のクラスである点過程の一種で、点過程を特徴づける強度関数と呼ばれるイベントの瞬間的発生確率が過去のイベントに依存しているという特徴を持つ.Hawkes過程は連続時間モデルが主流であるが、新型コロナウイルスの実データの観測列の特徴から離散時間モデルを用いることを検討している.
本発表ではHawkes過程について紹介をし,Seol, Y(2015)で紹介されている離散時間モデルでの大数の法則や中心極限定理について紹介する.最後に,今後の研究の方針と用いる手法の概要について述べる.

文献(抜粋):
1. Seol, Y. (2015). Limit theorems for discrete Hawkes processes. Statistics and Probability Letters, 99, 223-229.
2. 清水泰隆. (2018). 保険数理と統計的方法. 共立出版.
木内 希
(白石研修士1年)
2022/10/19スパースデータに対するロジスティック回帰モデルのパラメータ推定法の比較について概要:
応答変数と説明変数の組み合わせに偏りのあるデータをスパースデータという。スパースデータをロジスティック回帰モデルで解析する際、パラメータを最尤法で推定すると、バイアスが生じる。Gosho et al. (2022)では、バイアスを減らすためのいくつかの手法が比較・検討されている。本発表ではGosho et al. (2022)で比較されている手法の中から、主にベイズ統計学を用いた推定法を紹介する。

文献(抜粋):
1. Masahiko Gosho, Tomohiro Ohigashi, Kengo Nagashima, Yuri Ito, and Kazushi Maruo(2022) “Bias in Odds Ratios    From Logistic Regression Methods With Sparse Data Sets” , Journal of Epidemiology.
2. Liang F, Paulo R, Molina G, Clyde MA, Berger JO. Mixtures of g priors for Bayesian variable selection. J Am Stat Assoc. 2008;103: 410–423.
3. Greenland S, Mansournia MA. Penalization, bias reduction, and default priors in logistic and related categorical and survival regressions. Stat Med. 2015;34:3133–3143.
竹ノ谷 洸太郎
(林研修士1年)
2022/10/26Diffusion modelによる画像生成の手法概要:
ここ最近,Stable DiffusionやDall-Eなど,性能が高い生成アルゴリズムが注目されている.今回はそれらに採用されているDiffusion Modelについて解説する.
Diffusion Modelは非平衡熱力学(拡散過程)から発想を得ており,マルコフ連鎖を用いて各diffusion stepで少しずつ画像などの実データにランダムノイズを足していく.
モデルはその逆をたどり,ノイズから少しずつ実データに近づけていくように学習する.
本発表では,Diffusion Modelに関する多くの論文のベースラインであるHo, Jonathan, Ajay Jain, and Pieter Abbeel.(2020).Denoising Diffusion Probabilistic Modelsの内容を中心に解説する.

文献(抜粋):
1. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in Neural Information Processing Systems 33 (2020): 6840-6851.
2. What are Diffusion Models?
https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
3. Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium
thermodynamics." International Conference on Machine Learning. PMLR, 2015.
海老澤 優
(小林研修士1年)
2022/10/26行列式点過程と機械学習への応用の紹介概要:
対象となる離散的な集合から、重要度が高くかつ類似度が互いに低い集合を取り出すための確率モデルに行列式点過程(DPP:Determinantal Point Processes)がある。行列式点過程では抽出するサンプルの出現確率を、要素そのものの重要度(quality)と要素同士の相違性(diversity)の2つの表現を内包させた行列の行列式で与える。行列式点過程は確率計算やサンプリングに関連するアルゴリズムの計算量が小さいという利点があり、機械学習分野で多くの応用が知られている。前半では行列式点過程に関する基礎的な説明を行い、後半では機械学習への応用として文章要約の例について紹介する。

参考文献:
Kulesza, A., & Taskar, B. (2012). Determinantal point processes for machine learning. Foundations and Trends® in Machine Learning, 5(2–3), 123-286.
鴨志田 陸
(小林研修士1年)
2022/11/02幾何学の観点から見る漸近線形推定量の性質について - セミパラメトリックモデル入門の入門 -概要:
セミパラメトリックモデルとは、興味のある有限次元のパラメータと、無限次元の局外パラメータによって特徴付けられる統計モデルである。セミパラメトリックモデルにおける「よい」推定量を構築するためには、パラメトリックモデルにおける推定量の幾何学、特に、影響関数の幾何学を理解することが重要である。本発表では、Tsiatis (2006)で紹介されている漸近線形推定量や影響関数の幾何学的性質を紹介する。

参考文献(抜粋):
Tsiatis, A. A. (2006). Semiparametric Theory and Missing Data, Springer, New York.
三宅 佑果
(林研修士1年)
2022/11/02An Introduction to Copulas概要:
リスク管理,特に,ヴァインコピュラを用いたリスク合算について関心がある.本発表では,その基礎となるコピュラを Roger B.Nelsenの“An Introduction to Copulas”に基づいて紹介する.
コピュラとは,接合分布関数と言い,多変量の同時分布関数と周辺分布関数との関係を表す関数である.あるいは別の言い方をすると,1次元周辺分布が U(0,1) であるような多変量分布関数である.
本発表ではまず,コピュラや,コピュラを説明するうえで欠かせない重要な概念,コピュラの諸性質について述べていく.(2変量の場合のみを紹介する.)
そして,コピュラを学ぶ上で重要となるスクラーの定理やその応用例を示しながら,生存コピュラやその性質,対称性の考え方などについて紹介する.

参考文献:
Roger B.Nelsen,“An Introduction to Copulas”,Springer(2006),pp7-39
加納 光
(南研修士1年)
2022/11/09サポートベクター回帰を用いた時系列モデルの推定概要:
サポートベクター回帰は、V.Vapnik (1963) によって提案されたサポートベクターマシンを回帰に応用したものであり、ノイズの影響を受けにくく非線形の回帰を行うことができる点から現在でも幅広く利用されている機械学習の手法である。特にR.Hable(2012)は、i.i.d確率変数列に対してサポートベクター回帰を用いて得られる関数の推定量の漸近正規性について述べている。
一方近年では、時系列データに対してサポートベクター回帰を応用する研究も進んでいる。本発表では、サンプルが非線形自己回帰モデルに従う場合に対して、推定された関数の漸近的性質についてH.Dehling et al.(2002)やK.Yoshihara(1975)らを参考に報告する。

参考文献(抜粋):
R.Hable (2012). Asymptotic normality of support vector machine variants and other regularizes kernel methods. Journal of Multivariate Analysis, 106:92 – 117
K.Yoshihara (1975). Weak Convergence of Multidimensional Empirical Processes for Strong Mixing Sequences of Stochastic Vectors. Springer-Verlag
H.Dehling, T.Mikosh, M.Sorensen(2002). Empirical Process Techniques for Dependent Data, Birkhauser.
伴 尚哉
(白石研修士2年)
2022/11/09生成モデルにおける幾何的な構造について概要:
深層学習の1つに生成モデルと呼ばれるものがある。今回は生成モデルとして有名な変分オートエンコーダー(VAE)によってデータを学習した際に、幾何的な構造を十分に学習できていないことを指摘し、デーコーダーにおける分散パラメーターをうまく変更することで幾何的構造を学習できる可能性について示す。

参考文献:
・Arvanitidis, Georgios, Lars Kai Hansen, and Søren Hauberg. "Latent Space Oddity: on the Curvature of Deep Generative Models." International Conference on Learning Representations. 2018.
・Hauberg, Søren. "Only bayes should learn a manifold (on the estimation of differential geometric structure from data)." arXiv preprint arXiv:1806.04994 (2018).
・Kingma,DiederikP.,andMaxWelling."Auto-EncodingVariational
Bayes." stat 1050 (2014): 1.
・ Que,Qichao,andMikhailBelkin."Backtothefuture:Radialbasisfunctionnetworks revisited." Artificial intelligence and statistics. PMLR, 2016.
服部 航大
(小林研修士2年)
2022/11/30チェーンラダー法を用いたcovid-19における実効再生産数の予測概要:
感染症数理の分野で用いられるデータの一つとして発症日別の陽性者数データがある。
このデータには既に発症しているが報告されていない未報告のデータが存在する。
そのため直近のデータにおいては実際の陽性者が反映されていないため、実効再生産数の推定の際などには報告遅れの影響を考慮する必要がある。
このような既に発生しているが、未報告のデータ分を予測するというプロセスは保険業界における支払準備金の予測においても用いられており、支払準備金の算出に使用される手法を用いることで感染症における未報告データ分の予測、並びに実効再生産数の推定を行なっている。
今回の発表では支払準備金を予測する手法の一つであるチェーンラダー法を紹介し、実際に感染症データに適応した際の解析について述べる。
この手法を用いて推定された実効再生産数と、Nishiura(2009)に基づく実効再生産数と比較し、バイアスの意味で改善が見られた。

文献(抜粋):
・T.Mack. (1993), “Distribution-free Calculation of the Standard Error of Chain Ladder Reserve Estimates”, ASTIN Bulletin: The Journal of the IAA, Volume 23, Issue 2, pp.213-225.
・Hiroshi Nishiura et al. (2009), “The ideal reporting interval for an epidemic to objectively interpret the epidemiological time course ”, Journal of the royal society Interface , pp.297-307
・稲葉寿, 西浦博(2020).感染症の数理モデル 増補版,培風館.
松中 優樹
(白石研修士1年)
2022/11/30ランダムフォレストにおける変数重要度概要:
ランダムフォレストなど、決定木を用いた予測においては、予測に用いる変数の重要度を求める手法が大きく2つ存在する。これらは平均誤差減少率(MDA)や平均不純度減少率(MDI)と呼ばれ、変数の削減やフォレスト予測の解釈などを行う際に用いられる。
しかし、これらは経験的に用いられているもので正確で厳密な解釈があまりなされていない。
本発表では、中でもMDAに注目して、ランダムフォレストの中でのMDAの妥当性についてIswaran,2007の論文に沿って確認していく。

参考文献:
Iswaran(2007). Variable importance in binary regression trees and
forests, Electronic Journal of Statistics Vol. 1 P519–537
B.Clement, D.V.Sebastien, S.Erwan(2021). MDA for random forests:
inconsistency, and a practical solution via the Sobol-MDA, Machine
Learning
小嶋 光太郎
(南研修士2年)
2022/12/07Irony Detection: Multi-task Learning BERT/Roberta TrialsAbstract:
As I have introduced in last 水曜セミナー , towards the task of Irony Detection, there were methods either using CNN(Convolutional Neural Network) with context information, or using RNN(Recurrent Neural Network) to encode information inside target text. Started from the birth of Self-attention algorithm and Transformer, revolutions came to occur inside NLP field, and also brought potential towards Irony Detection task using the so called Pre-training models. I would introduce BERT and Roberta, which are famous examples of pre-training models. To further improve the performance, I also tried the Multitask Learning techniques. I would briefly analyze the implementation results as well.

References:
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT, pages 4171-4186.
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., ... & Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
Liu, X., He, P., Chen, W., & Gao, J. (2019, July). Multi-Task Deep Neural Networks for Natural Language Understanding. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 4487-4496).
Ghosh, D., Fabbri, A. R., & Muresan, S. (2017, August). The Role of Conversation Context for Sarcasm Detection in Online Interactions. In Proceedings of the 18th Annual SIGdial Meeting on Discourse and Dialogue (pp. 186-196).
郭 暁涵
(小林研修士2年)
2022/12/07PCアルゴリズムによる統計的因果探索とLatent Representation based Conditional Independent Test概要:
PCアルゴリズムは、Spirtes and Glymour(1991)で提案されている最も代表的な古典的条件付き独立性検定を用いた制約ベースの統計的因果探索手法である。
Latent Representation based Conditional Independent Testは、Bao and Kun(2022)で提案されている変数に連続であることを仮定すれば特定の分布を仮定する必要のない独立性検定である。
PCアルゴリズムにおける条件付き独立性検定にLatent Representation based Conditional Independent Testを用いたいと考えており、本発表ではPCアルゴリズムとLatent Representation based Conditional Independent Testについて紹介する。

参考文献:
Bao Duong and Kun Thin Nguyen."Conditional Independence Testing via Latent Representation Learning". arXiv:2209.01547v1, 2022.
Peter Spirtes and Clark Glymour. "An algorithm for fast recovery of sparse causal graphs". Social Science Computer Review, 9(1):62-72, 1991.
白井 暉乃
(南研修士2年)
2022/12/14生存-経時同時モデルに基づく異質な部分集団への再帰分割法概要:
生存時間と経時的なアウトカムの両方を含んだデータを扱う方法として、生存―経時同時モデルがある。このモデルは Wulfsohn and Tsiatis (1997)によって提案され、経時的なアウトカムの変化を生存時間のサブモデルに取り入れることが可能である。解析対象のデータに対し、その母集団が異質な部分集団によって構成されていると想定される場合があるが、生存―経時同時モデルには母集団が同質であるという仮定が必要である。このような母集団に生存-経時同時モデルを当てはめる方法として、潜在クラスモデルを用いた方法が Lin et al. (2002)によって提案されている。しかし、潜在クラスモデルでは経時的なアウトカムと生存時間の条件付き独立を仮定しており、経時的なアウトカムと生存時間アウトカムの関連を把握することが難しい。そこで本研究では、Zeileis et al. (2008)の model-based recursive partitioning を生存―経時同時モデルへ拡張し、解決を試みる。本発表では生存―経時同時モデルに基づいた再起分割法を提案し、簡単なシミュレーションに基づいて性能を評価する。

参考文献:
S. Wulfsohn and A. Tsiatis (1997). A Joint model for survival and longitudional data measured with error. Biometrics, 53(1):330-339.
D. Rizopoulos (2012). Joint models for longitudional and time-to-event data with applications in R. CRC Press.
Lin, H., Turnbull, B., McCulloch, C., and Slate, E. (2002). Latent class models for joint analysis of longitudional biomarker and event process. Journal of the American Statistical Association, 97, 53-65.
H. Lin, W. Turnbull, E. McCulloch, H. Slate (2002). Latent class models for joint analysis of longitudional biomarker and event process. Journal of the American Statistical Association, 97(457):53-65.
A. Zeileis, T. Hothorn, K. Hornik (2008). Model-based recursive partitioning. Journal of Computational and Graphical Statistics, 17(2):492-514.
J. Crowther and C. Lambert (2013). Simulating biologically plausible complex survival data. Statistical in medicine, 32(23):4118-4134.
G. Kundu, and S. Ghosh(2021). Survival trees based on heterogeneity in time-to-event and censoring distributions using parameter instability test. Statistical Analysis and Data Mining: The ASA Data Science Journal, 14(5):466-483.
名取 京太朗
(林研修士2年)
2022/12/14An Extended SEIR model and ensemble Kalman Filter with analysis of COVID-19 in Japan.Abstract:
One of the most popular epidemic models is the SIR model (Kermack & McKendrick, 1927), which categorizes the population into three groups: Susceptible (S), Infected (I) and Removed (R). However, in the real world, it may be hard to report the exact population in each compartment, because collecting the data for the officials could be difficult and unrealistic. Applying a complicated model, for example, the extended SEIR model requires estimating the hidden data from the reported dataset. To compensate for that, Sun et al. (2021) proposed a framework by applying the technique of the ensemble Kalman Filter.
In this presentation, the fundamental of the Kalman Filter and its extension will be briefly introduced, followed by the extended SEIR model by splitting the infected group into asymptomatic and symptomatic cases. Then the real-world data from Japan would be used to fit this framework.

Reference:
Katzfuss, M., Stroud, J. R., & Wikle, C. K. (2016). Understanding the ensemble Kalman filter. The American Statistician, 70(4), 350-357. https://doi.org/10.1080/00031305.2016.1141709
Kermack, W. O., & McKendrick, A. G. (1927). A contribution to the mathematical theory of epidemics. Proceedings of the royal society of London. Series A, Containing papers of a mathematical and physical character, 115(772), 700-721.
Sun, Q., Richard, S., & Miyoshi, T. (2021). Analysis of COVID-19 in Japan with Extended SEIR model and ensemble Kalman filter. arXiv preprint arXiv:2110.14892.
lin xuanan
(白石研博士)
2022/12/21γ‐divergenceを用いたロバストベイズ解析概要:
ベイズ統計学の枠組みで損失関数を二乗損失としたとき、ベイズ推定量はロバストでないことが分かっていた。しかし、尤度関数にγ-ダイバージェンスをを用いることでロバストな解析ができることが示された。
今回の発表ではこのダイバージェンスを用いた手法を紹介して実際に外れ値に強い解析ができていることを確認するとともに、現在私が取り組んでいる研究内容についても説明していく。

文献(抜粋):
・T. Nakagawa and S. Hashimoto. Robust Bayesian inference via γ-divergence.Communications in Statistics-Theory and Methods, vol. 49, pp. 343–360, 2020.
・F. Futami, I. Sato, and M. Sugiyama. Variational inference based on robust divergences. In Proceedings of the Twenty-First International Conference on Artificial Intelligence and Statistics, vol. 84 of Proceedings of Machine Learning Research, pp. 813–822. PMLR, 2018.
・P. J. Huber, Robust estimation of a location parameter, Annals of Mathematical Statistics, vol. 35, pp. 73–101, 1964.
山下 亮
(小林研修士2年)
2022/12/21t分布を用いた二値応答に対するAdaptive Index Modelの提案概要:
インデックス予測子の閾値を適応的に選択し、集団のリスクを層別化する規則を構築する方法を、Adaptive Index Model(AIM)という。インデックス予測子とは、共変量をある閾値で二値化することにより得られる変数であり、医学研究におけるリスクの把握に有用である。Tian and Tibshirani (2011)によって提案されたAIMは、二値の応答に対してロジスティック回帰モデルに基づいてインデックス予測子を探索するが、モデルの誤特定に対して頑健でないという問題が懸念される。本研究では、Liu (2006)で提案されたrobit回帰モデルに基づくAIMを提案する。robit回帰モデルは、リンク関数をt分布とした二値の応答に対する回帰モデルである。本発表では、提案モデルの推定アルゴリズムについて紹介する。

文献(抜粋):
・International Non-Hodgkin's Lymphoma Prognostic Factors Project. (1993). A predictive model for aggressive non-Hodgkin's lymphoma. 329(14), pp.987-94.
・武田薬品. リンパ腫の治療方針. https://www.takeda.co.jp/patients/lymphoma/treatment/ (2022年12月15日)
・Tian & Tibshirani. (2011). Adaptive index models for marker-based risk stratification. Biostatistics 12(1), pp.68-86.
・Liu. (2004). Robit Regression: A Simple Robust Alternative to Logistic and Probit Regression. Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives., pp.227-238.
林田 理香
(林研修士2年)
2023/01/11Counterfactual explanation for anomaly detection in time seriesAbstract:
In my first seminar, I introduced the topic of anomaly detection in time series. I mentioned my wish to try and focus more on Explainable Artificial Intelligence (XAI). In this seminar, I will introduce a particular explanation method named “counterfactual explanation”. I will show why this method can be informative, especially in the case of time series anomaly detection, how counterfactuals can be generated and what improvements could be made to the generation of counterfactual explanations.

References:
Audibert, Julien, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. ‘USAD: UnSupervised Anomaly Detection on Multivariate Time Series’. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 3395–3404. KDD ’20. New York, NY, USA: Association for Computing Machinery, 2020. https://doi.org/10.1145/3394486.3403392.
Carmona, Chris U., François-Xavier Aubet, Valentin Flunkert, and Jan Gasthaus. ‘Neural Contextual Anomaly Detection for Time Series’. arXiv, 16 July 2021. https://doi.org/10.48550/arXiv.2107.07702.
Kamath, Uday, and John Liu. ‘Introduction to Interpretability and Explainability’. In Explainable Artificial Intelligence: An Introduction to Interpretable Machine Learning, edited by Uday Kamath and John Liu, 1–26. Cham: Springer International Publishing, 2021. https://doi.org/10.1007/978-3-030-83356-5_1.
———. ‘Post-Hoc Interpretability and Explanations’. In Explainable Artificial Intelligence: An Introduction to Interpretable Machine Learning, edited by Uday Kamath and John Liu, 167–216. Cham: Springer International Publishing, 2021. https://doi.org/10.1007/978-3-030-83356-5_5.
Molnar, Christoph. Interpretable Machine Learning. Accessed 6 January 2022. https://christophm.github.io/interpretable-ml-book/.
Rodriguez, Pau, Massimo Caccia, Alexandre Lacoste, Lee Zamparo, Issam Laradji, Laurent Charlin, and David Vazquez. ‘Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations’. arXiv, 11 November 2021. https://doi.org/10.48550/arXiv.2103.10226.
Ruff, Lukas, Jacob R. Kauffmann, Robert A. Vandermeulen, Grégoire Montavon, Wojciech Samek, Marius Kloft, Thomas G. Dietterich, and Klaus-Robert Müller. ‘A Unifying Review of Deep and Shallow Anomaly Detection’. Proceedings of the IEEE 109, no. 5 (May 2021): 756–95. https://doi.org/10.1109/JPROC.2021.3052449.
Sulem, Deborah, Michele Donini, Muhammad Bilal Zafar, Francois-Xavier Aubet, Jan Gasthaus, Tim Januschowski, Sanjiv Das, Krishnaram Kenthapadi, and Cedric Archambeau. ‘Diverse Counterfactual Explanations for Anomaly Detection in Time Series’. arXiv, 21 March 2022. https://doi.org/10.48550/arXiv.2203.11103.
Victor Thiébot
(小林研修士2年)
2023/01/112重周期スプライン平滑法と南極昭和基地のCO2濃度データの日次変動に関する考察概要:
スプライン平滑法とは,あらかじめ関数の形を想定することなく柔軟に回帰関数を推定するためのノンパラメトリック回帰手法の1 つである.スプライン平滑法の中で,日次変動または年次変動のような周期的変動を推定するための解析法に,周期的3 次スプライン平滑法がある.しかし,この周期的3 次スプライン平滑法は年間を通して変化のない固定された日次変動しか扱うことができない.そこで多変量平滑法に拡張する手法の一つであるテンソルプロダクト法を応用した2 重周期スプライン平滑法を提案し,これにより年間を通じて連続的に変化する日次変動を扱うことができるようにした.この提案手法はシンプルなモデルの場合,影響行列の固有値と固有ベクトルが陽に表現することができ,異なる周波数を持つ三角関数の値で明示的に表すことができる.つまり,調和解析のメカニズムに通じており,微細な周期的変動も柔軟に推定することが可能である.この平滑法の適用事例として南極昭和基地で観測されたCO2濃度を解析した.提案手法により,南極大陸及び昭和基地周辺の特有の季節性を柔軟に加味して推定できたことで,従来の研究では昭和基地に日次変動がないと言われたが,夏には有意性があることを検出した.

文献:
・Aoki, S. et. al. (1997). Continuous measurement of atmospheric CO2 concentration at Syowa Station.
・Nakazawa, T. et. al. (1991). The concentration of atmospheric carbon dioxide at the Japanese Antarctic Station, Syowa.
・Silverman, B. W. (2009). Some aspects of the spline smoothing approach to nonparametric regression curve fitting.
・Uchida, M. et. al. (2014). Carbon and nitrogen contents in vegetation and soil around Syowa station, Antarctica.
・Wahba, G. (2009). Bayesian confidence intervals for the cross validated smoothing spline.
・Wood, S. N. (2006a). Generalized AdditiveModels -An Introduction with R-.
・Wood, S. N. (2006b). Low-Rank Scale-Invariant Tensor Product Smooths for Generalized Additive Mixed Models.
・Wood, S. N. (2009). Fast stable restricted maximum likelihood and marginal likelihood estimation of semiparametric generalized linear models.
木口 亮
(南研博士)
2023/01/18空間時系列モデルを用いた神奈川県の人口 データの解析概要:
時空間データである神奈川県の人口データに対し、2つの空間時系列モデルのSTARモデルとST.CARarモデルを用いて解析を行った。各モデルのパラメータを推定し、より当てはまりの良いモデルを評価して、未観測値の予測を行った。
今回の発表では上記の2つのモデルの推定手法と比較の方法、実データの解析結果と考察について説明していく。

文献(抜粋):
William W. S. Wei, Multivariate Time Series Analysis and Applications, John Wiley and Sons, Incorporated, pp.261-300, 2019
Andrew B. Lawson, Using R for Bayesian Spatial and Spatio-Temporal Health Modeling, Chapman and Hall/CRC, 2021
Lee, Duncan, Alastair Rushworth, and Gary Napier. Spatio-temporal areal unit modeling in R with conditional autoregressive priors using the CARBayesST package, Journal of Statistical Software 84, pp.1-39, 2018
髙橋 貴一
(白石研修士2年)
2023/01/25国内株式市場におけるrelative arbitrageに関する実証研究要旨:
Stochastic Portfolio Theory(SPT)は,古典的なポートフォリオ理論の枠組み(現代ポートフォリオ理論(MPT)や資産資本価格モデル(CAPM)等)とは異なり,市場に関する多くの制約を置かずに,市場そのものやその中に存在するポートフォリオの価値変動について解析する分野である.
本発表では,まず離散時間モデルのSPTに関し幾何学的な解釈を交えて考察を行った論文Wong et al. (2019)についてレビューを行い,SPTの基本的事項について述べる.その上で,国内株式市場に対して実際に離散時間SPTを適用した実証研究についての結果を紹介し,理論の有用性について考察する.最後に,実証研究から示唆される今後の研究方針・展望について述べる.

参考文献(抜粋):
Wong, K. T. L. (2019) Information Geometry in Portfolio Theory. Geometric Structures of Information, pp.105–136. Springer, New York.
木原 泰斗
(白石研博士)

2022年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2022/04/20Sufficient dimension reductionを用いたCausal Treeの拡張Causal Tree (CT; Athey and Imbens, 2016)によるheterogeneous treatment effectの推定は、特徴空間を観測されている変数に基づいてaxis-alignedにpartitioningすることによって行う。しかし、観測される共変量の次元が大きくなるにつれ、有効性の低い変数によるsplittingや、探索する次元の大きさによる計算量の増加が起こる。これらの問題は、causal forest (CF)のbase-learnerとしてCTを選択したときに顕著な問題になる。
そこで本発表では、次元削減法の1つであるsliced inverse regression (Li, 1991)を用いて、Leaf内で処置群及び対照群の結果変数に影響を与えるSDR空間を推定し、より有効なsplittingの構成することで推定精度の向上を目指すdimension reduction causal tree(DRCT)を提案する。
※発表の前半では、Causal Inferenceに関する基礎的な内容についても触れる予定である。

文献(抜粋):
・Athey, S and Imbens, G. (2016) "Recursive partitioning for heterogeneous causal effects." ,Proceedings of the National Academy of Sciences, 113(27):7353–7360.
・Li, K.-C. (1991). Sliced inverse regression for dimension reduction (with discussion). J. Amer. Statist. Assoc. 86 316–342
中村 知繁
(南研研究員)
2022/04/27南極昭和基地のCO2濃度の解析概要
これまで昭和基地のCO2濃度に日次変動はないと言われていた。
理由としてはCO2濃度の変化が非常に小さく有意性を示すことが困難なこと、
植生などといった日次変動に影響を及ぼす要因がないと考えられていること等が挙げられる。
一方で、日次変動に関して詳細な研究はなく、かつ南極大陸及び昭和基地周辺の特有の季節性を
柔軟に推定することができれば、CO2濃度の日次変動を検出できる可能性があると考えられた。
そこでテンソルプロダクト法をもとに、周期的3次スプライン平滑法を拡張した、2重周期スプライン平滑法を提案し、
これを用いて連続的な周期的変動の推定をCO2濃度データで行った。その結果、夏には有意に日次変動があることを確認した。

なお、当日は冒頭に自己紹介として、製薬会社におけるデータサイエンティスト業務についても紹介する予定である。

文献:
・Simon N. Wood (2006). Low-Rank Scale-Invariant Tensor Product Smooths for Generalized Additive Mixed Models.
・Simon N. Wood (2011). Fast stable restricted maximum likelihood and marginal likelihood estimation of semiparametric generalized linear models.
・Kaoru Sato and Naohiko Hirasawa (2007). Statistics of Antarctic surface meteorology based on hourly data in 1957-2007 at Syowa Station.
木口 亮
(南研博士課程)
2022/05/11生存時間分析の基礎とJoint modelの紹介興味のある事象が発生するまでの時間を含んだデータを統計的に解析することは、医学的に非常に重要である。この分野を生存時間分析と呼び、医学分野以外でも機械の品質管理等に広く活用されている。本発表では、興味のある共変量が経時的に測定されている生存時間データを考える。Joint modelはこのようなデータを解析するモデルであり、今回は比較的シンプルなモデルであるWulfsohn and Tsiatis (1997)で提案されているJoint modelを紹介する。また、発表の前半では、生存時間分析の基礎的な内容についても紹介する。

文献(抜粋):
Michael S. Wulfson and Anastasios A. Tsiatis. (1997) "A Joint Model for Survival and Longitudinal Data Measured with Error." ,Biometrics, 53:330-339.
名取 京太朗
(林研修士2年)
2022/05/11Variants of plain Gaussian Processes for Bayesian OptimizationGaussian Processes (GPs) are powerful tools for Regression. Combined with a Bayesian Framework, they allow us to predict and quantify uncertainty at the same time. However, priors commonly used for GPs are usually too simple to catch efficiently the variations of the data across the space. That is why in this presentation, I introduce Warped Gaussian Processes and Manifold Gaussian Process, that are respectively deforming the output space and the input space, allowing a much wider variety of output responses. Besides, I also stress the potential of such processes in a specific case of application, the Bayesian Optimization.
References:
1. Gaussian Processes for Machine Learning, Carl Edward Rasmussen
and Christopher K. I. Williams, The MIT Press, 2006.
2. Deep Gaussian Processes, Andreas Damianou and Neil D. Lawrence,
2013.
3. Warped Gaussian Processes, Edward Snelson, Zoubin Ghahramani,
Carl Edward Rasmussen, 2003
4. Manifold Gaussian Processes for Regression, Roberto Calandra, Carl
Edward Rasmussen and Marc Peter Deisenroth, 2014
5. Algorithms for Hyper-Parameter Optimization, James Bergstra, Rémi
Bardenet, Yoshua Bengio, Balazs Kegl, 2011
Pollot Pierre-Jean Eric Charles
(小林研修士2年)
2022/05/18Explanations for time series anomaly detectionAnomaly detection can be seen as a particular kind of classification problem with two classes, the “normal” class being largely dominant. In this presentation, I will give a general introduction to my research topic. I will first explain how I came to this subject where I especially focus on the detection in the case of time series (anomaly detection can also be performed for images but the method may differ for some cases). I will try to give a definition of the problem, which is not easy since what is considered as an anomaly may differ depending on the fields. Then, I will briefly mention some common detection methods (Extreme Value Theory and reconstruction methods using AEs or GANs), which will be helpful to understand the main issues one may face when focusing on this problem.
Furthermore, it is crucial to define appropriate metrics when working with time series. Usual recall and precision, and derived measures such as F-scores are very useful for static classification problem, but they don’t work for range-based detection problems. Therefore, I will introduce metrics derived from recall and precision that consider the temporal nature of time series. These measures can be customized to the different applications so we can choose to put more importance on early detection or exactly-once detections.Finally, I will introduce XAI by explaining its purpose and some of its vocabulary and I will give an overview of my future research plan.
Victor THIEBOT
(小林研修士2年)
2022/05/18UMAP(Uniform Manifold Approximation and Projection)の紹介UMAPは「非線形的な次元を削減する」多様体学習の1つである。UMAPは多様体学習の中でもデータの特徴抽出精度が高く、次元削減を行う際に使われることが多い。本発表ではこのUMAPの理論的側面と次元を削減するアルゴリズムに関して説明を行う。

文献(抜粋):
[1] McInnes, L., Healy, J., & Melville, J. (2018). Umap: Uniform manifold approximation and projection
for dimension reduction. arXiv preprint arXiv:1802.03426.
[2]Narayan, A., Berger, B., & Cho, H. (2021). Assessing single-cell transcriptomic variability through
density-preserving data visualization. Nature Biotechnology, 39(6), 765-774.
[3]Sainburg, T., McInnes, L., & Gentner, T. Q. (2021). Parametric UMAP Embeddings for
Representation and Semisupervised Learning. Neural Computation, 33(11), 2881-2907
[4]Wang, J. (2012). Geometric structure of high-dimensional data and dimensionality reduction
(Vol. 5). Berlin Heidelberg: Springer.
服部 航大
(小林研修士2年)
2022/05/25自然免疫応答の遺伝子発現レベルにおける遺伝的多様性を単一細胞分解能で解析するための新たな統計手法の開発感染症や自己免疫疾患のゲノムワイド関連解析(GWAS)において同定された感受性遺伝子座の一部は,細胞の免疫応答の遺伝的多様性に関連していることが示唆されている.
本研究では,細胞の異なる環境下における遺伝子発現の遺伝的多様性を解析するGASPACHO (GAuSsian Processes for Association mapping leveraging Cell HeterOgeneity)という新たな統計手法を提案し,自然免疫応答下にある2万以上の線維芽細胞の遺伝子発現を解析した.
その結果,ゲノムワイドに2,662箇所の応答発現量的形質座位(reQTL)を同定し,その3割が免疫に関係するGWASで同定された感受性座位との間に共局在化を認めた.
一例として,新型コロナウイルス感染症(COVID-19)との関連が認められたOAS座位のファインマッピングを行い,OAS1遺伝子のスプライシング変異がCOVID-19のリスクを上昇させていることを明らかにした.また実際にCOVID-19に罹患した患者から採取された鼻粘膜上皮細胞と末梢血単核細胞の単一細胞RNA解析による追加検証を行った結果についても紹介する.
熊坂夏彦
2022/06/01サポートベクター回帰の漸近正規性と時系列への拡張サポートベクター回帰は、サンプルから回帰モデルを推定する手法であり、Vapnikらによって1963年に提案されたサポートベクターマシンを回帰に応用したものである。特にHable.R(2012)は、i.i.d確率変数に対してサポートベクター回帰を用いた際に得られる関数の漸近正規性について述べている。本発表では、先行研究の証明において重要となる経験過程と呼ばれる確率過程の収束について、 A.W.van der Vaart(1998)やH.Dehling et al.(2002)を参考にサンプルが独立同一分布に従う場合と時系列に従う場合についてそれぞれ述べる。また発表の前半では、確率過程の基礎的な内容やHable.R(2012)の内容についても紹介をする。
文献(抜粋):
1.Asymptotic Normality of Support Vector Machine Variants and Other Regularized Kernel Methods. Hable.R , Journal of Multivariate Analysis,106, 92–117,2012.
2. H.Dehling, T.Mikosch, M.Sørensen. Empirical Process Techniques for Dependent Data,Birkh äuser,2002.
3.Asymptotic Statistics. A.W.van der Vaart , Cambridge University Press, Cambridge,1998.
伴 尚哉
(白石研修士2年)
2022/06/01客観的ベイズの事前分布構成法研究者がベイズの理論を用いる際、事前分布の選択が必要となってくる。しかし事前分布を選ぶとき、研究者自らが持っている知識を分布に反映させることは難しい。客観的ベイズ(Objective Bayes)は無情報事前分布を含む事前知識を必要としない分布に焦点を当てた理論になる。本発表ではこれに該当する事前分布とその構成方法を紹介する。

文献(抜粋):
Guido Consonni, Dimitris Fouskakis, Brunero Liseo, Ioannis Ntzoufras "Prior Distributions for Objective Bayesian Analysis," Bayesian Analysis, Bayesian Anal. 13(2), 627-679, (June 2018)
山下 亮
(小林研修士2年)
2022/06/08ベイズ手法を用いた空間時系列モデルの解析時系列モデルの考え方を時空間データに拡張した空間時系列モデルというものがある。そして、このようなモデルをベイズ理論を用いて予測していく考え方が最近研究されつつある。本発表では空間(ポリゴン)データ、ベイズ階層ベイズモデル及びマルコフ連鎖モンテカルロ(MCMC)法の基礎について紹介する。

また、発表の前半ではAndrew B. Lawson. (2020)で紹介されている手法を用いて実データでの解析結果についても紹介する。
(抜粋):
Andrew B. Lawson. (2020), Using R for Baysian Spatial and Spatio Temporal Health Modeling
髙橋 貴一
(白石研修士2年)
2022/06/08未観測共通原因がない場合のLiNGAM(Linear Non-Gaussian Acyclic Model)の紹介データを用いて、因果グラフという定性的な因果関係を表す図を推測する手法を因果探索という。まず、分析者の事前知識や判断などを仮定として表現する。そして、その仮定を満たす中で、データと矛盾しないモデルを推定することで、因果グラフを推測する。LiNGAMは、観測変数が、線形で、非ガウス分布に従い、非巡回有向的であると仮定することで、独立成分分析の結果を用いて因果グラフを一意に推測することができる。本発表では未観測共通原因がない場合のこのモデルの推定方法を紹介する。

参考文献:
Shohei Shimizu, Patrik O. Hoyer, Aapo Hyvärinen,
Antti Kerminen. (2006), “A Linear Non-Gaussian
Acyclic Model for Causal Discovery” , Journal of
Machine Learning Research 7, 2003-2030.
清水昌平(2017).統計的因果探索,講談社.
白井 暉乃
(南研修士2年)
2022/06/15Irony Detection ApproachesAs the language patterns changing with time, traditional sentiment analysis task in NLP has faced some problems. Irony is a widely used rhetorical device especially among young people on the Internet. During this seminar, I would first introduce several basic preliminary knowledge of NLP area to help understanding the analysis process better. Then I would briefly introduce the two trials models: CASCADE and DC-Bi-LSTM models representing different trials from different point of views. After that, I would start to talk about the widely used Self-attention algorithm with the famous Transformer structure, which have been playing an important role among these years in the development of NLP. Finally, I'd briefly mention the pre-training models. Pre-training models unique features make it possible to proceed Irony Detection task in some different way.郭 暁涵
(小林研修士1年)
2022/06/22チェーンラダー法を用いたcovid-19における報告遅れデータの予測感染症数理の分野で用いられるデータの一つとして発症日別の陽性者数データがある。
このデータには既に発症しているが報告されていない未報告のデータが存在する。
そのため直近のデータにおいては実際の陽性者が反映されていないため、実効再生産数の推定の際などには報告遅れの影響を考慮する必要がある。
このような既に発生しているが、未報告のデータ分を予測するというプロセスは保険業界における支払準備金の予測においても用いられており、支払準備金の算出に使用される手法を用いることで感染症における未報告データ分の予測ができないか現在研究を行なっている。
今回の発表では支払準備金を予測する手法の一つであるチェーンラダー法を紹介し、実際に感染症データに適応した際の解析について述べる。
松中 優樹
(白石研修士2年)
2022/06/22一般化ランダムフォレストを用いた因果推論決定木を用いた弱学習機を組み合わせることにより分類や回帰の推定精度を上げる手法をランダムフォレストという。この手法を用いてある種の類似性重みを求め、局所推定方程式を解くことで推定量を求める方法をさらに一般化ランダムフォレストという。
本発表では、ランダムフォレストの概要と、一般化ランダムフォレストにおける重みを求める際の木の分割方法を紹介した後、因果推論への応用の方法について紹介する。
小嶋 光太郎
(南研修士2年)
2022/06/29海外留学と機械学習(自然言語処理)の研究の紹介私は2020年に数理科学科を卒業して、現在はテキサス大学オースティン校の修士課程(コンピュータ科学学部)で機械学習の研究を行っています。まず、私が海外進学に至った経緯や、テキサス大学での学習・研究の様子を紹介します。次に、現在の私の研究を紹介します。機械学習の応用分野を研究しているため数学的な内容ではありませんが、数理科学科での学びがどのように生かされているかという点に注目して説明します。鴨井 遼
(小林研卒業生, 現テキサス大学オースティン校)
2022/07/03Missing Not at Randomの欠測がある場合におけるロバストな因果効果の推定調査観察研究において因果効果を推定する場合,共変量調整の問題やデータの欠測の問題に直面する.本発表ではMissing Not at Random (MNAR)とよばれる,欠測が観測値のみならず欠測値にも依存する場合に,因果効果を推定することを考える.
Yoneyama and Minami (2021)は,Sun et al.(2018)によるMNARの場合における操作変数を用いた母集団平均の推定方法を因果推論に拡張し,結果変数のモデリングを行うことなく平均処置効果などの因果効果を推定する方法について提案した.しかしシミュレーション実験では,推定値が真値から大きく外れる場合があった.
本発表では,この問題を改善した,より安定的な因果効果の推定法について検討する.
米山 慎太郎
(南研 博士課程)
2022/07/13Stochastic Portfolio TheoryについてStochastic Portfolio Theory(SPT)は,古典的なポートフォリオ理論の枠組み(現代ポートフォリオ理論(MPT)や資産資本価格モデル(CAPM)等)とは異なり,市場に関する多くの制約を置かずに,市場そのものやその中に存在するポートフォリオの価値変動について解析する分野である.
本発表では,まずMPTを中心としたポートフォリオ理論についてその概観の説明を行う.その上で,離散時間モデルのSPTに関し幾何学的な解釈を交えて考察を行った論文Wong et al. (2019)についてレビューを行い,今後の研究方針・展望について述べる.
木原 泰斗
(白石研 博士課程)

2021年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2021/10/13Subgroup analysis via recursive partitioning処置や施策の効果に異質性が想定される状況下で、特に効果のある集団/ない集団を発見・解析する方法であるsubgroup analysisに、decisionn treeなどで用いられるrecursive partitioningを組み合わせる手法について発表を行います。
このような解析は、処置の効果が年齢層によって異なったり、性別や疾病歴で疾病の発症確率を表すモデルが異なる場合に、これらをデータから見つける上で解析者の手助けになることが想定されます。
当日は、recursive partitioningによるsubgroupの構成や、モデルのrecursive partitioningによる分割を具体例を交えて紹介します。また、recursive partitioningにおけるsplit選択(splitの良さを測る/検定する)の問題についても取り上げ、recursive partitioningについて現在取り組んでいる課題ついても説明する予定です。
中村 知繁
(南研研究員)
2021/10/20Donskerの定理とサポートベクター回帰への応用サンプルから回帰モデルを推定する際に,1963年にVladimir Vapnikによってサポートベクター回帰(SVR)と呼ばれる手法が提案された.SVRはノイズの影響を受けにくく非線形にも応用できる回帰手法であり,近年は時系列データにも応用されている.理論面では,サンプルが独立同一に従う場合のSVRの漸近正規性をHable.R et.al,(2011)が示している.

関数の漸近正規性を考える際に重要となる定理として,「Donskerの定理」がある.この定理は,関数空間上の経験過程の弱収束について主張している.また,定理の十分条件として, 経験過程を考える上での関数集合の大きさが重要となる.

本発表では,A.W.van der Vaart,(1998)を参考に,経験過程の定義とDonskerの定理の主張,定理の十分条件のために必要な「一様エントロピー積分」について述べる.その後, Hable.R et.al,(2011)を参考に,どのようにDonskerの定理をSVRに応用するかについて簡単に紹介する.
伴 尚哉
(白石研修士1年)
2021/10/20Random Survival Forestsの概要と最小深度を用いた変数選択法始めに、生存時間データに機械学習の手法であるRandom Forestsを拡張したRandom Survival Foretsのアルゴリズムについて紹介を行います。次に、木の概念である最小深度を用いた変数選択法について紹介します。また、今回の発表はIshwaran et al,(2008)とIshwaran et al,(2011)の内容を紹介する形を取っています。名取 京太郎
(林研修士1年)
2021/10/27STARIMAモデルのパラメータ推定始めに、時系列モデルの代表的なモデルであるARIMAモデルの紹介を行います。次にそれを空間時系列に拡張したSTARMAモデルと重み付き行列について紹介します。そして、STARMAモデルの自己回帰パラメータと移動平均パラメータを最尤法により推定する方法を紹介します。また、今回の発表はBrockwell and Davis,(2009)とWei,(2019)の内容を紹介する形を取っています。髙橋 貴一
(白石研修士1年)
2021/10/27多様体学習における 𝑘近傍と𝜀近傍の考察まず多様体学習の概要と従来の研究法の説明をします。その後データ数が十分に大きいときに重み付けされていないk近傍グラフの最短パスの収束性に関しての説明を行います。服部 航大
(小林研修士1年)
2021/11/03欠測のあるデータにおけるダブルロバストな平均処置効果の推定因果関係を調べる際、処置と結果の両方に影響を及ぼす共変量の存在により推定にバイアスが生じる。このバイアスを取り除くため平均処置効果を求める手法はデータに欠測のない完全データに対する研究は盛んになされてきた。
しかし、共変量に欠測がある場合の研究はまだ十分とは言えない。
本発表では、共変量に欠測がある場合の平均処置効果の推定について、Mayer et al,(2020)の内容に沿う形で紹介する。
小嶋 光太郎
(南研 修士1年)
2021/11/03AlphaZeroアルゴリズムの概要数年前,将棋AIは平手(ハンデなし)でプロ棋士に勝利し,現在では人類よりもはるかに強くなってしまった.

これまでの主流派だった将棋AIは,Efficiently Updatable Neural Network を用いた評価関数とアルファベータ探索を組み合わせた,NNUE系と呼ばれるものである.

一方で,Deep Learning を用いた評価関数とモンテカルロ木探索を組み合わせた,DL系と呼ばれる将棋AIが近年大幅に実力をつけてきており,NNUE系とDL系の実力が拮抗してきている.

そこで,将棋AIの簡単な歴史について紹介し,DL系の将棋AIで最初に大きな成功をしたAlphaZeroというアルゴリズムの概要を紹介する.

また,今回の発表はSilver et al.(2017)と布留川(2019)の内容を紹介する形をとっている.
白井 暉乃
(南研 修士1年)
2021/11/10実効再生産数の推定昨年から現在まで、新型コロナウイルスが各国各地で猛威を振るっていた。

近頃のワクチン接種の広まりにより感染症が収束に向かっているように見えるが、この感染の拡大、収束を表す指標として再生算数というものがある。

これは一人の感染者が二次感染を引き起こす期待数であり、その数値指標の大小により感染が収束へ向かっているか、また広がっているかを知る事ができる。

特に再生産数の中でも実効再生産数というものは時点ごとに推定する事が可能で、なおかつワクチン接種などの施策による効果も加味された値として広くメディアなどでも扱われている。

さまざまなモデルに基づいての推定が可能な指標であるが、今回は感染期間を固定したモデル、感染してからの期間を考慮したモデルによる数理的側面からの推定手法について紹介する。


主な参考文献:

・Hiroshi Nishiura and Gerardo Chowell, ”The Effective Reproduction Number as a Prelude to Statistical Estimation of Time-Dependent Epidemic Trends”, Mathematical and Statistical Estimation Approaches in Epidemiology, (2009)

・ 土谷隆,新型コロナウイルス感染症の広がりに関する一考察,オペレーションズリサーチ,(2020,2)[28~41]
松中 優樹
(白石研修士1年)
2021/11/10t事前分布を用いたロジスティック回帰ベイズロジスティック回帰は典型的な回帰分析とは違い、回帰係数に事前分布を設定して推定値を得ます。推定値には事後分布のモードや事後平均などがあり、その計算にはEMアルゴリズムやMCMCを用いる。
また事前分布の選択に関しては様々なものが提案されてきた。本発表ではt分布を事前分布として選択することで既存の手法と比較した以下の二つの論文Gelman et al. (2008),Ghosh et al.(2018)を紹介する形をとる。

主な参考文献:
・Gelman, A., Jakulin, A., Pittau, M., and Su, Y. (2008). “A Weakly Informative Default Prior Distribution for Logistic and Other Regression Models.” The Annals of Applied Statistics, 2(4): 1360–1383.
・Joyee Ghosh, Yingbo Li, Robin Mitra "On the Use of Cauchy Prior Distributions for Bayesian Logistic Regression," Bayesian Analysis, Bayesian Anal. 13(2), 359-383, June 2018.
山下亮
(小林研修士1年)
2021/11/17Adaptive Index Modelについて疾病に対するリスクについて、予測指標を用いた階級化を行う場合がある。データから適応的に予測指標を構築する手順が提案されている。

今回の発表では、Tian & Tibshirani. (2011). の内容を紹介する。



参考文献:

・Tian & Tibshirani. (2011). Adaptive index models for marker-based risk stratification. Biostatistics 12, 1, p68-86.
林田 理香
(林研修士1年)
2021/11/24QAdatasetの体系的整理と分類QA(Question Answering)は自然言語処理のタスクの1つであり、昨今盛り上がりを見せている。それとともにdatasetも爆発的に増加している。今回の発表では、Rogers et al.(2021)のsurveyをベースとし、QAdatasetの体系的整理と分類の仕方を紹介するとともに、datasetを整理・分類する意義をお伝えする。



主要な参考文献:

・“QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension”(2021) Anna Rogers, Matt Gardner, Isabelle Augenstein  https://arxiv.org/abs/2107.12708
田保 健士郎
(小林研修士2年)
2021/12/01Deep Gaussian ProcessesBayesian Machine Learning is a discipline that provides plenty of models, using the Bayes Theorem as its main core.
Considering a statistical model, a dataset, and a prior, the focus is put on the determination of a posterior distribution to make predictions.
However, since models and data structures are getting much more complex, it is sometimes a challenge to compute the posterior distribution.
Popular frameworks to cope with intractability are Markov-Chain-Monte-Carlo (MCMC), which consists of sampling the posterior distribution with Markov Chains, and Variational Inference that aims to find an approximation of a posterior distribution maximizing a quantity called Evidence Lower Bound (ELBO).

In this seminar, I will present an application of Variational Inference on Deep Gaussian Processes (DGPs), a structure that is similar to Neural Networks, but layers are linked to each other with Gaussian Processes. DGPs are supposed to be more flexible to abrupt variations of a dataset than classic GPs when used as a regressor.
Nevertheless, the complexity of its structure requires the usage of a Doubly Stochastic Variational Inference to optimize hyperparameters of the Process as well as the construction of an approximate posterior distribution itself.

References:
[1] Hugh Salimbeni and Marc Deisenroth (2017), Doubly Stochastic Variational Inference for Deep Gaussian Processes.
[2] Felix Leibfried and Vincent Dutordoir and ST John and Nicolas Durrande (2021), A Tutorial on Sparse Gaussian Processes and Variational Inference.
ポッロ、ピエールジャン (POLLOT Pierre-Jean)
(小林研修士2年)
2021/12/01ランダムフォレストを用いた時系列分位点回帰分位点回帰モデルはKoenker and Bassett (1978)によって提案されたモデルであり,金融分野でリスク尺度のモデリングなどに用いられている.

Meinshausen (2006)はランダムフォレストを用いた(時系列でない)分位点回帰として,Quantile regression forests (QRF)を提案し,推定量の一致性を示した.
また,Athey et al. (2019) は分位点回帰モデルを含むより広いクラスのモデルの推定方法として,Generalized random forests (GRF)を提案し,推定量の一致性,漸近正規性を示した.
ランダムフォレストの漸近理論は,これまでいずれもi.i.d.確率変数に対して発展してきたが,近年ではDavis and Nielsen (2020)のように,時系列データに対するランダムフォレストについて一致性を示す研究も進んでいる.

そこで本発表では,これらの先行文献のアイデアを組み合わせ,ランダムフォレストを用いた時系列分位点回帰モデルの推定方法と推定量の一致性について説明する.

・主な参考文献:
[1] Athey, S., Tibshirani, J., & Wager, S. (2019). Generalized random forests. Annals of Statistics, 47(2), 1148-1178.
[2] Davis, R. A., & Nielsen, M. S. (2020). Modeling of time series using random forests: Theoretical developments. Electronic Journal of Statistics, 14(2), 3644-3671.
渋木 涼太郎
(白石研修士2年)
2021/12/08第I/II相臨床試験における用量選択のためのベイズ最適化デザインとその比較医薬品の臨床開発は4つの逐次的な相(第I相-第Ⅳ相)から成り立つ。第I相試験では最大耐用量を特定すること、つまり安全性や耐用性を確認することが目的である。第II相試験では第I相の結果を受け安全性に加え、有効性などの検証を行うのが目的である。
近年、開発過程の迅速化などの観点から第I、II相の間隙を除去した第I/II相臨床試験が注目されている。第I/II相試験において、Takahashi and Suzuki (2020)ではベイズ最適化を用いた用量選択アルゴリズムを提案している。私はそのアルゴリズムにおける効用関数(ベイズ最適化での獲得関数)の設計について、多目的最適化の枠組みからのアプローチを検討している。
本発表の前半では臨床試験における概要とベイズ最適化を用いた用量選択アルゴリズムを紹介する。後半では多目的最適化の枠組みを説明し、その観点から効用関数についてシミュレーションを交えて議論する。


・主な参考文献:
[1] Lin R, Yin G. STEIN, (2017). A simple toxicity and efficacy interval design for seamless phase I/II clinical trials. Stat Med.
[2] Ami Takahashi, Taiji Suzuki (2020). Bayesian optimization design for dose-finding based on toxicity and efficacy outcomes in phase I/II clinical trials. Pharmaceutical Statistics. 1-18
廣瀬 翔
(林研修士2年)
2021/12/08isometric log ratio を用いた Isotemporal Substitution Model による 「ふじさわプラス・テン」データ解析身体活動(身体を動かすこと)と認知機能ないし認知症との関係については,複数の長期的な観察研究の結果から関連があるといわれている(Blondell,2014).しかし,実際にどのような身体活動が効果的なのかはまだよくわかっていない.

そこで本発表では,神奈川県藤沢市で慶應義塾大学大学院健康マネジメント研究科などが主体となって行われた,「ふじさわプラス・テン」プロジェクト(10分でも長く身体を動かそう)のデータを用いて,座位時間を中高強度身体活動に置き換えたときなどの運動機能ないし認知機能の予測変化量についてisometric log ratio を用いた Isotemporal Substitution Model(Dumuid et al.2019)によって解析し,その結果について紹介する.


・主な参考文献:
[1] Dorothea Dumuid, Zeljko Pedisic, Tyman Everleigh Stanford, Josep-Antoni Martin-Fernandez, Karel Hron, Carol A Maher, Lucy K Lewis and Timothy Olds, 2017, "The compositional isotemporal substitution model: A method for estimating changes in a health outcome for reallocation of time between sleep, physical activity and sedentary behaviour", Statistical Methods in Medical Research, Vol. 28(3), pp. 846–857
[2] Egozcue, J.J. and V. Pawlowsky-Glahn, 2005, "Groups of parts and their balances in compositional data analysis", Mathematical Geology, 37, 7, pp. 799-832
三尾 育摩
(南研修士2年)
2021/12/15生存時間データに対するRMSTの擬似値を用いたサブグループ抽出法医学分野において, 平均値よりも極端に大きな(あるいは小さな)値を持つ部分集合を特定したい場合があり, そのような場合にサブグループ抽出法が用いられる. 生存時間データに対するサブグループ抽出法は大きく分けて2つあり, 樹木モデルに基づく方法とPatient Rule Indction Method (PRIM)に基づくものがある. 一方で, 既存の生存時間データに対するサブグループ抽出法は, 比例ハザード性を要求するものが多く, 万ほか(2020)は, 比例ハザード性を要求しない, RMSTに基づく生存時間PRIM (Subgroup Identification Survival Patient Rule Indction Method; SI-SPRIM) を提案した. 私は, SI-SPRIMの統計量の計算において, RMSTの擬似値を用いることを検討している.

本発表の前半では, Friedman and Fisher (1999)が提案した, PRIMについて紹介する. 後半では, 万ほか(2020) が提案したSI-SPRIMを紹介し, SI-SPRIMにおける統計量にAndersen et al. (2004) によるRMSTの擬似値を用いることを提案する.



・主な参考文献:

[1] 万可, 谷岡健資, 南弘征, 下川敏雄, and 水田正弘. (2020). 治療効果が顕著なサブグループを抽出するため の境界内平均生存時間に基づく生存時間 Bump Hunting 法の開発. 計算機統計学, 33(1), 1-28.

[2] Andersen, Per Kragh, Mette Gerster Hansen, and John P. Klein. Regression analysis of restricted mean survival time based on pseudo-observations. Lifetime data analysis 10.4 (2004): 335-350.
本吉 秀輝
(林研修士2年)
2021/12/15診断検査の評価指標を 評価する指標 iCDF の定式化本発表では対象を陰性か陽性か判別するような診断検査の精度を測る指標について考察する.指標によっては、発症率(全体のうち真に陽性となる確率)が小さい場合などに、診断精度を過大評価してしまう恐れがある.Brown (2018) では、各指標の挙動を比較するため iCDF (inverse Cumulative Distribution Function) が提案されたが、数値実験により構成するに留まっているため、これらを定式化する.iCDF を定式化するにあたって、Brown (2018) でも述べられている、iCDF の構成においてさらに調整が必要と思われる点について、考察する.

・参考文献
[1] J.B. Brown (2018): "Classifiers and their Metrics Quantified", Molecular Informatics, 10.1002/minf.201700127, 37, 1-2
伊藤 健太
(林研修士2年)
2021/12/22CFRによる繰り返し不完全情報ゲームに対する近似的な最適戦略CFR (Counterfactual Regret Minimization) はZinkevich (2007)が提案した、最適戦略の計算が難しい不完全情報ゲームを解くことができる手法である。主な研究対象としてポーカーが挙げられるが、最近の研究ではサイバーセキュリティ[2]やアメリカンフットボール[3]に応用された事例もある。これらの研究は一回のゲームを解析対象としており、同一のゲームを何度も行う繰り返しゲームには対応していないが、得られた戦略を繰り返し利用することで長期的な最適戦略とみなしている。

そこで本発表ではCFRを用いて繰り返しゲームに対する正しい最適戦略を導出する手法を提案する。また、関数の近似や繰り返しゲームの性質を利用することで計算量を抑える工夫についても紹介する。



・主な参考文献:

[1] M. Zinkevich, M. Johanson, M. H. Bowling, C. Piccione, “Regret minimization in games with incomplete information”, In Proceedings of the Annual Conference on Neural Information Processing Systems (NIPS), pp. 1729–1736, 2007.

[2] A. Keith, D. Ahner, "Counterfactual regret minimization for integrated cyber and air defense resource allocation", European Journal of Operational Research Volume 292, Pages 95-107, 2021.

[3] Y. Shimano, A. Iwasaki, K. Ohkawara, "反実仮想後悔最小化による アメリカンフットボールにおけるオフェンス戦略の均衡推定", 人工知能学会全国大会論文集 JSAI2021(0), 2I1GS5a04-2I1GS5a04, 2021.
保母 将希
(小林研修士2年)
2021/12/22スプライン曲線を用いた非線形混合効果モデル経時測定データを扱う関数データ解析(Functional Data Analysis)という分野では, 観測されるデータの値は, その背後にある個体ごとの関数の値であると考える.
関数の推定と関数集合に対する分析(レジストレーションなど)を分けて行う2段階法の他に, Cole et al. (2010)が提案したSITARモデルのようにこれらを一度に行う1段階法が知られている.
本発表では1段階法として, スプライン曲線を用いた非線形混合効果モデルを提案し, 大豆の成長データに対する解析を行う.


主な参考文献
[1]Cole, Tim J ; Donaldson, Malcolm D C ; Ben-Shlomo, Yoav (2010), “SITAR—a useful instrument for growth curve analysis”, OXFORD: Oxford University Press, International journal of epidemiology, 2010-12, Vol.39 (6), p.1558-1566
[2] Beath KJ. Infant growth modelling using a shape invariant
model with random effects. Stat Med 2007;26:2547–64.
[3]Pinheiro, J. C. and Bates, D. M. (2000), Mixed-Effects Models in S and S-PLUS, Springer, New York.
木野 洸平
(南研修士2年)
2022/1/12無作為化比較試験における半教師あり学習を用いたリスク差の推定臨床試験における無作為化比較試験では、治験薬の効果は既存薬やプラセボとの差異を比較することによって評価される。この試験において、評価すべきアウトカムが観察されないことがある。これをアウトカムが欠測しているという。本発表では、アウトカムが欠測している場合のリスク差の推定に注目する。Mukaka et al. (2016) は、complete-case解析 (CC解析) と多重代入法を用いたリスク差の推定結果を比較した。また、Van Lancker et al. (2020) は、アウトカム欠測症例を活用したリスク差推定法を提案した。この手法は、教師あり学習に基づいてアウトカムの予測モデルを構築し、欠測値を予測値によって補完する手法である。本発表では、Van Lancker et al. (2020) の手法に基づき、半教師あり学習による予測モデルの構築を提案する。ここで、半教師あり学習の手法にはKawano (2012) を用いた。さらに、提案手法とCC解析、多重代入法、Van Lancker et al. (2020) の手法との性能を比較する。




・主な参考文献:

[1] Mukaka, M., White, S. A., Terlouw, D. J., Mwapasa, V., Kalilani-Phiri, L., & Faragher, E. B. (2016). Is using multiple imputation better than complete case analysis for estimating a prevalence (risk) difference in randomized controlled trials when binary outcome observations are missing?. Trials, 17(1), 1-12.

[2] Van Lancker, K., Vandebosch, A., & Vansteelandt, S. (2020). Improving interim decisions in randomized trials by exploiting information on short‐term endpoints and prognostic baseline covariates. Pharmaceutical statistics, 19(5), 583-601.

[3] Kawano. (2012). Semi-supervised logistic discrimination via labeled data and unlabeled data from different sampling distributions. arXiv preprint arXiv:1108.5244.
吉牟田 迪弥
(林研修士2年)

2021年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2021/04/07Recursive Partitioningによる異質性を考慮した因果推論従来のPotential outcome frameworkをもとにした因果効果の推定では、交絡変数による影響を取り除くために傾向スコアなどをデータからパラメトリックモデルを用いて推定した上で、推定量を計算するというアプローチが主流の1つであった。
しかし近年では、機械学習のアプローチを融合した因果推論の手法が発展し、様々な展開を見せている。その中でも特に、random forest及び、それを異質性を考慮した因果効果(heterogeneous treatment effect, HTE)した手法であるcausal forestによって構成される推定量が漸近正規性を有することを示したWager and Athey (2019) の結果は、random forestから得られた結果に対して統計的推論が可能であることを示した画期的なものであった。
本発表では、特にこの結果の基礎となるPartitioningに着目し、特徴空間を分割することでHTEを推定する方法について議論を行う。
中村 知繁
(南研研究員)
2021/04/14Bayesian-driven indirect measurement for a discontinuous and time-expensive forward modelDuring my previous internship in a research institute in Geology in France,
I dealt with determining soil attributes through micro-seismic waves.
The data were gathered at several sensors and by using a Bayesian Inference on it, we could get an estimation of the soil properties with a certain degree of accurateness.
As a matter of fact, the used forward model, namely Eikonal Equation, linked soil properties and data at sensors but had two major concerns: it was time-expensive and exhibited an discontinuous response. To perform properly a MCMC sampling with a significative number of samples,we used Gaussian Process surrogates to substitute the forward model with a view to gaining time. However, the discontinous behavior had led to impreciseness of the surrogate,and unless the measurement errors were significantly higher than the surrogate errors, which had been chosen to be the case in that experience, the Bayesian Inference will tend to be inefficient for estimation.
This leads to my current interrogation, given such a forward model (time-expensive and discontinous behavior), can we determine Bayesian Techniques providing better estimation a posteriori?
Starting from the classic technique briefly described above, we will compare it to two other strategies:
first, we use a classic (and possibly imprecise) MCMC sampling and re-launch a second one on the high density area after reconstructing a surrogate in this smaller zone.
Second, using Bayesian Optimization, minimize a cost function considered as a "Black-box" by training step-by-step a surrogate (esp. Gaussian Process) on high potential areas, where the minimum is more likely to be at a posteriori.
ポッロ,ピエール ジャン エリック シャルル
(小林研M1)
2021/04/21Tail concordance measures: A fair assessment of tail dependenceIn this talk we propose a new class of measures of bivariate tail dependence called tail concordance measures (TCMs), which is defined as the limit of a measure of concordance of the underlying copula restricted to the tail region of interest. TCMs capture the extremal relationship between random variables not only along the diagonal but also along all angles weighted by a tail generating measure. Axioms of tail dependence measures are introduced, and TCMs are shown to characterize linear tail dependence measures. The infimum and supremum of TCMs over all generating measures are considered to investigate the issue of under- and overestimation of the degree of extreme co-movements. The infimum is shown to be attained by the classical tail dependence coefficient, and thus the classical notion always underestimates the degree of tail dependence. A formula for the supremum TCM is derived and shown to overestimate the degree of extreme co-movements. Estimators of the proposed measures are studied, and their performance is demonstrated in numerical experiments. For a fair assessment of tail dependence and stability of the estimation under small sample sizes, TCMs weighted over all angles are suggested, with tail Spearman's rho and tail Gini's gamma being interesting novel special cases of TCMs.小池 孝明
(訪問助教)
2021/04/28企業のデータサイエンス+α企業におけるデータサイエンスは多岐に渡る。一般的な統計学に加えて、数理モデルを活用したシミュレーション、また機械学習や深層学習を用いたビッグデータ解析など幅広い。企業で求められるデータサイエンスは広く浅くがベースになるが、既存の技術を組み合わせたり、視点を変えて応用利用したり、柔軟に技術を適用する必要がある。企業におけるデータサイエンス事例として、テキストデータに対するConvolutional Neural Network (CNN) を適用した事例と、近年様々な開発が進んでいるウェアラブル端末で収集した生体情報データ(例:睡眠時間、心拍数)の欠測パターンからの行動リズムに関する考察をした事例を紹介する。
また、+αとして、現在興味を持っている「バラツキ及びバイアスの大きいデータ」に対する導入検討として実施したSITARモデルについて紹介し、生体情報データに適用した結果も共有する。
木口 亮
(南研博士課程)
2021/05/12質問応答システムの過去と現在ークイズAIの動向とともに2021年3月19日(金)に言語処理学会第27回年次大会(NLP2021)内のワークショップとして「AI王~クイズAI日本一決定戦」が開かれた。本発表では、そのワークショップの内容に加え、クイズAIとも密接に関わる研究領域・質問応答システム研究に関して略史と最新技術の解説を行う。

質問応答システムは1960年代からクローズドメインにおいて実現され始め、現在ではオープンドメインでの精度向上に向けた研究が盛んに行われている。古典的な手法として論理検索モデル、ベクトル空間モデル、確率的検索モデルなどが存在しているが、近年のオープンドメイン質問応答ではRetriever-Readerアプロ―チと呼ばれるものが主流となっており、そのアプローチの概要説明とそこで使われる指標であるTF-IDFやBM25を紹介する。加えて、ニューラルネットワークを組み込んだ手法が多く提案されており、その中でもよく使われているDPR(Dense Passage Retriever)を中心に最新手法をいくつか紹介する。なお、本発表にはオリジナルな要素は含まれず、サーベイ発表の形態をとる。
田保 健士郎
(小林研M2)
2021/05/19欠測データに対して、Generative Adversarial Imputation Nets を用いた欠測値の補完方法についてデータの一部が観測できていないデータを欠測データという。欠測を無視して解析を行うと、大きなバイアスが生じる可能性があるという問題があるため、欠測データへの適切な対処が必要不可欠である。欠測データへの対処法の1つとして、データを補完する多重代入法がある。多重代入法では、一般に欠測のある変数を含めた全ての変数の同時分布のモデルを仮定するが、そのモデル仮定は難しい場合が多い。また、同時分布の仮定を行わず1変量の条件付き分布から逐次的に欠測値を発生させる方法もあるが、その条件付き分布が真の同時分布と互換性がなければ推定結果にバイアスが生じてしまう。そこで、同時分布に関する仮定を必要としない、多重代入法とGenerative Adversarial Nets (GAN)を組み合わせたGenerative Adversarial Imputation Nets (GAIN)を紹介する。本発表では、前半に欠測データの諸概念について説明する。後半でYoon et al. (2018)で提案されているGAINの仕組みや理論的結果、アルゴリズムについて説明する。吉牟田 迪弥
(林研M2)
2021/05/26生存時間データに対する restricted mean survival time とその回帰モデルのパラメータ推定について生存時間解析において, 共変量の生存時間への影響を考慮する際, Cox比例ハザードモデルが主に用いられる. しかし, Cox比例ハザードモデルでは比例ハザード性という強い仮定があり, 実際の解析においては比例ハザード性が成り立たない場面が多く, この仮定を要しない回帰モデルが研究されている. Andersen et al. (2004)は, 境界内平均生存時間(restricted mean survival time; RMST)に対する回帰モデルを提案し, 擬似値を観測とするパラメータの推定手法を提案した. また, Huang et al. (2006)は, restricted mean survival time に対する回帰モデルにおいて, 打ち切り時間の分布により重みづけられた推定方程式によるパラメータの推定手法を提案した. 本発表では, まず前半で生存時間データについて説明し, 生存関数に関する指標である restricted mean survival time について説明する. 後半で restricted mean survival time に対する回帰モデルについて, Andersen et al. (2004)の, 擬似値(pseudo-observation)を用いたパラメータの推定手法と, Huang et al. (2006)の, 打ち切り時間の分布により重みづけられた推定方程式を用いたパラメータの推定手法を紹介する.本吉 秀輝
(林研M2)
2021/06/02Counterfactual Regret Minimization による不完全情報ゲームAI数年前、将棋や囲碁において強力なAIが開発され話題になった。これらのゲームは完全情報ゲームというクラスに属しており、強化学習によるAIが高い性能を発揮している。一方でポーカーをはじめとする不完全情報ゲームにおいては強化学習によるAIは理論的にも実験的にも性能が低くなることが知られている。そこで本発表では、不完全情報ゲームに対するAIの学習手法として主流となっている Counterfactual Regret Minimization の基礎理論とこれを拡張した Monte Carlo CFR について、 Zinkevich et al. (2007) の示した結果やKuhn pokerと呼ばれるゲームに対するシミュレーションを行った結果を紹介する。保母 将希
(小林研M2)
2021/06/09Isotemporal Substitution Modelに基づく組成データ解析人々の1日の活動強度ごとの時間使用と認知機能や運動機能などに関するデータをここでは,運動疫学データと呼ぶ.運動疫学データの特徴として,1日が24時間であることから変数の総和が一定になるというものがある.このような変数の総和が一定になるデータのことを組成データと呼び,運動疫学データも組成データの枠組みで考えることができる.本発表では,組成データの解析法として組成のまま扱うSimple Isotemporal Substitution (以下Simple IS)モデル(Willett et al.(1986))と,一旦組成を実空間へと写して解析を行うisometric log ratio(以下ilr)を用いたISモデルを紹介する.また,ilrを用いたISモデルに必要なAichison幾何学(Aichison et al.(1982,1986))についても紹介する.三尾 育摩
(南研M2)
2021/06/16臨床試験における毒性および有効性に基づく用量選択のためのベイズ最適化デザイン臨床試験は、厳正に規定された条件の下で試験薬または臨床的処置を検討するためのヒトを対象とした研究である。臨床試験における薬の用量選択では、毒性(副作用)と有効性について考える必要がある。一般的に、薬の用量が増えるに従い毒性の発現確率は単調に増加する。一方、有効性は用量増加に伴って、必ずしも増加することはなく、頭打ちや減少傾向を示すことがある。既存のパラメトリックな手法では、非単調性を仮定することができない。そこで近年ではノンパラメトリックな試験デザインを用いて最適な用量を選択する手法が注目されている。本発表では前半にベイズ最適化の概要を説明する。後半にTakahashi and Suzuki (2020)で提案されているベイズ最適化の用量選択アルゴリズムとシミュレーション結果の紹介をする。廣瀬 翔
(林研M2)
2021/06/23非線形混合効果モデルの尤度関数近似アルゴリズム関数データ解析において成長データなどを扱う場合,個体ごとに異なる成長をモデリングする方法としてCole et al.(2010)によるSITARモデルなどが知られている. 今発表ではそのようなモデルのパラメータ推定方法と関連して, (関数ではない)非線形混合効果モデルにおいて最尤法によりパラメータ推定を行う場合に生じる,モデル関数の非線形性のためデータの周辺尤度の積分計算が解析的に行えないという問題を取り上げ, Pinheiro & Bates(1995)による周辺密度の近似計算方法を紹介し比較を行う.木野 洸平
(南研M2)
2021/06/30ランダムフォレストを用いた分位点回帰分位点回帰モデルはKoenker and Bassett (1978)によって提案されたモデルであり,金融分野でリスク尺度のモデリングなどに用いられている.Meinshausen (2006)はランダムフォレストを用いた(時系列でない)分位点回帰として,Quantile regression forests (QRF)を提案し,推定量の一致性を示した.
また,Athey et al. (2019) は分位点回帰モデルを含むより広いクラスのモデルの推定方法として,Generalized random forests (GRF)を提案し,推定量の一致性,漸近正規性を示した.
ランダムフォレストの漸近理論は,これまでいずれもi.i.d.確率変数に対して発展してきたが,近年ではDavis and Nielsen (2020)のように,時系列データに対するランダムフォレストについて一致性を示す研究も進んでいる.
本発表では,これらの先行文献のランダムフォレストの違いについて説明する.
渋木 涼太郎
(白石研M2)

2020年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2020/10/7Double/debiased Machine Learning and Neyman orthogonality本発表では、近年因果推論において注目を集めているdouble/debiased machine learning(DML: Chernozhukov, 2018)を紹介する。DMLは、高次元のnuisance parameter ηが存在するもとで、興味のある低次元のパラメータθに対してroot-N consistentな推定量を構成する手法である。このような問題には、例えば、partially linear modelや、一般化モーメント法などが含まれる。
一般的に、機械学習を用いてnuisance parameterを推定した場合、推定された関数の収束レートはroot-Nよりも遅いため、nuisance parameterの推定値をplug-inした方程式から得られるθの推定量はroot-Nよりも遅い収束レートを持つことになる。またnuisance parameter を推定する際に正則化を用いた場合は、θはバイアスを持った推定量になる。
発表では、このような問題がNeyman Orthogonalityを満たすようなスコアを用いてパラメータθを推定することで回避できることを示し、DMLの具体的な推定法について紹介する。
中村 知繁
(南研研究員)
2020/10/14Missing At Randomのデータに対する平均処置効果のDoubly Robust推定
(Title: Doubly Robust Estimation for Average Treatment Effect with Data Missing at Random)
結果変数に欠測があり,その欠測が観測値のみによる (Missing At Random, MAR)場合に母集団平均を推定する方法としてScharfstein et al. (1999)は,結果変数の平均構造か,共変量を条件付けたときに欠測する確率=傾向スコアのいずれかを正しく特定できれば一致推定量となり,両方を正しく特定できればセミパラメトリック漸近有効推定量である,Doubly Robust (DR)推定量を提案した.

私はこれまで結果変数に欠測があり,その欠測が欠測値自身にも依る (Missing Not At Random, MNAR)場合における因果効果の推定法を提案してきた.現在,この方法の課題点である
・欠測モデルの誤特定時の不安定さ
・他の推定法より分散が大きいことがある
といった点の解決のため,DR推定法の適用を試みている.

本発表ではその過程として,結果変数にMARの欠測がある場合における平均処置効果のDR推定法を,Scharfstein et al. (1999)によるDR推定量やセミパラメトリックモデルについての紹介も交えて報告する.
米山 慎太郎
(南研D2)
2020/10/21①CAViaRモデルを用いた外れ値検出分位点回帰モデルはKoenker and Bassett (1978)によって提案されたモデルであり,ロバスト性や分布の裾を分析できるという点から,現在でも金融・保険の分野でリスク尺度のモデリングに非常によく用いられている.分位点自己回帰モデルの中で最も有名なモデルの1つにEngle and Manganelli (2004)によって提案されたCAViaRモデルがある.
Klochkov et al.(2019)は,変化点を含む非定常時系列データに対して,局所的に多変量CAViaRモデルを当てはめる研究を行った.この研究を参考に,私は分位点回帰のロバスト性を活かし,外れ値を含む時系列データに対してCAViaRモデルを当てはめるという研究を行っている.

本発表では,まずCAViaRモデルについてのレビューを行い,回帰係数パラメータの漸近的な挙動についてのシミュレーションを行う.続いてLevel outlier という外れ値を含む場合のCAViaRモデルを構築し,外れ値検出の手法について紹介する.
渋木 涼太郎
(白石研M1)
2020/10/21②不完全情報ゲームに用いられる強化学習の概要数年前、将棋AIを中心に非常に強いAIが開発されて話題になった。将棋は確定完全情報ゲームというクラスに属するため解析が比較的容易であることが知られており、現在はあまり研究が行われていない。一方で不完全情報ゲームに対するAIについては近年研究が盛んにおこなわれている。そこで現在の不完全ゲームのAIの研究について紹介し、最も注目を浴びている強化学習の概要について説明を行う。保母 将希
(小林研M1)
2020/10/28①生存時間データに対する restricted mean survival time とその回帰モデルについて生存時間解析において, 共変量の生存時間への影響を考慮する際, Cox回帰モデルが主に用いられる. しかし, Cox回帰モデルでは比例ハザード性という強い仮定があり, 実際の解析においては比例ハザード性が成り立たない場面が多く, この仮定を要しない回帰モデルが研究されている. Andersen et al. (2004)は, 境界内平均生存時間(restricted mean survival time; RMST)に対する回帰モデルとCox回帰モデルそれぞれを用いて解析を行い, 両者を比較するという研究を行った. 本発表では, まず前半で生存時間データについて説明し, 生存関数に関する指標である restricted mean survival time について説明する. 後半でAndersen et al. (2004)の, 擬似値(pseudo-observation)を用いた restricted mean survival time に対する回帰モデルを紹介する.本吉 秀輝
(林研M1)
2020/10/28②ノンコンプライアンスが存在する場合における因果効果の推定ある処置の因果効果を調べるために、しばしばRCT(ランダム化比較試験)が行われる。この際に被検者全員が処置の割付けに従って行動をすれば比較的容易に因果効果を推論することが可能である。しかし、現実問題として処置の割付けに従わないような個体も存在する。このようなノンコンプライアンスが存在する状況において、ノンコンプライアンスを無視して解析を行うとバイアスが生じることが知られている。本発表では、ノンコンプライアンスが存在する場合における因果効果の推論方法として、Neyman-style moment-based approachとmodel-based approachの2つを紹介する。三尾 育摩
(南研M1)
2020/11/4①Judea Pearl流の因果推論―介入による因果構造の分析長年、統計学者ひいては哲学者たちの考察対象とされてきた因果律。今回の発表では、その因果律の扱われ方を、ベイジアンネットワークの名付け親で人工知能研究・因果推論研究の大家であるJudea Pearlを中心に据えながら歴史的観点から少し見ていく。そして、Judea Pearlによる因果推論の一部分を紹介するとともに、私の研究の展望を述べる。田保 健士郎
(小林研M1)
2020/11/4②連鎖式に基づく欠測値の多重代入法と互換性についてデータの一部が観測できていないデータを欠測データという。欠測を無視して解析を行うと、大きなバイアスが生じる可能性があるという問題があるため、欠測データへの適切な対処が必要不可欠である。欠測データへの対処法の1つとして、データを補完する完全条件付き分布の指定 (full conditional specification; FCS) がある。また、その代表的なアルゴリズムに連鎖式による多重代入法 (multiple imputation by chained equation; MICE) がある。完全条件付き分布の指定は近年よく利用されているが、それで使う条件付き分布が真の同時分布と互換性がなければ推定結果にバイアスが生じてしまう。したがって、互換性があるかどうかを確認しなければならない。本発表では、前半に欠測データについて説明し、欠測データの解析法について説明する。後半でHobert and Casella (1998) で用いられている互換性と関数的互換性の定義について説明する。そして、その関数的互換性を用いて互換性があるための必要十分条件について説明する。吉牟田 迪弥
(林研M1)
2020/11/11①ガウス過程に基づくベイズ最適化についてベイズ最適化は、形状の分からない(ブラックボックス)関数の最適化に用いられる手法の 1 つである。最適化とは目的関数の最大値(または最小値)をとる入力の最適解を得ることである。少ない回数で最適化を行うために、探索と活用という概念を用いる。ベイズ最適化では探索と活用を組み合わせた獲得関数と呼ばれる指標を導入し、獲得関数が最大となる点を次の入力として選択する。この獲得関数の設計がベイズ最適化の重要な部分となる。

 本発表ではまず、ベイズ最適化の概要を説明する。その後ベイズ最適化で道具として用いられるガウス過程回帰について説明し、最後に獲得関数について紹介する。
廣瀬 翔
(林研M1)
2020/11/11②関数データ解析とレジストレーション本発表では, 関数データ解析(Functional Data Analysis)の紹介を行う. 関数データ解析においては関数データ間の位相の変動が大きな障害となることがある. これを軽減するための手法であるレジストレーション(registration, 位置合わせ)について説明する.木野 洸平
(南研M1)
2020/11/18Hawkes過程の離散近似による推定と最尤法の比較 および今後の展望多変量Hawkes過程はある時刻の強度が過去のイベント発生時刻に依存する点過程である.Hawkes過程において,過去のイベントが及ぼす影響の時間変化を表す関数をカーネル関数と呼ぶ.従来はカーネル関数を指数関数などを用いてパラメトライズし,対数尤度の最大化でカーネル関数の推定を行う最尤法が広く使われてきた.それに対して,Kirchner (2017)はHawkes過程の離散観測をINAR過程に近似できることを主張し,INAR過程の推定を介してノンパラメトリックにカーネル関数を推定する手法(以後,Kirchnerの手法と呼ぶ)を提案した.本発表では従来の最尤法とKirchnerの手法をシミュレーションによって比較する.その後,今後研究で扱うマーク付き多変量Hawkes過程について紹介し,COVID-19のデータを用いた解析を行う.茅根 脩司
(白石研M2)
2020/11/25自然言語処理における罰則付き条件付き確率場の確率較正自然言語処理における罰則付き条件付き確率場の確率較正自然言語処理の分野などでは, 系列ラベリングの問題を解くために条件付き確率場というモデルが用いられることがある. 更に, 学習外のデータに対応できるように罰則項を導入することが多い. 本発表では, この条件付き確率場の推論結果の確率較正(Probability Calibration)について考察する. 系列ラベリングの推論では, 全ての系列の条件付き確率が出力され, その中で尤もらしい系列が推論結果として得られるが, その結果が正解の系列ラベルと一致する確率は, 出力の数値と必ずしも同じではない. このような, 分類モデルから出力される確率と, 出力結果が正解と一致する確率を同じにすることを確率較正と呼ぶ. 今回は, 条件付き確率場の出力結果の確率較正法として、Temperature Scaling とisotonic regressionという手法が利用できることを示す. また, 品詞タグ付けという課題を例に, 各種スコアや較正手法の比較などを行う.酒井 悠斗
(白石研M2)
2020/12/2閾値超過確率を最大化する動的治療レジメ及び極値統計学の適用について近年、医療業界において個別化医療の希求が高まっている。統計的因果推論における動的治療レジメ(Dynamic treatment regimes; DTR)は、多段階の処置がある状況で患者毎に異なる履歴に基づき処置を決定する方策の組であり、個別化医療の実現に役立つ手段のひとつである。
DTRの代表的な推定法はQ学習であり、DTRの推定は最終アウトカムの期待値の最大化問題として定式化される。これに対しLinn et al.(2017)ではDTRの推定を最終アウトカムの閾値超過確率の最大化問題として定式化し、その解法としてThreshold Interactive Q-learning(TIQ-learning)を提案している。通常のQ学習による推定では閾値が変化してもDTRの推定値が変化しないことが確認されている。
TIQ-learningでは閾値超過確率をモデリングするが、これとは異なるアプローチとして極値統計学に基づく方法が考えられる。極値統計学は母集団分布の裾に対する推測理論であり、その手法の一つに閾値超過データのモデリングがある。私は現在DTRの枠組みで得られるデータに対し極値統計学の適用を試みており、それに基づく方策について研究している。
本発表の前半ではDTRの枠組みを説明し、Linn et al.(2017)の手法についてシミュレーションを交えて議論する。後半では極値統計学の枠組みを説明し、今後の展望を述べる。
塚原 悠
(林研M2)
2020/12/9 Generalized INAR(p)モデルのセミパラメトリック推定理論整数に値をとる時系列モデルの代表であるINAR(p)モデルは二項間引き演算子(binomial thinning operator)を用いて定義されるが、本発表ではその間引き演算子に二項分布以外を許すモデル(Generalized INAR(p)モデル)のセミパラメトリック推定を扱う. 今回は理論的な部分に焦点を絞り、推定量が有限次元の最適化により得られること、またその推定量が一致性をもつことを証明する. また、セミパラメトリック推定量の漸近正規性を示すための準備や定理を紹介し、その中で重要な推定方程式のFréchet微分可能性についての考察を述べる. 最後にまとめと今後の展望を述べる.木原 泰斗
(白石研M2)
2020/12/16診断検査の評価指標と生存時間応答への拡張本発表では対象を陰性か陽性か判別するような診断検査の精度を測る指標について考察する。指標としては判別の閾値を決定するものと閾値を動かして考える ROC 解析の2通りを扱う。まず前者の挙動を比較するため、Brown (2018) において提案された iCDF (inverse Cumulative Distribution Function) に注目する。iCDF を用いて、特に不均衡なデータに対してどのような指標が有用であるか考察する。次に、ROC 曲線を定義し、それを生存時間応答へ拡張することを考える。その際、どのような対象に対して判別を行うかが重要であるため、これを考察する。伊藤 健太
(林研M2)
2020/12/23様々な文脈付きバンディットアルゴリズムのシミュレーションによる比較複数のアーム(選択肢)から最も良いアームを逐次的に探す問題であるバンディット問題(Bandit Problem)は、オンラインの広告やNetflixのArtwork(サムネ)の決定などに応用されている。一般的に知られている多腕バンディットアルゴリズム(Multi-Armed Bandit Algorithm)はアームの情報でしかいいアームを決定していないが、文脈付きバンディット問題(Contextual Bandit Algorithm)を用いることでユーザーの情報を含めてアームを選択することが可能になり各ユーザーに対して最適なアームを選択することができる。本発表では、文脈付きバンディットアルゴリズム(Contextual Bandit Algorithm)であるアルゴリズムをいくつかを紹介した後、シミュレーションによる比較をして考察を述べる。最後に今後の展望と課題について述べる。高 遠
(白石研M2)
2021/1/6 多変量自己回帰モデルに対するロバストな推定法について複数の時系列の予測を行う場合や複数の時系列の間の関係に興味がある場合に用いられる最も単純な線形モデルの一つとして, 多変量自己回帰モデル(vector autoregressive model ; VAR)がある. しかし, データに外れ値がある場合それを考慮せずに推定を行うと, 推定値にバイアスが生じるという問題が起こる. そのような問題に対し, 重み付き多変量二乗誤差刈り込み平均最小化法(Croux and Joossens, 2008)や有界MM推定量(Mular and Victor, 2014)などがVARのロバストな推定手法として提案されている. しかしこれらの推定手法には, 最適なチューニングパラメータの値が外れ値の量に大きく依存することやチューニングパラメータの数が多いことなどの短所がある. 一方でFujisawa and Eguchi (2008)によって, 線形回帰モデルに対するガンマダイバージェンスに基づく推定手法が提案され, ある意味ではこの推定手法のみが, 外れ値の割合が十分小さくない場合にも外れ値による推定値のバイアスを小さくする推定手法であることが示された. また, ガンマダイバージェンスに基づく推定手法におけるチューニングパラメータの個数は一つであり, その最適値は外れ値の量に影響を受けにくい. さらに, 時系列モデルに対するダイバージェンスに基づいた推定に関する先行研究としてKang and Lee (2014)があり, ポアソン自己回帰モデルに対するベキ密度ダイバージェンスに基づいた推定手法が提案されている. 本発表では, ガンマダイバージェンスに基づく推定手法をVARの推定に適用した場合のアルゴリズムと, それを用いて行ったシミュレーションの結果について述べる. 最後に今後の展望として, VARのスパース推定及びロバストかつスパースな推定についても触れる.山田 一輝
(林研M2)

2020年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2020/4/29全体顔合わせなし
2020/5/6調査観察研究における統計的推測での課題とその解決法についての概要調査観察研究において統計的推測を行う場合,様々な問題に直面する.調査観察研究で処置の効果を推定する場合,処置群と対照群の単純な差は両群の共変量分布の違いにも由来するとも考えられるため,共変量分布を調整する必要がある.
また,調査観察研究により得られたデータには欠測がある場合も多く,適切に統計的推測を行うにはその調整も行わなければならない.
さらに,近年の情報技術の発展でますます身近になっている,調査観察研究の一つであるアンケート調査では,自分を社会的に良く見せようとする社会的望ましさのバイアスなど,得られたデータ自体のバイアスや精度についても考える必要がある.

本発表では,まず統計的因果推論や欠測データの調整の概要を説明する.次に,発表者のこれまでの研究結果である,Missing Not At Random (MNAR)と呼ばれる欠測がある場合における処置効果の推定法をについて述べる.最後に,これからの研究課題として検討している,アンケート調査で得られたデータに対する問題点を述べる.
米山 慎太郎
(南研D2)
2020/5/20多変量ホークス過程を用いた日本国内におけるCOVID-19の感染波及構造の推定および考察2020年に入りCOVID-19(新型コロナウイルス)による肺炎が流行し,世界中で様々な影響を与えている.日本においてもCOVID-19は流行し2020年4月7日に東京を含む一部地域に緊急事態宣言が出され,4月16日に全国へと対象が拡大された.それに伴い他県との往来自粛や不要不急の外出自粛が要請された.本セミナーにおいてはCOVID-19の感染波及構造の推定を行うことで,緊急事態宣言前後でどのような変化が生じたのかを考察する.感染波及構造の推定にはホークス過程を用いた.茅根 脩司
(白石研M2)
2020/5/27非定常なバンディット問題について概略今回紹介するバンディット問題はオンライン広告や医療分野など様々な分野に応用されている。通常のバンディット問題では報酬の期待値が不変という仮定の下での方策が考えられていて、報酬が時間によって変動する場合が考慮されていない問題があり非定常報酬におけるバンディット問題を考える必要がある。
本発表では、まずバンディット問題とは何かについて説明する。次に非定常なバンディット問題の概略について述べる。最後に今後の展望について説明する。
高 遠
(白石研M2)
2020/6/3条件付き確率場の確率較正について自然言語処理の分野などでは, 系列ラベリングの問題を解くために条件付き確率場というモデルが用いられることがある. 本発表では, この条件付き確率場の推論結果の確率較正(Probability Calibration)について考察する. 系列ラベリングの推論では, 全ての系列の条件付き確率が出力され, その中で尤もらしい系列が推論結果として得られるが, その結果が正解の系列ラベルと一致する確率は, 出力の数値と必ずしも同じではない. このような, 分類モデルから出力される確率と, 出力結果が正解と一致する確率を同じにすることを確率較正と呼ぶ. 今回は, 条件付き確率場の出力結果の確率較正法のひとつとして, 温度スケーリングという手法を用いる. 品詞タグ付けという課題を例に, 較正前と較正後での比較などを行う.酒井 悠斗
(白石研M2)
2020/6/10統計的因果推論における動的治療レジメの推定法について近年、医療業界において個別化医療の希求が高まっている。統計的因果推論における動的治療レジメ(Dynamic treatment regimes; DTR)は、多段階の処置がある状況で患者毎に異なる情報に基づき処置を決定する方策の組であり、個別化医療の実現に役立つ手段のひとつである。このような多段階の処置がある状況下では、各段階においてそれまでの処置などの履歴をすべて考慮して方策を推定しなければならない。また、推定した得られたDTRは実用上の解釈可能性が高いものが望ましい。本発表ではまず既存の基本的なDTRの推定法を複数紹介する。その後、分類に基づく手法を発展させたZhao et al.(2015)の提案手法と、結果の解釈可能性を重視したZhang et al.(2018)の提案手法を紹介する。塚原 悠
(林研M2)
2020/6/17説明変数と被説明変数に時系列的特徴がある場合の一般化加法モデルについて近年, 時系列予測に関する研究の中でもとくに売上予測に関する研究は多く, そのための手法が数多く提案されている.

本発表では, 売上データの時系列予測に焦点を当てその特徴と先行研究に鑑み, 時系列モデルに回帰分析の要素を加えたモデルを検討する. 具体的には, 説明変数と被説明変数を時系列として扱う回帰モデルの一つであるGAM-PCA-VARモデル(Ispany et al., 2017)を取り上げる. 本モデルは, 一般化加法モデル(generalized additive models; GAM), 主成分分析(principal component analysis ; PCA)および多変量自己回帰(vector autoregressive ; VAR)モデルを組み合わせたものであり, 一般化加法モデルにおける説明変数の多重共線性や時系列的特徴を処理するために提案されたモデルである. また, 今後の研究の展望として一般的な状態空間モデルを用いたノンパラメトリックな予測の手法(Ng et al., 2013)についても少し触れる.
山田 一輝
(林研M2)
2020/6/24Causal subclassification treeによる層別化推定量の構成とその性質層別化推定量はRosenbaum and Rubin (1983)で提案されて以来、平均因果効果(average causal effect, ACE)を推定するための代表的な手法の1つとなっている。しかしながら、層の構成に恣意性が残ることや、層が十分に細かくない場合にはバイアスが生じることが指摘されてきた。
この点に対して、Wang and Zhou(2016)(以降W&Z)では、サンプルサイズNに対して、層の数をある条件を満たすように増やしていくことで、層別化推定量が漸近正規性を持つことを示した。またW&Zではその具体的な方法について可能な限り層を細かく構成すること(Full subclassification)を提案している。しかしながら、このように構成された層の数がW&Zで述べられた条件を満たすかどうかについて確認がなされていない。
本発表では、Decision Treeをベースとして層を構成するためのアルゴリズムであるCausal subclassification treeを提案し、アルゴリズムから生成される層別化推定量がWang and Zhou (2016)で提案された、「層別化推定量が漸近正規性を持つための条件」を満たすことを示す。また、Treeを構成する際に特定のパラメータを固定することで、W&Zで提案された層を構成する方法を含み、その場合には漸近正規性のための条件を満たさないことも示す。最後にシミュレーションを通して、既存手法との比較を行った結果についても示す。
中村 知繁
(南研研究員)
2020/7/8自己回帰的な離散値時系列モデルのセミパラメトリック推定INARMA(p,q)モデルは、古典的なARMA(p,q)モデルを離散値時系列の枠組みに適用した代表的な時系列モデルである. その中で自己回帰的な構造を持つクラスINAR(p)モデルについて扱う. 残差の変数にパラメトリックな分布を仮定して推定する手法が一般的だが、Drost et al.[1] によって残差分布に特定の分布を仮定しないセミパラメトリックモデルとして推定する手法(Nonparametric Maximum Likelihood Estimator ; NPMLE)が提案された.
本発表では、まずこのモデルについての論文[1]における結果についてレビューを行う. 続いてINAR(p)モデルにおける二項演算子を拡張したGINAR(p)モデルを導入し、セミパラメトリック推定量の定義・性質の一部をGINAR(p)モデルに拡張する. また、Poisson thinningを用いたGINAR(1)モデルのNPMLEの挙動についてのシミュレーションをDrost et al.[1]に倣って行った結果を示す.
木原 泰斗
(白石研M2)

2019年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2019/9/25条件付き確率場を用いた読唇手法本研究は, 日本語での会話時における, 唇の動き, 口形の遷移情報から, 実際の会話文の書き起こしを目指したものである. 一般にはこの分野は読唇や Lip reading などと呼ばれている. 日本語には, 母音と子音が存在するが, 主に母音により口形が決定している. そのため, 口形から母音を予測することは比較的容易であるが, 子音の予測は難しことが知られている. 本講演では, 口形 の遷移情報から子音の系列を予測するモデルを提案する. モデルには, 自然言語処理などで用いられることの多い, 条件付き確率場を用いる. 条件付き確率場によっ て, 母音の系列から子音の系列を予測することで, 母音と子音の組み合わせにより, 言葉の復元を目指す.酒井 悠斗
(白石研M1)
10/2Multivariate Hawkes Processを用いた仮想通貨の値動きのモデリング株価の上昇・低下とセンチメント(市場心理)の変化の関係についての研究が近年行われている[1]. 本発表ではビットコインに注目して同様の視点から研究を行う.
bitFlyer(https://bitflyer.com/ja-jp/) から15 分足データを取り, 価格を表す指標として終値, センチメントを表す指標として出来高(取引量)を採用し,
価格の対数成長率と出来高の変化量が定めた閾値を越えた時刻をそれぞれの上昇・低下の4 つのイベントとし, それぞれのイベントの発生をMultivariate Hawkes Process(多変量ホークス過程) でモデリングし解析を行う.
最終的には, ホークスグラフを用いて視覚的に影響構造を記述する.
茅根 脩司
(白石研M1)
10/9高階マルコフ連鎖とMTDモデルについて通常のマルコフ連鎖の一般化である高階マルコフ連鎖は、パラメータ数が時差数に関する指数オーダーで増大してしまうという問題点がある.
 そのような問題を解決する1つの手段として、[1]Raftery(1985)によって提唱されたMixture Transition Distribution model (MTDモデル)がある.
 本発表では上述の[1]Raftery(1985)に基づいて高階マルコフ連鎖とMTDモデルの導入と、それらの性質、推定法、応用についてレビューを行う. 最後に今後の研究の展望について述べる.
木原 泰斗
(白石研M1)
10/16バンディット問題の手法とその応用近年強化学習の研究が盛んに行われています。
 本発表では、強化学習のひとつであるバンディット問題に注目して、その理論と手法について述べ、またバンディット問題がどういったところで応用されているかについて発表を行います。
 最後に今後の研究の展望について述べていきます。
高 遠
(白石研M1)
10/23動的治療レジメと強化学習の基本概念近年, 医学界において個別化医療(personalized medicine)の実現は重要な課題である. 個別化医療とは, 患者毎に異なる履歴を考慮し, その患者にとって最適な治療を行うことである. 動的治療レジメ(dynamic treatment regimes; DTR)は個別化医療を実現するための一方策であり, 複数回の介入がある慢性疾患などの治療のガイドラインとなりうる.
 複数回の介入は多段階意思決定問題とみなせるため, 強化学習(reinforcement learning)の考え方に類似している. しかしながら, 典型的な強化学習ではマルコフ決定過程(markov decision process; MDP)を仮定しているが, 医療研究においてはこれは一般に成り立たないため, 典型的な強化学習の枠組みをそのままの形で適用することはできない.
 本発表では, 最適な動的治療レジメの推定についての諸概念と古典的な強化学習の枠組みを紹介し, これらの違いを確認する. また, 強化学習における解法の1つであるQ-learningについて禁煙治療の例を用いて説明する. また, 今後の研究の展望についても述べる.
塚原 悠
(林研M1)
11/6Missing Not At Randomの場合における操作変数を用いた平均処置効果の推定調査観察研究において因果効果を推定する場合,処置群と対照群の単純な差は両群の共変量分布の違いにも由来するとも考えられるため,共変量分布を調整する必要がある.
 また,現実のデータには欠測がある場合が多い.Missing Not At Random (MNAR)とよばれる種類の欠測は,調整を行うことが難しいと一般的に言われている.これに対し,Miao and Tchetgen Tchetgen (2016) やSun et al. (2016)によって,MNARの場合における母集団平均の推定法が提案された.
 本発表では,共変量と欠測,2つの調整を同時に考え,MNARの場合における平均処置効果の推定法を提案する.
米山 慎太郎
(南研D1)
11/13統計的因果推論を用いた広告効果の測定 近年、広告業界においてはデータを用いた広告効果の検証に注目が集まっている。特に、近年ではメディア横断型のデータを取得する体制が整いつつあり、広告接触と来店/サイト訪問などの関連性を解析によって明らかにしようという機運が高まりつつある。その中でも特に、広告接触がCV(来店やサイト来訪など)に対して与える因果的効果には強い興味が示されている。
 本発表では現在、実際に解析を行っている2つのトピックを扱う。1つ目は、メディア横断データを用いた複数種類の広告接触に対するシナジー効果の分析の枠組みと現状の課題について整理し発表する。2つ目は、広告を出稿する番組枠を最適化するために、推定された因果効果をベースとした予算制約下での広告の最適配信方法を提案し、議論を行う。また、2つのトピックで共通してmeta-learnerを用いて因果的効果の推定を行うため、それについても概説する。
中村 知繁
(南研D3)
11/27回帰項を含む正規線形状態空間モデルにおけるパラメータ推定近年, 時系列予測に関する研究は多くなされている. とくに売上予測の需要は近年も高く, 売上データの時系列予測のための手法が数多く提案されている.
本発表では, 売上データの時系列予測に焦点を当てその特徴と先行研究を鑑み, 状態空間モデルに外生変数による回帰項を加えたモデル (Naranjo et al., 2013)を紹介する. 具体的には, モデルのパラメータ推定の手法とそのシミュレーションの結果について述べる.
山田 一輝
(林研M1)
12/4単語分散表現とその階層構造Word2vecやGloVeなどに代表される単語の分散表現は,ニューラルネットワークで翻訳モデル等を学習する際の前処理としてよく用いられている.この単語の分散表現には ”king-man+woman ≒ queen” のようにアナロジーをベクトル演算で解くことができる性質が知られている.本発表では,まず単語の分散表現とアナロジーについて説明をした後に,上位語・下位語といった単語の階層構造に着目して,単語の階層構造を効率よく埋め込めるポワンカレ埋め込みの紹介を行い,最後に今後の課題について述べる.竹原 大翼
(小林研M2)
12/11加速時間フレイルティモデルに基づく治癒率を考慮した生存時間回帰法フレイルティモデルとは、個体ごとに未観測の確率変数が存在し、その変数がイベントの発生時間に影響するというモデルである。また、加速時間モデルとは生存時間の確率変数と説明変数の関係を直接表現したモデルである。このモデルは比例ハザードモデルと比べ、ハザード比に関する仮定が必要でないというメリットがある。
本発表では、加速時間モデルにフレイルティを導入したモデルを考える。特に、治癒率を考慮するためのフレイルティについて考察した生存時間回帰法について述べる。また、現在行っている実データ解析の途中経過について述べ、さらに現時点で検討しているFIC(focused information criterion)を用いたモデル選択の概要と未解決点を説明する。
会田 晴郎
(林研M2)
12/18拡散摂動モデルの下での最適配当境界問題のセミパラメトリック推定破産理論の応用の一つに,最適配当境界問題がある.これは,保険会社の資本余剰金がある境界を超過した場合,その超過部分を配当金として株主に還元したときの配当金の最適化戦略を考察する問題である.保険会社の資本余剰金を確率過程としてモデリングを行う.
 大石・白石[1]は,このCramér-Lundbergモデルの下で得られる保険金の支払金額と支払時間間隔の観測データから,M-推定量の枠組みで最適配当境界の推定量を構成し,その推定量の一致性を示した.またKyprianou[2]は,Cramér-Lundbergモデルを一般化したLévy保険モデルに関して,Markov過程の議論を通して考察を行った.
 本研究では,この過程が,Cramér-Lundbergモデルを拡張した「拡散摂動モデル」に従うと仮定した場合の最適配当境界の推定量について考察する.ここで,「拡散摂動モデル」とは,資本余剰金に関して,保険金支払いについては複合Poisson過程に従い,その他の資金の流出入についてはドリフト付きWiener過程に従うモデルである.このモデルの下で,一定期間ごとに,資本の変化額,および保険料支払いの時刻とその額のデータが得られるとした.そして,期間データを1ブロックデータとしたブロック・ブートストラップにより擬似的な過程を構成し,推定量を導出する.
 本発表では,初めに最適配当境界問題の概要について説明を行う.次に,推定量の構成手法について説明を行い,その推定量の漸近的性質に関して考察する.最後に,今後の研究指針について述べる.
宇野 大我
(白石研M2)
12/25SNS投稿内容のスコアリングによる株価分析既存研究において株式価格に対して用いられていたテキストの情報源は、日本経済新聞などのニュースソーステキスト、有価証券報告書などの専門的な文書、そしてウェブ上の掲示板やSNSの投稿内容の3つに大別される。
 本発表では、その中でもTwitterと呼ばれるSNSの投稿内容による株式価格の分析についての実験結果を基に議論する。先行研究によれば、Bollen+(2011)においてTwitterの投稿内容は将来の株価リターンに対する説明力を持つことが指摘され、その後日本語の投稿に対しても磯部(2017)などにより株価予測モデルが構築されている。
 実験においては磯部(2017)だけでなく長山(2016)や諏訪(2012)に見られるモデルの持つ価格変動への説明力や有用性を検証し、改めて当分野の外観や今後について述べ、一次情報ではないウェブ上の情報が持つ意味についても触れていく。
勝山頌一郎
(白石研M2)
2020/1/8多人数不完全情報ゲームにおけるAIプレイヤーの学習について近年,ゲームに関するAIプレイヤーが話題となっている.将棋界では藤井聡太七段がAIを相手に研鑽を積んでいたり,囲碁界ではAIを用いたアルファ碁が世界チャンピオンに勝利するなど,その発展は目覚ましい.
しかし、将棋や囲碁のような完全情報ゲームに対し、不完全情報ゲームは,各プレイヤーの行動に対して盤面に起こった影響が完全には把握できない.本発表では不完全情報ゲームの中でも,特に未解決の問題が多い多人数不完全情報ゲームについて扱う.この分野に関しては多人数性、情報の不完全性、複雑なゲーム性により研究が浅く,難航している.
今回は多人数不完全情報ゲームの代表例である麻雀に注目し、人間に匹敵するプレイヤーを構築する手法を紹介した上で、その課題や改善点などについて考察する。
中島 捷
(小林研M2)
1/15エントロピー制約付き最適輸送問題の解と性質ある空間上の確率分布から別の確率分布へと移動させる際の最適な移動のさせ方を考える.このときの最小の移動コストは自然に2つの確率分布間の距離を定める.特に移動コストとして空間の距離を用いたものはwasserstein距離と呼ばれる.これは一般に確率分布間のダイバージェンスとして用いられているKLダイバージェンスとは異なる性質を持つ.機械学習,画像処理や統計学においてwasserstein距離が応用されつつある.しかし一般にwasserstein距離の計算は困難である。そこで[Cuturi]はエントロピー 制約付き最適輸送問題を考えた。
本発表では
・正規分布の間のエントロピー 制約付き最適輸送問題の解と楕円型分布への拡張
・最尤推定量とminimam kantorovich estimaterの関係
・エントロピー制約付き最適輸送問題から導かれるダイバージェンス
・多次元尺度構成や単語埋め込みへの応用
について発表する。
童 祺俊
(小林研M2)

2019年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/10全体顔合わせなし
4/17Causal Inference : A Review and Recent Advances本発表では,統計的因果推論を扱う.統計的因果推論の分野は,Rosenbaum and Rubin(1983)により傾向スコアが提案されて以来,様々な推定量が提案され,発展してきた.まずは,発表の前半でそれらについてレビューを行う.次に,統計的因果推論の代表的な手法である層別化に触れ,層別化をDecition Treeを用いて自動的に行う方法を提案し,既存手法と比較した結果について述べる.
発表の後半では,multiple treatment / time-varying treatmentなどの様々な処置に対する因果的効果の推定量について述べ,最後に近年発展してきた機械学習と統計的因果推論の交わりについても紹介する.
中村 知繁
(南研D3)
4/24K2 Studyデータを用いた高齢者のwell-beingに関する分析結果本発表では,中原区高齢者パネル調査–The Keio-Kawasaki Aging Study–(通称 K2 Study)を用いたデータの分析の結果について述べる.
 K2 Studyデータは,本学理工学部髙山緑教授よりご提供いただいた中原区の高齢者を対象に行ったパネル調査のデータであり,
♦︎ 後期高齢期(75歳以上),超高齢期(85歳以上)の高齢者を対象にしている
♦︎ 健康に関する指標のみならず,人生満足度などのwell-being指標まで含まれている
といった点が特徴的である.
 本発表では特に,デイケア・デイサービスの利用や地域の催しへの参加が,人生満足度や生活満足度,認知機能に対し与える影響を,統計的因果推論の手法により分析した結果を述べる.
米山 慎太郎
(南研D1)
5/15①グレブナー基底と実験計画本発表では,計算代数幾何学の重要な概念であるグレブナー基底の、実験計画法における応用例について、下記の文献1)に準ずる形で紹介します。トピックは主にグレブナー基底の紹介と補間多項式の構成法・識別可能性についてを予定しています。木原 泰斗
(白石研M1)
5/15②ARCH型モデルの紹介と推定法本発表では、ARCH型モデルを扱います。ARCH型モデルは、 Bollerslev(1986)がGARCHモデルを提案して以降、様々なARCHモデルが提案され、研究されてきた。本発表の前半では代表的なARCH型モデルを紹介し、後半ではその推定法について述べていく。高 遠
(白石研M1)
5/22①統計的因果推論におけるランダム化とFisher's Exact P-value本発表では、統計的因果推論におけるランダム化実験と, その応用例であるFisher's Exact P-valueを扱う.
ランダム化は研究デザインにより保証されることが望ましい重要な性質である. ランダム化の重要性に初めて論理的に注目したFisherは, シャープな帰無仮説の検定を考え, Fisher's Exact P-valueを提唱した. これらについて説明する.
塚原 悠
(林研M1)
5/22②条件付き確率場の正則化本発表では,条件付き確率場(以下CRF)を扱う. CRFは, 自然言語処理をはじめとして様々な系列データに対し有効な識別モデルであると言われている.

CRFはモデルのパラメーターの数が数十万~数百万になることもあり, 高次元データ解析で研究されてきた正則化(罰則化)が, ここでもよく利用される.

今回は, パラメーター推定の際の正則化(罰則化)について, よく用いられる手法を幾つか紹介し比較及び考察を行う.
酒井 悠斗
(白石研M1)
5/29①時系列予測に関する最近の研究近年, 時系列予測に関する研究は多くされていて, 多くの論文が存在する.

本発表では, その中から2つの論文を紹介する. 1つ目は「Rangapuram et al. (2018)」, 2つ目は「Kuznetsov and Mohri. (2017)」である. 前者は, 複数の類似時系列に対する, 状態空間モデルと再帰型ニューラルネットワークを用いた予測, 後者は, 非定常時系列に対する, (時系列解析の文脈における)一般化状態空間モデルによる予測に関する研究である.
山田 一輝
(林研M1)
5/29②simulation of point processes空間上に存在する点の性質を統計的に考える分野を点過程と言う。今回はイベント発生としての点過程の考え方を紹介し、強度(intensity)を用いた特徴付けが可能であることを紹介する。

点過程は強度によって、ポアソン過程、非一様ポアソン過程、一般点過程にグループ分けすることが可能である。時間変更定理を用いることで一般点過程は標準ポアソン過程に帰着する。

一般点過程の中でもホークス過程を中心にシミュレーション手法を紹介する。
茅根 脩司
(白石研M1)
6/5生存時間解析における治癒モデルの概要と推定手法生存時間解析とは、興味あるイベントの発生時間に関する統計的推測を指す。主な目的のひとつに生存率関数の推定があり、その手法のひとつは生存率関数に回帰モデルを仮定し、説明変数の影響を表すパラメータ等を推定する手法である。
 興味あるイベントのうち、ガンの再発やAIDSの薬剤耐性などでは、イベントが発生しない場合がある。そこで、イベントが発生しない状況に適用できる治癒モデルが考案されている。
 本発表では、導入として生存時間解析の基本的事項を抜粋して説明したあと、治癒モデルについて紹介し、主なモデルのひとつである混合治癒モデルのパラメータ推定手法を述べる。推定手法については、尤度関数の構成やEMアルゴリズムを用いたスパース推定についてを中心に扱う。最後に、発表のまとめと今後の研究の展望について述べる。
会田 晴郎
(林研M2)
6/12金融テキストマイニング イベントスタディでの学習データ構築株価予測に自然言語処理の知見を活かす試みについて、代表的な先行研究としては[和泉2011]がある。[和泉2011]ではCPR法と呼ばれる和文テキスト情報を株価予測に活かす枠組みの提案が行われたが、これはテキスト情報のみを用いた予測実験であり株価の推移情報が加味されていない。その後、[上原2013]においては株価推移情報も加味した実験が行われていたが、この実験では株式価格のボラティリティが加味されていなかった。[五島2017]では、イベントスタディ法といわれる実証実験の枠組みを通して株式価格情報から予測された価格とボラティリティ加味し、予測に有用なニュース情報を抽出し学習データを構築している。今回は[五島2017]に準拠した数値実験を行い、より細かい設定での予測を行うことで[五島2017]を追試し、実験から得られた課題設定の問題点を指摘し改良の方策について報告する。勝山 頌一郎
(白石研M2)
6/19Wasserstein統計多様体についてWasserstein距離は最適輸送理論で研究されている確率分布間の距離であり、KLダイバージェンスなどとは異なった性質を持ち、近年機械学習や最適化で応用されている。
 Wasserstein距離とBemamou-Brenierの公式から確率分布の集合にWasserstein計量テンソルが定義できるが、その部分集合としてパラメトリックモデルを考え、Wasserstein計量テンソルをパラメータ空間に引き戻すことでパラメータ空間にWasserstein計量テンソルが導入される。これはWasserstein統計多様体と呼ばれる。
 本発表ではリーマン多様体上のパラメトリックモデルのパラメータ空間が成すWasserstein統計多様体とそれを応用したWasserstein自然勾配法などの研究を紹介する。
また重み付きグラフラプラシアンを用いてWasserstein計量テンソルを重み付きグラフで定義した研究についても紹介し、最後に今後の展望やOpen problemsについて述べる。
童 祺俊
(小林研M2)
6/26中島 捷
(小林研M2)
7/3日本語ニューラル翻訳における単語分割と翻訳モデルの評価指標近年の機械翻訳はニューラルネットワークを用いた手法が主流になっているが,ニューラルネットワークの入力として文章を扱う際には,各文をトークンの列に分割しなくてはならないという問題が存在する.特に日本語は英語などのようにスペースで分かち書きされる言語ではないため,適切に文を分割する手法が必要となる.さらに,翻訳モデルの標準的な評価指標(BLEU等)は単語に関する参照訳との適合率で計算されるため,言語モデルを正しく評価するためにも文を適切に分割しなくてはならない.
 本発表ではニューラルネットワークを用いた機械翻訳の基礎的事項について述べた後,現在主流となっているサブワード(単語と文字の中間)へ分割する手法について説明する.その後,現在の機械翻訳の評価指標とその問題点について説明し,最後に今後の研究の展望について述べる.
竹原 大翼
(小林研M2)
7/10宇野 大我
(白石研M2)
7/17Bélanger Teraiamanu
(南研M2)

2018年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9/26系列処置に対するランダムフォレスト推定量の提案処置が系列的である場合の因果的効果の推定には,Marginal Structural Model(MSM, Robins,1997)が用いられるのが一般的である.MSMを用いて因果的効果を推定する際には,傾向スコア(この場合,ある処置系列を受ける確率)の推定が適切に行われない限り,推定量がバイアスを持つことが知られている.実際,系列処置の場合には傾向スコアは,処置を受ける確率の積になるため,小さな推定のズレが,大きな推定量のバイアスにつながる(Imai and Ratkovic, 2015).
そこで,本発表では,Wager and Athey(2017)の結果を,処置が系列的である場合へと拡張し,ランダムフォレストを用いて,傾向スコアを推定することなくノンパラメトリックに個人に対する因果的効果を推定する方法を提案する.
中村 知繁
(南研D3)
10/3①Lévy過程のモデリングにおける離散観測データを用いた最適配当境界の推定について保険会社の破産理論 (ruin theory) の応用の一つに,最適配当境界問題 (optimal dividend barrier problem) がある.この問題は,保険会社の資本 (surplus) がある境界 (barrier) を上回ったときに,その部分を株主に返還する配当 (dividend) の問題であり,初期資本を固定し,破産時刻までに支払われる配当金の現在価値の期待値を最大化する境界がどこにあるのかを考える.これまでに,Bühlmann (1970),Gerber (1979),Dickson (2005)などは古典的リスクモデル (Cramér-Lundberg モデル) の下で,Gerber et. al. (2004) は資本が線形Brown運動に従う下で議論されている.
 しかし,大石 (2017) に依れば,この最適配当境界の統計的推定の議論は,先行文献を見る限りなされていなかった.そこで大石 (2017) は,古典的リスクモデルの下でM-推定量の考えに基づき最適配当境界の推定量を構成し,一致性を示した.
 本発表では,前回のLévy過程のモデリングやGerber-Shiu関数について復習を行いつつ,最適配当境界の推定を行う際に必要な離散観測データについて理論的考察を行う.
宇野 大我
(白石研M1)
10/3②無限隠れマルコフモデルを用いたバスケットボールのプレイ分析隠れマルコフモデル(HMM)は時系列データのクラスタリング手法として知られているが、通常の解析ではクラスタ数をあらかじめ定める必要がある。この定め方としてAIC(赤池情報量規準)を用いる方法も考えられているが、一般に理論的妥当性は保証されていない。本発表ではこの問題を回避する手法として,階層ディリクレ過程をパラメータの事前分布に用いた無限隠れマルコフモデル(IHMM)について説明した後に、実際のバスケットボールのプレイバイプレイデータを用いた解析結果等について報告を行う。竹原 大翼
(小林研M1)
10/10①ROC解析ROC(Receiver Operating Characteristic, 受信者動作特性)解析は第2次世界大戦中に信号検出の性能を測る手法として考案されたが、現在は診断検査の精度を測る手法として用いられている。ROC解析では、対象の疾患のない患者を誤って陽性と診断した割合に対して、疾患のある患者を正しく陽性と診断した割合を描画することでROC曲線を構成でき、その曲線下の領域AUC(Area Under Curve)を診断検査の精度の指標として用いること主流である。本発表ではROC曲線の推定量を考察し、Bamber (1975)、 Hanley and McNeil (1982) が示したAUCの推定量の分散を導出する。伊藤 健太
(林研M1)
10/10②中島 捷
(小林研M1)
10/17①Current status dataに対する回帰分析の手法区間打ち切りデータの種類の1つに、Current status dataというものがある。ケース1区間打ち切りデータとも呼ばれるこのデータは、左側打ち切りもしくは右側打ち切りのどちらかが観測されるデータであり、様々な分野で扱われている。
このデータに対する回帰分析ではセミパラメトリックモデルがよく用いられるが、回帰パラメータの推定の際に未知のベースライン関数も同時に扱わなくてはいけないことが推定を難しくしてしまう。その問題点を解消するために、いくつかの手法が提案されている。
本発表では、Current status dataとセミパラメトリックモデルについて説明をした後、回帰パラメータの推定のための手法を述べる。手法の紹介では、まず一般的な尤度関数の最大化について触れた後、ベースライン関数の推定を回避できる長所をもつSieve likelihood methodと推定方程式を用いる手法について扱う。
会田 晴郎
(林研M1)
10/17②日経平均株価騰落予測のためのテキスト特徴量獲得「効率的市場仮説」によると、株価はその時点のすべての情報を用いて決定される。
それをふまえた金融テキストマイニングでは、ニューステキストを用いた特徴量作成により、株価の推移や企業の財務状態以外の面から株価予測を考えることになる。
テキストデータの特徴量作成に関して、[1]ではPV-DM・PV-DBOWという特徴量作成の手法が提案されている。
これは「分布仮説」に基づいて[2]で提案された、単語(語彙)に対する特徴量作成の手法であるSkip-gram・CBoWを拡張したものとなる。
本発表では、テキストデータの特徴量作成のためのPV-DM手法について説明する。これは語彙についての特徴量作成の拡張という形になっているため、Skip-gram手法も併せて説明する。
また、実際にテキストデータの特徴量の類似度を用いた騰落予測の結果についても報告する。
勝山頌一郎
(白石研M1)
10/24最適輸送理論と機械学習最適輸送とは物質はある地点から別の地点に移す時の最小費用を考える理論である.物質の質量を1に規格化すれば,
これは確率分布間の輸送とみなせ1781年にGaspard Mongeによって初めて定式化され,Leonid Vitaliyevich Kantorovichにより更に拡張された.これより定義されるp-Wasserstein距離はp次モーメントが存在する確率分布間全体の集合に距離の構造を与える.
近年最適輸送理論やWasserstein距離が機械学習やコンピュータグラフィックスの分野に応用されている.これは最適輸送が分布の輸送の仕方を与えることやWasserstein距離が台を共有しない分布間の距離をも与えてくれるといった利点があるからである.
本発表では最適輸送理論に関連する研究をいくつか紹介し,特にdenoising autoencodersをWasserstein勾配流の考えに基づいて解析した[1]について詳しく紹介する.
童 祺俊
(小林研M1)
10/31事例ベースの深層格構造解析近年の深層学習を用いた音声合成(van den Oord et al. 2017)や機械翻訳
(Vaswani et al. 2017)の発展は著しいが、対話システムなどの理解が必要と
される分野の研究は進んでいない。原因として、畳み込みネットワークが画
像の構造に適していたように(Le et al. 2013)、言語の意味につながる構造
を意識したモデルが軽視されている背景が考えられる。
 我々の研究では、自然言語、特に日本語文章の理解ができるシステムを目
指して、文法や辞書などを事前知識としてモデルに組み込む手法を開発して
いる。日本語の語順は比較的自由であり、意味の単位は用言と格助詞によっ
て与えられる。特定の用言と格の組み合わせが表す意味を捉えるものとして、
深層格構造(長尾 1996)がある。従来の実装では、曖昧さの残る表現に対応す
るために、深層格を細かくする必要があり、適切な粒度で維持・管理するに
は大きなコストがかかる。
 このような背景から、いくつかの事例が与えられた下で、辞書や文脈を適
切に利用し、その適用範囲を自ら広げることのできるシステムが望まれる。
この手法はBootstrappingとして知られており、機械学習的な枠組みも考えら
れてきた(Abney 2004)。
 本発表では、我々の研究で開発中のシステムを用いて、歴史の文章の解析
を試みた結果を報告する。辞書や、大規模なコーパスを用いて訓練されたモ
デルによる事前処理がなくとも、言語の解析が可能となることも示す。
青島 達大
(南研M2)
11/7システミックリスク定量化へのアプローチシステミックリスクと呼ばれるリスクの定量化手法は近年数多く研究されている。しかしながら未だ評価する際の指標として広く合意を得ているものはない[1]。これは他の金融リスクと異なり、このリスクが複数の金融機関を対象としたものであることに起因する。システミックリスクの顕在化は、個別の金融機関の健全性の悪化などに端を発するもので、金融システム全体での大規模な不況を引き起こす。このリスクを評価するため、顕在化への寄与と損失、そして顕在化へ至る構造の変化などを評価することが求められる[2]。
本発表ではHawkes過程を利用したシステミックリスク評価指標を提案することで、各金融機関のリスクへの寄与およびリスクに対するバッファー(損失に対する準備)を求める。また変化点検出を利用することで、リスク顕在化を引き起こす金融構造の変化を考慮し、より現実的にリスクを評価する。
泉澤 佑
(白石研M2)
11/14石川 航作
(林研M2)
11/28ゲートキーピング法とメタボロームデータ解析近年,メタボロームデータを用いた疫学研究は,慶應義塾を始めとする多くの研究機関で進められている。
メタボロームとは,生体内の細胞や組織において,代謝(生体内で起こる生化学反応)に伴い生成されたり使われたりする物質のことであり,
メタボローム同士は互いに複雑な関係で結びついている。
そのため,メタボロームデータを解析する際には,本来であればメタボローム間の構造・関係性を考慮した解析を行うべきであるが,
実際にはそのような解析は未だ行われていないようであり,解析手法に関する課題は山積している。
本発表では,まず仮説間の構造・関係性を考慮した多重検定の手法の一つであるゲートキーピング法を紹介したのち,
先行研究の解析方法の問題点を挙げ,最後に実際にメタボロームデータを解析した結果を説明する。
小野 あかり
(南研M2)
12/5PC Algorithmを用いたプロ野球の勝率分析セイバーメトリクスの世界で用いられる様々な指標を変数に用いて、勝率に影響を及ぼす変数を特定する際に
PC Algorithmを用いて有向非巡回グラフの構造を学習させたが、その際に条件付き独立性の検定を行うステップがある。
条件付き独立性の検定は条件付き相互情報量を用いて行うが、それを計算することは出来ないので推定量を考える必要がある。
本発表では、Algorithmの説明および相互情報量の推定量の紹介をおこなう。
佐久間 亮介
(白石研M2)
12/12階層ベイズモデルを用いた情報借用と臨床試験停止基準抗癌剤の効果を調べる臨床試験では、決められた時点において患者に投与した治療薬の効果がないと判明した時、試験を途中で停止することがある。
階層ベイズモデルの同時事後分布からのギブスサンプリングを用いた、真の奏効率(患者集団の中で癌腫瘍が一定の長さ以上に縮小した患者の割合)及び臨床試験停止基準(Bayesian Stopping Rule)の推定により試験の継続/停止を判断する手法がその一つである。
この手法では、複数の層に患者を割り付けて行う臨床試験において、ある層の真の奏効率を他の層の結果も用いて推定する。これを情報借用と呼ぶ。
本発表では、奏効率の推定において全ての層で情報借用を行うEXモデル、一部の層の推定で情報借用を限定するEXNEXモデルを紹介した上で、実データの分析結果から今後の課題について考察する。
榮 宏晃
(南研M2)
12/19Bayesian method to predict unmeasured PM 2.5 concentrationsThe Earth is getting more and more polluted due to human activities. Some pollutants are responsible for the global warming. The one I am focusing my researches on is PM 2.5 which causes health troubles.
Its concentration is monitored throughout Japan, but not everywhere. In Ibaraki prefecture, the authorities failed to measure it at many locations.
Using GIS and other pollutants (NO2, Ox, ...) data, it is possible to predict the PM 2.5 concentrations where is was not measured using frequentist and Bayesian methods. I will detail these methods and their results.
Bélanger Teraiamanu
(南研M1)
12/26擬似値に基づくスパース推定とその競合リスクデータへの応用Andersen et al. (2003)で提案された擬似値による打ち切りデータへの対処法は, 生存時間解析の幅広い文脈で適用可能な手法であり, その理論的妥当性はOvergaard et al. (2017)で詳しく議論された. 本発表ではこうした理論的背景を踏まえ, 特に競合リスクデータに対する擬似値を用いたスパース推定法を提案する. また, 提案手法の有用性を検証した数値実験の結果について述べる.田島 史啓
(林研M2)
1/16適応型学習のための学習モデルと推薦方策の提案本発表では適応型学習のための、学習モデルと推薦方策を提案する。コンピュータの発達した現代においては、学習者の能力に応じて問題を出題することが可能である。これまで、学習者の能力を少ない問題で精度よく推定することを目的とした適応型テストについての研究が多くなされてきた(豊田, 2012)。その一方で、学習者の能力を伸ばすことを目的に、学習者に合わせた教材を提供する方法についてはこれからの研究の発展が望まれている(山口&岡田, 2017)。本発表では能力の遷移を表す学習モデルにロジスティック密度関数を用いることを提案する。また、教材の推薦方策としてバンディット問題に使われているε-貪欲法を用いることを提案する。石川 航作
(林研M2)

2018年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/11全体顔合わせなし
4/18INAR(p)過程に対する変化点検出変化点検出は,系列データの背景にある確率モデルの構造の変化を検出する手法である.
INAR(Integer Valued autoregressive)過程は整数値を取る定常な時系列過程であり,[1, 2]によってINAR(1)過程に対する変化点検出が提案された.しかし,現実のデータは1時点以上前の過去の情報に依存して観測される場合が多い.本発表では[1]で提案されたINAR(1)過程に対する変化点検出をINAR(p)過程へと拡張し,その有効性をシミュレーションにより確認することで精度を評価する.
泉澤 佑
(白石研M2)
4/25end-to-endな雑談モデルのリアルタイム実装 ~ おもちゃ実装から最先端の話題まで ~近年、機械翻訳や感情分析など自然言語処理において機械学習的なアプローチの有効性が確認されているが、我々人間と会話を行う雑談システムにおいては、多くの課題が残されている。特に、モデルが一貫性のない応答を返したり、"I don't know"など雑な答えを返す傾向が強いこと(Li+ 2016)は大きな問題である。
 Zhang+ (2018)は、この課題を解決するために、雑談用のデータセット PersonaChatを整備した。これは、ランダムな仮想人格(persona)を割り当てられた人間同士が、自分の仮想人格を装いつつ、相手の仮想人格に関心を持ち、質問と応答を繰り返す対話のデータセットである。各対話に明確なゴールは存在しないが、自分の仮想人格に従って多様で一貫した表現を用いることによって、雑談モデルの課題を解決するデータセットになるのではないかと期待されている。
 本発表では、このPersonaChatを題材に、end-to-endな雑談モデルの実装に関して解説し、その特徴や問題点を、最先端の話題を交えつつ、紹介する。今回は誰でもすぐに試せるように、一からの実装を心がけ、また、モバイルCPUでもリアルタイムな訓練と推論が可能となる範囲内での実装を検討する。最後に時間があれば、Byte Pair Encodingを応用した単語辞書の自動生成(Sennrich+ 2016)や、実際の動作結果についても紹介する。
青島 達大
(南研M2)
5/2Solving Estimating Equation via Generalized Random Forest and its application to causal inferenceBreiman(2001)によって提案されたRandom Forestは,統計的学習において広く用いられる手法である.ランダムフォレストによる推定量ついては,近年Wager and Welther(2015), Mentch and Hooker(2016), Wager and Athey(2018)などで漸近的な性質が議論されている.
本発表では,Athey, Thibshirani, and Wager(2019)によって提案されたGeneralized Random Forest(GRF)を紹介する.GRFは,局所モーメント方程式の解として得られるパラメータを,Random Forestをベースにして,ノンパラメトリックに推定するための手法であり,広範な応用が期待される手法である.
当日の発表では,causal inference, estimating equation, random forestなど本発表の背景について簡単に触れた上で,GRFの漸近的性質を紹介し,具体的な応用事例について述べる.
中村 知繁
(南研D3)
5/9①2次元アニメーションの中割り画像生成のための自動対応付け中割りは,アニメーション制作工程の一つで原画と原画の間を補間するような画を描きより滑らかなアニメーションを作る工程である.これを自動で行うためのシステムの開発がなされている.D.Liuらは[1]で自動中割りの際に発生するストロークの対応づけの問題をshape context discriptorに対する多様体学習とhungarian algorithmによって解決する方法を提案した.
本発表では[1]でのアプローチを参考にしつつ、カーネル主成分分析[2]と下限制約付き最小費用流を用いた多対多マッチングによる新たなストロークの対応づけ方法を提案し実際のデータに対して適用した結果を考察する.
童 祺俊
(小林研M1)
5/9②パーシステント図のベクトル化~カーネル法を用いた非線形分析~近年、パーシステントホモロジーはデータの幾何的な構造を捉える手段として、位相的データ解析(TDA)という分野の中核を成す存在となっている。
その表現手段であるパーシステント図(PD)は、パーシステントホモロジー群の変化を可視化する道具として広く利用されているが、PDのみでは平均や分散などといった定量的な解析が難しいことが問題となっている。
本発表では主に[1]を参考に、卒業研究では出来なかった定量的な解析を行うために、カーネル法を導入してPDをベクトル化する手法について説明しつつ、簡単なシミュレーションを行う。
中島 捷
(小林研M1)
5/16①Lévy過程を用いた統計モデリング --損害保険リスクの最適配当問題を目指して--損害保険数理における破産理論(危険理論)とは,保険事業に生じる変動の規模とその規模の特徴を確率論を通して研究する理論である.
20世紀前半にLundberg,Cramérによって創始・確立され,古典的な
Cramér–Lundbergモデル(以下C-Lモデルと記す)が考えられた.
 しかし,実際のクレーム頻度やクレーム額のデータをみると,C-Lモデルでは上手く説明しきれない現象が伺えることが分かっている.
 そこで,C-Lモデルの一般化として,Lévy過程と呼ばれる確率過程のクラスを用いて保険リスクのモデリングを行うことを考える.
 本発表では,[1][2][3]を基に,破産理論の古典的モデリング(C-Lモデル)から
現代的モデリング(Gerber-Shiu関数の解析・最適配当問題 など)への変遷を,理論的側面を中心に説明を行う.
宇野 大我
(白石研M1)
5/16②統計的仮説検定における多重比較法について医学分野において統計的仮説検定は広く用いられている。本発表では、統計的仮説検定における多重比較法の基本的な手法を紹介し、それらを比較する。比較方法として多重比較法における検出力を用いる。伊藤健太
(林研M1)
5/23①自然言語処理による日経平均株価騰落予測「効率的市場仮説」は、株式などの市場価格は過去から未来に関してのありとあらゆる情報が考慮されて決定されるというものである。しかし従来の株価予測に用いる分析は株価の推移や企業の財務状態が主な関心ごとであり、それのみだと一般的なニュースで取り上げられているような新しい情報に対応できない。
このような理由から自然言語処理による株価予測へのアプローチも必要である。今回は[1]で与えられている文書の類似度を計量する手法を用いることで日経速報ニュースの「市場動向」に関する記事のみから終値の騰落予測をすることを考える。本発表では、関連する理論を紹介し実際の解析結果について考察する。
勝山頌一郎
(白石研M1)
5/23②ディリクレ過程を用いた隠れマルコフモデルの次元選択隠れマルコフモデル(HMM)は時系列データの確率モデルとして音声認識等で用いられてきたものであるが,通常の解析では隠れ変数の次元をあらかじめ定める必要がある.本発表ではこの問題を回避する手法として,階層ディリクレ過程をパラメータの事前分布に用いた隠れマルコフモデル(IHMM)について説明する.竹原大翼
(小林研M1)
5/30区間打ち切りデータに対する生存率関数の推定法生存時間解析で使われる一般的なデータとして、右側打ち切りデータがあげられる。しかし、観察の際に正確な時間が判別できず、ある時刻と時刻の区間の間で興味あるイベントが発生したことのみしか記録できない場合がある。このようなデータを区間打ち切りデータと呼び、生存率関数の推定の際には,右側打ち切りデータとは異なる手法を用いた解析が必要となる。
 本発表では、ケース2区間打ち切りデータに対する生存率関数のパラメトリック推定、EMアルゴリズムを用いたノンパラメトリック推定について述べた後、卒業論文で行ったシミュレーションについて触れる。さらに、ノンパラメトリック推定の際に用いるICMアルゴリズムについて述べ、EMアルゴリズムとの比較を行い、最後にケース1区間打ち切りデータに対するisotonic回帰を用いたノンパラメトリック推定について紹介する。
会田 晴郎
(林研M1)
6/6テスト運用のための基礎知識〜古典的テスト理論から項目反応理論まで〜本発表では学力テストの運用に必要な統計的手法について述べる。まず最初に現在でも広く用いられている古典的テスト理論(Classo also Test Theory:CTT)について述べる。CTTは、観測されるテストの点数を真の学力と誤差に分解するモデルを中心とした理論である。今回はテストの点数と真の学力の分散の比で定義される信頼性係数について重点的に述べる。
次にLord(1952)により提案された項目反応理論(Item Response Theory:IRT)について述べる。IRTのメリットは集団と独立して学力や問題の性質を測定できることにある。しかし、そのためには様々な統計処理が必要である。本発表ではテスト前の予備調査である学力の尺度の次元性の確認から、テスト後に異なるテスト間の比較を可能にする等化について述べる。
最後にIRTにおいてモデルの良さを評価するための、スパースな分割表に対する適合度統計量について述べる。
石川 航作
(林研M2)
6/13癌個別化治療に対する階層ベイズモデルの応用近年癌治療において、抗癌剤などの画一的な治療よりも個々の患者に合わせた治療(癌個別化治療)が行われることが多くなって来ている。それに伴い、臨床試験のデザインや分析手法にも変化が起こり始めている。ベイズモデルを用いた臨床試験継続基準(Bayesian stopping rule)もその一つである。
本発表では、近年癌個別化治療で行われている臨床試験のデザインであるバスケット試験について紹介した後、臨床試験継続基準についてベイズモデル及び階層ベイズモデルを通して腫瘍縮小が起こった患者の割合を表す奏効率の事後分布を求めることで判定する方法を紹介する。
榮 宏晃
(南研M2)
6/20False-Discovery Rate私はメタボロームデータの統計解析を修士課程の研究の目標としている。メタボロームデータの統計解析においては,False-Discovery Rate (FDR) を用いた検定が行われることがある。本発表では,FDRを制御する方法として有名なBenjamini-Hochberg法を紹介した後,この方法によりFDRが確かに制御されることを,Benjamini, Y. and Hochberg, Y. (1995)の示した方法に沿って証明する。小野 あかり
(南研M2)
6/27プロ野球におけるチームの勝率に影響を与える変数の特定現在、MLBや日本のプロ野球ではセイバーメトリクスと呼ばれる、選手データを用いてチーム編成や戦略を考えることが増えてきている。今回の発表では、チームの勝利に貢献してくれる特徴をもった選手を発見するために、ベイジアンネットワークの構造学習で用いられるPC(Peter Spirtes and Clark Clymour)アルゴリズムを用いて解析を行う。また、その為に必要な理論であるベイジアンネットワークについても紹介する。佐久間 亮介
(白石研M2)
7/4擬似値に基づく競合リスクイベントデータ解析における変数選択規準一症例に複数イベントの発生を想定する競合リスクイベントデータ解析においては, 最も興味のあるイベントの発生に影響を与えると考えられる共変量を特定する事に関心が高い. これは, 興味のあるイベント発生確率の予測モデルに含める共変量を選択する, 変数選択問題であると捉えることができる.
本発表では, Andesen et al. (2003) によって提案された擬似値に基づくイベント発生確率の推定法に焦点を当て, 彼らの手法により得られる候補モデルの中から, 最適な共変量の組を含んだモデルを選択するための変数選択規準について考察する. この規準の導出には, 擬似値に基づく推定についての漸近的性質について詳しく調べた Overgaard et al. (2017), および推定方程式に基づく推定に適用できる変数選択規準を提案したPan (2001) が重要である.
当日の発表では, 生存時間解析や競合リスクイベントデータ解析の基礎など本発表の背景について簡単に触れた上で, 擬似値に基づく推定法, および変数選択規準について考察する. また, その規準の有用性を検証した数値実験の結果について報告する.
田島 史啓
(林研M2)
7/18

2017年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
2017/9/27ランダムフォレストの解析と因果推論への応用/Analysis of Random Forest and its application to causal inference統計学の応用的側面では,データから処置の因果的な効果を推定することが1つの目標である.健康に関連する結果変数へ薬が与える影響や,広告などの顧客の商品購買への影響などが具体的な例である.

因果推論の基本的な枠組みは,Neyman-Rubin(1978)によって提案された反実仮想結果変数を利用したモデルである.しかし,このモデルを実際に利用する際には,傾向スコアを呼ばれる,ある共変量を持つ個体が処置を受ける確率をデータから推定しなくてはならない.傾向スコアの推定が適切に行われないと,因果効果に対する推定量が不安定になり,適切な推論が行えないことはよく知られている.

傾向スコアに起因する,推定量の不安定性に対する対処は,CBPS(Imai and Ratkovic, 2016)やFull subclassification Estimator(Wang, 2016)などで報告されている.しかし,これらもまた傾向スコアに対するモデリングが適切に行われない限り.推定量が大きなバイアスを持つ.

そこで,本研究ではランダムフォレストを用いて傾向スコアを推定することによって,傾向スコアをノンパラメトリックに推定し,ランダムフォレストを用いた因果効果に対する推定量の漸近的性質を調べている.

今回の発表では,特にランダムフォレストの漸近的性質について紹介し,傾向スコアの推定にランダムフォレストを用いた結果を紹介する.
中村 知繁
(南研D1)
10/4Cox比例ハザードモデルを用いた美容院顧客の来店確率予測Cox比例ハザードモデルを用いることで, 美容院顧客の来店間隔に影響を与える変数の特定や, 来店間隔の予測を行うための方法を説明する.河本 龍一
(南研M2)
10/11長期記憶性を持った高次元ポートフォリオの分散に対する収束性の比較まずはじめに近年ポートフォリオ理論で起こっている高次元問題について紹介し,それに対する解決策であるファクターモデルの概要について説明する.そしてファクターモデルに長期記憶性を仮定した場合,従来の推定量と新たな推定量がどのように定義されるかを紹介する.その後に,それらの推定量が真の値とどの程度近くなっているのかをシミュレーションを行うことで比較する.阿部 貴文
(白石研M2)
10/18一般化モーメント法推定量の性質
まずはじめに,計量経済学で用いられる操作変数法について紹介する.操作変数を用いた推定法にモーメント法がある.モーメント法の過剰識別問題に対して一般化モーメント法を定義する.一般化モーメント法推定量はM推定量として捉えることができることを利用して一致性や漸近正規性を示す.次に漸近分散の最適化,推定法の紹介や検定問題の構成について述べる.樋口 広信
(南研M2)
10/25周辺構造モデルを用いた因果効果の推定はじめに Rubin の因果モデルについて簡単に説明し、傾向スコアや強く無視できる割り当てについて紹介します。
次に、追跡調査研究における因果効果の推定の際の仮定について、有向非巡回グラフ(Directed Acyclic Graph; DAG)を用いながら記述し、Robins et. al.(1995), Robins(1998)が提案した g-formula と 周辺構造モデル(Marginal Structual Models; MSM)について紹介します。
最後に、MSMで推定する際に用いられる仮想母集団(pseudo-population)についての性質を説明します。
長瀬 智大
(南研M2)
11/1木構造モデルのExtreme Multi-Label Classificationへの応用とその改良
近年の機械学習への関心は、情報検索の分野にも広がっている。従来の、特に検索エンジンへの応用は、大量のドキュメントの中から、静的な索引などを用いて上位 K'件を取り出し、機械学習を用いてリランキングをし、目的の上位 K件を返す、2段階の構成を想定しているものが多かった。このリランキングのみならず、システム全体をひとつの機械学習モデルによって実現しようという試みとして、Extreme Multi-Label Classification (XMLC)が挙げられる。2017年現在、木構造モデルを応用したFastXML [Prabhu+ 2014]や、非線形な次元削減を用いるSLEEC [Bhatia+ 2015]、one-versus-restのL2-罰則 L2-SVMを用いるDiSMEC [Babbar+ 2017]などの様々なモデルが提案されている。
 本発表では、はじめに、FastXMLなどのXMLCにおけるモデルや、対象とするデータセットの特徴を概観する。木構造モデルのメリットを活かした、データの可視化の手法についても紹介する。次に、L1-SVCと単純なサブサンプリングにより、精度をそれほど劣化させずに、高速な訓練を可能にし、コンパクトなモデルを構築できることを確認する。最後に、さらなる精度の向上を目指して、ensembleやラベルの分離性能の改良を試みた結果を報告する。
青島 達大
(南研M1)
11/8項目反応理論と因子分析の関係項目反応理論とは心理テストや学力テストの分析に用いられている理論である。一方、因子分析は観測不可能な因子を説明変数として、観測への影響を調べる手法の一つである。今回の水曜セミナーでは歴史的に異なった起源を持つこの二つの分野のモデルが等価であることを示す。
また、具体的な解析例を紹介し、項目反応理論のモデルの良さと因子分析のモデルが等価であることの良さを説明する。
石川 航作
(林研M1)
11/15INAR過程における変化点検出時系列データをモデル化する際、定常性を持つ時系列モデルがよく用いられる。しかし現実に扱う時系列データは定常性を満たさない、非定常なデータである場合が多い。時系列モデルにおける非定常性の問題への対応の一つに変化点検出という手法がある。

本発表では定常な点過程モデルであるポアソンパラメータを持つINAR(Integer Values Autoregressive)過程の非定常モデルへの拡張として変化点の導入を考える。
そのために[1]における変化点検出手法の拡張を提案し、シミュレーションを行うことでその有効性を評価する。
泉澤 祐
(白石研M1)
11/29多重比較における閉検定手順疫学・臨床研究では,複数の処置や薬の用法などの効果を比較するために仮説検定が多く用いられる。
しかし,検定を複数回繰り返すと検定の多重性が生じ,type I familywise error rate (FWER)が
増大してしまうという問題がある。そのため,検定の多重性に対する工夫として多重比較法が多く研究されてきた。
本発表では,多重比較の手順として有名なHolm法と階層手順を紹介した後,これらを包括する
閉検定手順を紹介し,これらの手順がFWERを強い意味で制御することを確認する。

In epidemiological studies and clinical researches, it is common to practice statistical tests
in order to compare the difference between the efficiencies of various treatments or medicines.
However, if statistical tests are carelessly used for many times, there occurs a serious problem
of the inflation of the type I familywise error rate (FWER).
Therefore there have been a number of studies on multiple comparison procedures to solve this problem.

In my seminar, I will first explain Holm procedure and the hierarchical procedure,
then I will show you the closed testing procedure as a generic testing procedure for these two procedures,
and finally I will prove that these procedures strongly control the FWER.
小野あかり
(南研 M1)
12/6条件付き尤度法とケースコントロール研究における応用疫学研究の方法であるコホート研究とケースコントロール研究では疾病と因子の関連を調べるためにロジスティック回帰モデルを導入し、最尤推定法を用いて因子の係数を推定することがある。
しかし、標本数に対してパラメータ数が多い場合、最尤推定法を用いると推定した因子の係数が大きなバイアスを持つことがある。
バイアスを解消するために、推定に不必要なパラメータを消去した尤度関数を構成して最尤推定値を考える方法が条件付き尤度法である。
本発表ではコホート研究とケースコントロール研究について説明した後、ケースコントロール研究においてもロジスティック回帰モデルが用いられることを解説し、条件付き尤度関数について紹介した後、層別解析ではどのように用いられるかを確認する。
榮 宏晃
(南研M1)
12/13有効非巡回グラフによる統計的因果推論強く無視出来る割り当て、傾向スコアによる因果効果の推定はどちらも共変量の影響を排除するものであった。解析にあたっては利用する共変量をどのように選択したらよいかの指針が必要になる。
その役割を果たす1つに因果関係を有効非巡回グラフ(Directed Acyclic Graph:DAG)を使って表記した際、現れるバックドア基準と呼ばれるものがある。
今回の発表では、主に因果関係をDAGを用いて記述する方法、並びにDAGの性質を説明します。
佐久間 亮介
(白石研M1)
12/20擬似値に基づく競合リスクイベントデータ解析におけるモデル選択規準の考察競合リスクイベントデータ解析とは, 一人の症例に起こりうるイベントが複数存在する状況で, 興味のあるイベントの発生に関する統計的推測を行う分野のことである. 特に臨床研究の場面では, 競合リスクイベントデータ解析の手法を用いて, 興味のあるイベントの発生に影響を与えると考えられる共変量を特定することに関心が高い.
 Andersen et al. (2003)は, 興味のあるイベントの発生確率を, 患者の臨床情報を用いて表現するモデルを仮定し, そのパラメータを推定する方法を提案した. 彼らの手法は, 擬似値と呼ばれる擬似的な観測を定義し, その観測に基づいて一般化推定方程式を解くというものであり, 推定量の性質についてはGraw et al (2009)で詳しく調べられた. 今回は, Andersen et al. (2003)の推定法に対するモデル選択規準について考察する.
 本発表では, まず, 競合リスクイベントデータ解析の考え方と目的について述べる. 次に, Andersen et al. (2003)の手法と一般化推定方程式について説明する. 最後に, Andersen et al. (2003)の推定に対するモデル選択規準について考察した内容について説明する. このモデル選択規準は, 一般化推定方程式による推定に対するモデル選択規準を提案したPan (2001) の考え方に基づいて導出される.
田島 史啓
(林研M1)
2018/1/17調査観察研究における差分の差推定量アメリカにおいて,1962年に新しい職業訓練プログラムが開始され,以降,1972年,1982年に新しい訓練プログラムに置き換えられた.その際,議会により明確な実験的根拠なく新しいプログラムの有効性が主張されたことが問題視され,これらの訓練プログラムの効果に対する研究,分析が多数行われた.
 その内の一つとして,Ashenfelter and Card (1985)
による差分の差を用いた分析が有名である.しかしながら,(単純な)差分の差を用いるには,処置群と対照群の時間変化が等しいという「平行トレンドの仮定」が必要であり,一般に処置群と対照群の共変量が異なる調査観察研究において,平行トレンドの仮定は現実にそぐわない場合も多い.これに対しAbadie
(2005)は,調査観察研究において平行トレンドの仮定と比較してより現実的な仮定のもと,傾向スコアを用いて重み付けした差分の差により処置群における処置効果を推定する方法を提案している.
 本発表ではまず,単純な差分の差のアイデアと平行トレンドの仮定が満たされないような場合の説明を行う.その後,Abadie
(2005)に基づき,平行トレンドの仮定が満たされない場合の処置群での平均処置効果の推定について説明する.
米山 慎太郎
(南研M1)

2017年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/12全体顔合わせなし
4/19統計的因果推論の基礎とその拡がり本セミナーでは「統計的因果推論」と呼ばれる分野について扱います.
発表の前半では,統計的因果推論の基本的な内容について,具体例を交えながらお話します.具体的には,強く無視可能な割り付け,傾向スコアを用いた因果的効果の推定についてです.
発表の後半では,強く無視可能な割り付けが成立するための共変量の選択に関連する概念であるバックドア基準(Pearl, 1995)を具体的な例を交えながら紹介する予定です.また,傾向スコアに対する変数の選択を多少を誤った場合でも傾向スコアを安定的に推定する手法であるCovariate Balancing Propensity Score(Imai and Ratkovic, 2014)についても触れる予定です.
中村知繁
(南研D2)
4/26周辺構造モデルを用いた因果効果の推定まずはじめに Rubinの因果モデル について簡単に説明し, 傾向スコアや強く無視できる割り当てについて紹介します.
次にRobins(1998)が提案した周辺構造モデル(Marginal Structural Model; MSM)を用いた, 繰り返し観測による追跡調査データに対するアプローチを紹介します.
また, 一般化推定方程式と関連のある repeated-measure MSM について簡単に触れた後, Robins が提案している stabilized weight についてのシミュレーション結果を報告します.
長瀬智大
(南研M2)
5/10Gradient Boostingのコンピュータセキュリティへの応用本セミナーでは、システムコール列のリアルタイム分析を用いた、コンピュータセキュリティについて考える。
はじめに、現代のコンピュータセキュリティにおいて、統計的な手法が必要とされている背景を説明し、統計的な問題としての定式化を行う。
次に、Gradient Boostingを用いれば、多様なモデルを統一的に構築できることを示す。この枠組みを用いて、システムコール列などの離散系列データ特有の問題点を解決するために、階層クラスタリングを用いたLogistic Boostingである階層Logistic Boostingを提案する。
提案手法の評価を実データを用いて行い、提案手法が最良といえる性能を示したことを確認する。さらに、提案手法が学習した正常なシステムコール列の特徴や、実際に検知した異常の特徴について考察する。
青島達大
(南研M1)
5/17ハザード関数のセミパラメトリック推定・生存時間解析について簡単な説明
・Cox回帰モデルについて
・ハザード関数のセミパラメトリック推定
・多発性骨髄腫患者の生存時間データの解析
・前立腺癌における2つの治療法の比較
河本龍一
(南研M2)
5/24ファクターモデルによる高次元ポートフォリオの分散の収束性まずはじめに近年ポートフォリオ理論で起こっている高次元問題について紹介し,それに対する解決策であるファクターモデルの概要について説明する.そしてファクターモデルを用いた場合のポートフォリオの分散と標本分散共分散行列を用いた場合のそれの分散を比較する.阿部文貴
(白石研M2)
5/31操作変数と一般化モーメント法本発表では操作変数とそれを用いた解析手法について紹介し、その拡張として一般化モーメント法を紹介する.
操作変数法は結果に対する処置の効果を推定する際の問題点である効果観測できない共変量の効果を調整する方法として以前から計量経済学を中心に用いられてきた解析手法である.
パラメータの推定量を構成するモーメント法はパラメータの識別問題があり、一般化モーメント法はこの識別問題を考慮してパラメータの推定量を構成する.
樋口広信
(南研M2)
6/7マーク付き多次元Hawkes過程によるシステミックリスク評価リスク管理において、システミックリスクの定量化は重要な事柄である.システミックリスクの顕在化は金融システムの脆弱性によるものとされ、脆弱性が悪影響の波及を引き起こす。金融システムでの波及を評価することが、システミックリスクの評価のために必要となる。本発表では、金融システムの脆弱性による悪影響の波及をHawkesグラフにより可視化する。そしてマーク付き多次元Hawkes過程を用いたモデルによりシステミックリスクを定量化する。泉澤祐
(白石研M1)
6/14Mann-WhitneyのU検定とU統計量Mann-WhitneyのU検定は,仮説検定のノンパラメトリック法のうち最も基本的な検定方法の一つである。このU検定に用いる検定統計量Uは漸近正規性を持つが,Mann-Whitneyの与えた証明は複雑である。そこで,本発表ではMann-Whitneyの検定統計量Uをより一般的なU統計量として考えることで,Mann-Whitneyの検定統計量が漸近正規性を持つことを示す。小野あかり
(南研M1)
6/21①フラミンガム研究とロジスティック回帰モデルフラミンガム研究は冠状動脈性疾患の原因を探索するために行われた研究である。その際、ロジスティック回帰モデルを用いて解析し最尤推定量を推定して疾患の原因を考えている。本発表ではフラミンガム研究及びロジスティック回帰モデルとその性質について説明し、Truettのフラミンガム研究についてのデータも参照して考察する。榮宏晃
(南研M1)
6/21②ロジスティック関数を用いた項目反応モデルの推定方法について本発表では学力テストや心理テストなどの分析に用いられる項目反応理論について紹介する。具体的にはロジスティック関数を用いた項目反応モデルの複数の推定方法を紹介し、それぞれの推定量について性質を述べる。石川航作
(林研M1)
6/28①生存時間解析における擬似値を用いた生存確率の推定臨床研究では、患者の臨床情報をもとにその予後を予測することに関心が高い。患者の予後を患者の生存確率として解釈した場合、その患者の臨床情報を用いて生存確率を表現するモデルを考えるのが自然である。このモデルのパラメータを推定する方法として、Anderson et al. (2003)は擬似値を用いた推定法を提案した。擬似値は、生存関数の推定量であるKaplan-Meier推定量を用いて定義されるため、擬似値の漸近的な性質はKaplan-Meier推定量の漸近的な性質と関係している。
まず本発表では、生存時間解析におけるマルチンゲール理論を用いて、Kaplan-Meier推定量の一致性を示す。次に、Kaplan-Meier推定量により定義される擬似値を用いた生存確率の推定法について述べる。最後に、Rのサンプルデータを用いた擬似値の計算結果を示す。
田島史啓
(林研M1)
6/28②因果推論の基礎社会科学などのヒトが対象の研究においては無作為割り当てが出来ない場合が多く、その場合は共変量の影響を除いて因果効果を推定する必要がある。「強く無視できる割り当て」条件が成り立っている下では、因果効果を推定出来ることを示し、その方法をいくつか紹介する。その後、複数の共変量を1変数に纏めた傾向スコアを用いたIPW推定量が優れた推定量であることをシミュレーションによって確かめる。佐久間亮介
(白石研M1)
7/5因果推論あらまし本研究室で多くの先輩方が研究をしている因果推論の枠組みについて,基礎的な部分を確認する.本発表では,「強く無視できる割り当て」の意味,「傾向スコア」を用いた解析の利点,「マッチング」「層別解析」とは何か,「IPW推定量」の一致性,「パス解析」とは何か,「パス係数」の意味,などを示す.米山慎太郎
(南研M1)
7/19状態空間表現を用いた水無川の出水構造分析まず研究背景として,学校法人自由学園那須農場で観測されたデータの紹介,特徴を説明する.次に状態空間モデルを導入し,カルマンフィルタ・粒子フィルタ,パラメータ推定について紹介する.最後に,実際にデータに対して状態空間モデルを適用した場合と,ロジスティック回帰モデルを適用した場合とを比較し考察を述べる.酒井優行
(南研M2)

2016年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9/28M,Z推定量の一致性と漸近正規性について推定量の枠組みとしてM推定量やZ推定量がある。
M,Z推定量はIPW推定量やDR推定量、セミパラメトリックモデルなどに広く応用できる概念である。
今回の発表ではM,Z推定量の一致性とそれに関する定理の紹介、漸近正規性の概要について述べる。
樋口広信
(南研M1)
10/5生存関数のノンパラメトリック推定生存時間解析の目的、条件の違いにより生存時間に差が生じることを視覚的に判断する方法について説明します。河本龍一
(南研M1)
10/12高次元におけるポートフォリオ理論ポートフォリオ理論とは投資家が投資を行う際,自身の収益率を高めるためにはどのように最適化すればよいかを決定するための理論である.しかし,高次元下では大標本漸近理論での近似が悪くなってしまうことが知られている.本発表ではそのような状況下で考えられた理論をいくつか紹介する.阿部文貴
(白石研M1)
10/19擬似尤度と一般化推定方程式最尤法は分布の仮定が必要だが, 擬似尤度法は平均と分散の関係だけを仮定することで計算できる. 擬似尤度関数はスコア関数と類似した性質をもち, 指数型分布を仮定したとき, 擬似尤度はその分布の尤度関数になる. 擬似尤度の最大化によって得られる推定量はFisherのスコアリングを用いて計算することができる.
同一被験者の繰り返し観測によって得られるデータを縦断的データと呼ぶ. 一般化推定方程式はこの繰り返し観測間の相関を考慮して定義された推定方程式である. 式は擬似尤度と類似するが, 相関を考慮している点で異なっている. 一般化推定方程式の解として定義される推定量は, 一定の条件を満たすことで漸近正規性などの性質をもつ.
本発表では, まず計数データをポアソン回帰したときと擬似ポアソン回帰した場合の例において, それぞれの回帰の結果の違いについて述べ, 擬似尤度の定義と性質について紹介する. 次に縦断的データについて説明し, 一般化推定方程式の定義と性質を述べる.
長瀬智大
(南研M1)
10/26多地点情報を用いた 年最大降水量データ解析年最大の日降水量など、データの中でも極端に値の大きいものに対するアプローチとして極値統計学がある。
しかし年最大値は1年につき1つの値しか取れないため、1地点の観測値ではモデルに取り入れることのできる
情報が少なくなってしまう。
春学期の発表では各観測地点のデータを独立と仮定し、複数地点のデータを取り入れたモデルを考えたが、
今回は多変量極値分布に空間統計学の考え方を取り入れた、max-stable processを用いて観測値の相関を考慮した場合のモデルを考える。
本発表ではmax-stable processの理論を紹介し、実際のデータの解析結果として関東平野における年最大日降水量データに適用した結果を示す。
また春学期に解析した神奈川県の降水量データについてのアプローチについても、この枠組みで改めて検討をした結果を示す予定である。
樫山文音
(南研M2)
11/2離散・連続混合変数を含む欠測データのためのセミパラメトリック多重代入法の提案多くの研究分野において欠測データへの対処は重要であり、これを正しく扱わない場合、誤った推論を行う可能性を孕んでいる。近年、欠測データ解析には多重代入法が多く利用されるが、これは欠測を含む変数の同時分布を仮定する必要があり、連続・離散変数が混在している場合は通常利用が困難である。そこで本研究ではディリクレ過程混合モデルによる表現を利用することで、セミパラメトリックな多重代入法を提案する。ここでは、関心のない母数を持つ欠測変数の同時分布モデルには、ディリクレ過程混合モデルによるノンパラメトリックモデルを用い、関心のある母数の推定にはパラメトリックモデルを用いることで、セミパラメトリックモデルとしての表現を行うことができる。これにより、欠測を含む変数に連続・離散変数が混在している場合でも、欠測値の発生と母数の推定が可能であり、正しく欠測データの推論を行うことができる。加藤諒さん
11/9非負値行列分解(NMF)の数理的側面について行列分解による次元縮約を利用した特徴量抽出のための手法のひとつに非負値行列分解(NMF)がある。このNMFは解析対象となるデータの行列が非負であるという制約を課すものの、実社会における多くのデータを解析の対象とすることが可能な上、実装と解釈の容易さから近年注目を集めている。
本発表では最初にNMFの概要を改めて見ていくことにする。その上でNMFに対して数理的な解釈を試みる。
早瀬亮
(南研M2)
11/16MCMCを用いたリスク寄与度の計算金融リスク管理において、リスク寄与度(Risk Contribution)の計算は重要である。しかしながら、その計算においては、従属性のある確率変数の和に基づいたRare eventを扱う必要があるため、大きな困難が伴う(Tasche, 2009)。

本発表では、リスク尺度にValue-at-Riskを用いる場合に、リスク寄与度を効率的に計算する方法として、マルコフ連鎖モンテカルロ法(MCMC)を用いた手法を提案する。

特に、リスク管理においてしばしば用いられる裾の重い分布に対して、良い性質を持つMCMCについて考察を行う。
小池孝明
(南研M2)
11/23最適配当境界のノンパラメトリック推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある. 配当の支払われやすさと破産時刻にはトレードオフの関係があり, 最適な配当境界を求めることに関心がある. ここでの最適とは, 破産時刻までに支払われる配当金の現在価値の期待値を最大化するものとして与えられる.
本発表では配当の考え方を導入した場合の余剰資本の増減を表すモデルについて説明し, 上で述べた指標をもとにして得られる最適な配当境界の推定量をM-推定量の考え方に基いて構成する. M-推定量で主に問題となるのは一致性, 収束レート, 漸近分布であるが, 今回はそのうちの一致性と収束レートについて考える. このとき特に関心があるのは目的関数の一様収束性であり, それはGlivenko-Cantelliの定理を用いることによって解決することができる. Glivenko-Cantelliの定理にはいくつか種類があるが, 今回はブラケット数に基づくものを紹介し, それを用いた証明の概要を説明する. 最後にいくつかのシミュレーション結果を示す.
大石惇喜
(白石研M2)
11/30VARを用いた将来死亡率予測将来死亡率予測は、食糧問題や年金財政問題などを考える際の重要な課題の一つである。
本発表では、まず春学期にも説明させていただいた現在最も広く使われている将来死亡率予測モデルである Lee-Carter モデルの説明を行う。
そして、 VAR モデルを用いて各地域における死亡率推移の従属性を考慮したモデルについての考察を行う。
最後に、実データを用いた簡単な解析結果を示す。
系行健
(白石研M2)
12/7高次元における有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。

本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティアについて、高次元の仮定のもとでの漸近的挙動を調べ、統計的推定を考える。また、それらに関してシミュレーションを行う。
岡紘之
(白石研M2)
12/14状態空間モデルを用いたサッカートラッキングデータの解析世界的にメジャーなスポーツではゲームに関する詳細なデータを記録し、解析して個人のプレーやチーム戦術
の改善に活かそうという試みが活発になっている。サッカー(フットボール)も同様で現在ではJリーグでも
トラッキングデータと呼ばれる選手とボールの位置情報を記録し解析することが行なわれている。
今回はこのサッカートラッキングデータを用いて時点毎に次のプレーでどのくらいピンチに陥る可能性があるのか、
すなわち失点リスクの推定というテーマで解析を行った。
具体的には、失点リスクがトラッキングデータを基にした特徴量に影響を受けると仮定してモデル化し、
状態空間表現を用いて影響推定を行った。
本報告では、データの概要、非線形非正規を仮定した場合の状態空間モデルの状態推定アルゴリズムの紹介、
そして解析結果について発表する。
酒井優行
(南研M2)
12/21PITCHf/xデータを用いたストレートの変化量と空振りの定量的分析現在、メジャーリーグにおいては投球に対するトラッキングシステムであるPITCHf/xが普及し、蓄積したデータの解析が盛んに行なわれ科学的な見地から選手の評価がなされている。今回はPITCHf/xデータを用いたストレートの変化量と空振りとの関連性の分析について発表を行う。ノビとは空振りしやすいストレートに対して用いられる言葉であり、ノビのあるストレートは初速と終速の差が小さいという定説が存在する。しかし、ロジスティック回帰分析の結果から定説とは逆の関係が得られたため、球速差ではなく変化量に着目した解析を行った。ここで、ボールの変化量に関しては縦と横の二方向で定義されており、それらの変数と空振りとの関係性を解析するためにスプライン平滑法を用いた推定を行った。また、PITCHf/xから得られるデータを用いてボールの質と空振りとの関連性を分析したが、各投手ごとのフォームや持ち球がストレートの打ちづらさに関係しており、それらを変量効果を用いて評価した。永田大貴
(南研M2)
1/11保険会社における最適配当境界の統計的推定保険には会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある。
今回の発表では累積保険金額が複合ポアソン過程、ブラウン運動に従うことを仮定して最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)を求める。さらに、その最尤推定量を求め、統計的性質を考える。
八木彰子
(白石研M2)
1/18CBPSを用いたスクイズ作戦の因果効果の推定本発表では,Covariate Balancing Propensity Score(CBPS; Imai and Ratkovic, 2014)を用いて,野球におけるスクイズ作戦が得点に与える影響を解析した結果を報告する.
発表では,まずCBPSの考え方の基本について触れたあと,シミュレーションを通してCBPSが,傾向スコアを推定する際のモデルに誤特定がある場合にも結果を安定して推定できることを確認する.その上で野球におけるスクイズ作戦が得点する確率に与える影響をCBPSを用いて推定した結果を報告する
中村知繁
(南研D1)

2016年度春学期水曜セミナー予定表

日時タイトルアブストラクト発表者
4/13全体顔合わせなし
4/20デンドログラムの並べ替え検定と木測地距離空間日本人英語上級者30 名,英語母語話者30 名の各被験者に,「封筒の中にある50 個の英単語をあなたが考える意味のまとまりにグループ分けしてください.」という指示を与える.
本研究の目的は,そのような実験の結果得られたデータに対して英語母語話者と日本人英語上級者の心内辞書(mental lexicon)の相違を明らかにすることであり,心内辞書が木構造(デンドログラム)によって表されるという仮定の下に並べ替え検定による解析手法を提する.また,その理論的妥当性を評価する.
一方,デンドログラム間の距離には通常のフロベニウスノルムに加えて,木測地距離を用いる.木測地距離空間(Tree Space)は主に遺伝系統樹分析の理論研究者により研究されてきた.本発表ではそれを紹介するとともに,デンドログラムの並べ替え検定への応用について議論する.
小林景先生
4/27因果推論の枠組みと,犠牲バントの有効性の解析因果推論は,疫学やマーケティングをはじめとする分野において,近年注目を集めている,処置の結果に対する因果効果を推定するための手法である.
本発表では,このような因果推論の枠組みを例を交えて紹介した上で,因果推論の枠組みを,野球における犠牲バント戦術の解析に応用した結果を報告する.
また,時間が余れば,用いた手法の理論的な側面についても詳しく紹介する.
中村知繁
(南研D1)
5/11那須気象データの紹介と状態空間モデルの基礎①那須気象データの紹介
まず、今年1月に発表予定だった内容について発表する。
学校法人自由学園は、栃木県那須塩原に酪農農場を保有しており、1942年〜1998年まで様々な気象データを観測していた。
観測における主な目的は、隣接する一級河川(蛇尾川:サビガワ)による水害の防止であった。本報告では、農場が抱えてきた課題や蛇尾川の特徴、データの紹介を行う。
②状態空間モデルの基礎
状態空間モデルの基礎について発表する。
時系列解析において主たる目的は、データから時系列に関連する構造を理解することや過去のデータから未来のデータを予測することにある。しかしデータに欠測値が含まれる場合一般的に知られているARIMAモデル等では適用が容易ではないことがわかっている。
一方、状態空間モデルの枠組みでは欠測値が含まれていても適用が容易であり、かつモデルの柔軟な表現が可能なため多くの分野で応用がなされている。
本報告では、状態空間モデルの中でも最もシンプルなローカル・レベル・モデルに焦点を当て状態空間モデルの基礎的な考え方を紹介する。
酒井優行
(南研M1)
5/18多変量2値分布におけるprincipal pointsの近似解法について近年、principal pointsに関する研究が数多く展開されている(例えば、Flury,1990; Yamamoto and Shinozaki, 2000; Matsuura and Kurata 2011)Principal pointsとは、与えられた確率分布を、ユークリッド距離の期待値に基づき、k個の領域へと最適に分割した時の代表点として与えられている(Flury, 1990)。
本研究では、 多変量2値分布におけるprincipal pointsを離散最適化問題として定義する。さらに、その劣モジュラ性(離散最適化問題における凸性にあたる性質)を示し、解の最適性の保証つき近似アルゴリズムを提案する。さらに、その適用例を示す。
山下遥さん
5/25欠測のある生存時間解析とマーケティングへの応用生存時間解析は、医学統計や生物統計などに加え、経済学やマーケティングなどの社会科学分野でもよく用いられている。中でも、医学分野における通院間隔や、マーケティングにおける購買間隔などの、同一サンプルに対して複数回のイベントが得られている生存時間解析を「繰り返しのある生存時間解析」などと呼ぶことがある。本研究では、繰り返しのある生存時間解析において、中間に欠測するイベントのある状況に対応したモデルを提案する。中間に欠測するイベントがある場合、観測される間隔は複数イベントの間隔が積み上げられたものとなり、そのデータを用いた解析結果は推定値にバイアスが生じる。そこで、このようなデータに対して欠測データ解析の枠組みを用いてバイアスを除去しつつ、正しい推定値を得るためのモデルを提案する。さらに、提案モデルをマーケティングデータに応用する。
当日は、上記の研究内容を中心としつつ、関連する生存時間解析や欠測データ解析、マーケティングにおける間隔モデル、実データ解析について紹介する。
猪狩良介さん
6/1Computation of Risk Contributions using MCMC on VaR-Fiber金融リスク管理において、ポートフォリオ全体のリスクはEconomic Capitalによって測定される。
Economic Capitalの計算は、ポートフォリオのリスク管理における最初のステップであり、リスクのより細かな分析のためには、Economic capitalをサブポートフォリオや単一のエクスポージャーに分解することが必要である。
このように、全体のリスク量を単一リスクに割り当てることをRisk Allocationといい、分配されたリスク量はRisk Contributionと呼ばれる。
Risk Contributionsの導出法はTasche(1999)により確立されたが、その量の具体的な算出は非常に困難である。
本発表では、特に算出が困難と言われる、リスク尺度としてValue-at-Riskを用いる場合のRisk Contributionsの算出に関して、MCMCを用いた計算アルゴリズムを提案する。
特に、リスク管理において典型的である裾の重い分布に照準を合わせたアルゴリズムの構築を行い、シミュレーションによりアルゴリズムの有効性を確認する。
その後、Kamatani(2014, 2016)と同様のアプローチにより示される、エルゴード性に関するいくつかの結果を紹介する。
小池孝明
(南研M2)
6/8高次元の下での有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。 実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから大標本漸近理論を用いて推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。
本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティア内のパラメータについて、高次元の仮定のもとでの漸近的挙動を調べる。その後、高次元の下での有効フロンティアの統計的推定を考える。また、それらに関してシミュレーションを行う。
岡紘之
(白石研M2)
6/15非負値行列分解(NMF)を用いた糖鎖解析行列分解による次元縮約を利用した特徴量抽出のための手法のひとつに非負値行列分解(NMF)がある。
このNMFは解析対象となるデータの行列が非負であるという制約を課すものの、実社会における多くのデータを解析の対象とすることが可能な上、実装と解釈の容易さから近年注目を集めている。
本発表では前半にNMFの概要説明を行う。後半では糖鎖データについてその紹介とともにNMFによる解析結果を示す。
早瀬亮
(南研M2)
6/22最適配当境界の統計的推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある. この配当境界と破産時刻にはトレードオフの関係があり, 最適な配当境界を求めることに関心がある. ここでの最適とは, 破産時刻までに支払われる配当金の現在価値の期待値を最大化するものとして与えられる.
本発表では余剰資本の増減を定式化し, そこに配当の考え方を導入したモデルについて説明する. さらに上で述べた指標をもとにして得られる最適な配当境界の推定量をM-推定量の考え方に基いて構成し, その一致性, 漸近正規性について考え, 最後にいくつかのシミュレーション結果を示す.
大石惇喜
(白石研M2)
6/29極値統計学を用いた年最大日降水量データ解析自然災害、異常気象が発生するときの気象データは観測されているデータの中でも極端に大きい値や小さい値であることが多い。
一般的な統計学ではこのようなデータは外れ値として扱われることが多いが、災害の発生時のデータを扱うときには
この外れ値に注目しなければならない。
そのようなデータに対して適用することができるものに極値統計学がある。
本発表では、まず昨年秋のセミナーでも取り上げた単変量に対する極値統計学の理論とモデルの推定について紹介する。
次に今、私が研究で行いたいと考えていることについて簡単に紹介し、その最初のステップとして神奈川県で観測された
実際の年最大日降水量データを解析した結果を示す。
最後に今後の研究で用いる理論・手法について簡単に紹介する予定である。
樫山文音
(南研M2)
7/6保険会社における最適配当境界の統計的推定保険には会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある。
今回の発表では累積保険金額が複合ポアソン過程、ブラウン運動に従うことを仮定して最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)を求める。さらに、その最尤推定量を求め、統計的性質を考える。(複合ポアソン過程に従う場合)
八木彰子
(白石研M2)
7/13MLBトラッキングデータを用いた捕手のフレーミング評価法について現在、アメリカにおいてはスポーツにおけるデータの蓄積・解析が盛んに行われている。今回、野球におけるトラッキングデータに着目し、統計的な解析を行い捕手のフレーミングという技術の評価を目指した。野球におけるトラッキングシステムとは、球場内に設置された複数台のカメラからボールの軌道や速度を計測するものであり、その代表的なものにPITCHf/xがある。今回はボールのホーム到達時座標データに着目し、ロジスティック回帰を用いた解析を行った。各投球がストライクと判定されるか否かについての確率の評価を行うため、それらの位置データ対してスプライン関数を適用し、推定された確率と実際の判定との差を考えることにより捕手の貢献度を図る。また、ストライク判定に関わるであろう要因を変量効果パラメータとしたモデルに拡張を行い、それらの要因を調整することでフレーミングの評価を行った。永田大貴
(南研M2)
7/20時空間データを用いた死亡率の将来予測(各国ごとの)将来の死亡率を予測することは、食糧問題や保険料設定などのために重要な要素の一つである。その古典的な予測モデルとして、Lee-Carterモデル(Lee and Carter, 1998)が知られている。今回の発表では、Lee-Carterモデルの紹介および、その枠組みを用いたモデルの拡張について考察を行う。系行健
(白石研M2)

2015年度秋学期水曜セミナー予定表

日時タイトルアブストラクト発表者
9月30日ゲノム研究における多重比較と最近の話題についてゲノム研究では,同時観測された大量の遺伝情報を解析対象とします.例えば,マイクロアレイでは異なる条件下で遺伝子発現のようすを同時観測し,数万の候補の中から発現変動する遺伝子を見つけ出します.一塩基多型を測定するSNPチップではさらに多い数百万座位が候補となり,健常者と疾患罹患者のデータから疾患関連遺伝子を探索します.
それぞれの群間の違いは仮説検定によって評価することが求められますが,候補の数だけ繰り返される検定によって生じる誤りを正しく評価することも必須です.
本発表では,ゲノム研究でよく利用されるふたつの誤り指標(FamilyWise Error RateとFalse Discovery Rate)をその制御手法とともに紹介します.また,ゲノム研究成果を利用した商用サービスなど,より身近になりつつあるゲノム研究の最近の話題についても紹介する予定です.
菅谷 勇樹
(株式会社スタージェン 遺伝統計解析事業部)
10月7日最適配当境界の統計的推定保険会社の破産リスクに関する理論の応用として, 会社の余剰資本(サープラス)がある境界を上回ったときに, その部分を株主に返還する配当の問題がある.
今回の発表ではまず配当がある場合とない場合のサープラス過程をそれぞれ説明し, その上で累積配当金現在価値の期待値が最大となるように最適配当境界を定義する.
その後, 最適配当境界が満たす等式を用いてその表現を説明し, リサンプリングをもとに構成した推定量について, 漸近的性質を考える.
大石惇喜
(白石研M1)
10月14日極値統計学
入門
金融市場における変化や,自然災害の発生など私たちに大きな影響を与えるものは,観測されているデータのうち極端に大きい値や小さい値を取ったときに起こることが多い.そのようなデータに対して適用することができるものに極値統計学がある.
今回は極値データの捉え方なども含め,極値統計学の基礎的な部分を紹介する.発表では,まずどのようなデータが極値統計学で扱われているのかを具体的な例を示しながら紹介する.その後,一般極値分布(Generalized Extreme Distribution)を中心に理論的な部分を紹介する.
樫山文音
(南研M1)
10月21日遺伝子研究における差の検定とCancer Outlierについて近年マイクロアレイに代表される技術によって大規模データが生み出され,膨大な量の遺伝子を同時に調べることができるようになった. その際,がん関与遺伝子の候補として発現量が高いもの(もしくは低いもの)を探すのだが,その指標として用いられるものに統計量がある. 本発表ではいくつかの遺伝子研究に用いられる統計量の紹介を行うとともに,発展的な内容としてCancer Outlierについて解説を行う.早瀬亮
(南研M1)
10月28日高次元の下での有効フロンティアの統計的推定ポートフォリオ理論は、リスク回避的な投資家が分散投資を行い、自身のポートフォリオにおいてポートフォリオ収益率を高めるためには、どのように最適化すればよいかを決定するための理論である。 実際には、資産のリターンはランダムな変数であり、どのような平均と分散をもつ分布に従っているかは未知であるため、サンプルから大標本漸近理論を用いて推定することを考える。しかし、近年の株式市場などでは、市場の規模が大きくなっており、分散投資する資産の数が膨大となっているため、高次元データにおける解析を考える必要性が主張されている。
 本発表では、ポートフォリオによる実現可能領域の左側境界を表す有効フロンティア内のパラメータについて、高次元の仮定のもとでの漸近的挙動を調べる。その後、高次元の下での有効フロンティアの統計的推定を考える。
岡紘之
(白石研M1)
11月4日ファクターモデルにおけるファクターの推定量およびその性質現在 , 金融政策の決定などのために , 数年後の「インフレ率」「産出量成長率」などを予測することが求められている . しかし , 予測に利用する経済変数は「貨幣残高」「株価」「商品価格指標」「失業率数」など数 100 種類に及び , どれが良い変数なのか自明ではない . Stock and Watson(2002) は , 多くの経済変数から , 少ない数の共通変動 (factor) を抽出し予測に利用する factor model を提案した .
今回の発表では , Stock and Watson(2002) の提案する factor の推定および推定量の一致性について説明を行う予定である .
系行健(白石研M1)
11月11日一般化加法モデルを用いた、メジャーリーグトラッキングデータにおけるフォーシームの定量的分析現在、プロ野球リーグにおいて様々なデータ蓄積が行なわれている。特にメジャーリーグにおいてはセイバーメトリクスが発展しており、蓄積したデータの解析が盛んに行なわれ、科学的な見地から戦術解析や選手評価がなされている。今回の発表においては、投球の速度や軌道を計測するPITCHf/xシステムによって得られるデータ(トラッキングデータ)について簡単な説明を行った後に、ストレートのノビに着目し、空振りが取れるストレートとはどのようなものか考えたい。また定量的な分析を行うモデルとして一般化加法モデルを導入し、解析結果を示す。最後に、実際の2投手におけるストレートの比較を行い、両者のストレートがどの程度コンタクトしにくいボールなのかを考える。永田大貴(南研M1)
11月25日ROC曲線に基づいた統計モデルの評価・比較ROC曲線(受信者動作特性曲線)による解析は,生存/死亡など二値応答に関する統計モデルの「よさ」を評価するための方法である.ROC解析は,バイオマーカ―の評価やスクリーニング検査の精度評価など臨床医学において頻繁に利用されている.また,機械学習における教師あり学習においても,応用例がみられる.本発表では,ROC曲線の基本的な事項の理解を目指す.林賢一(教員)
12月2日統一的2値判別モデルに対する加速近接勾配法機械学習分野における様々な2値判別モデルに対して、汎用的かつ高速なアルゴリズムを提案した研究[1]について紹介する。 2値判別問題とは、与えられたサンプルが2つのクラスのどちらに属するかを予測する問題である。その予測の方法を最適化問題として記述したものが2値判別モデルであり、サポートベクターマシン(SVM)を始めとして多くのモデルが提案されている。高い予測精度を達成するためには、与えられたサンプル集合に対して最も当てはまりのいいモデルを選択することが重要である。モデルの当てはまりを比較するためには、実際に様々なモデルを解く必要があるため、それらの効率的な解法が必要となる。 従来は、各モデルに特化した効率的な解法/ソフトウェア (SVMに特化したLibLinearなど) が利用されてきたが、もし様々なモデルを統一的に扱える高速な解法があれば、より柔軟にモデル選択を行うことができる。本研究では、様々な2値判別モデルを統一的に記述したモデル[2] に対して、高速な解法を提案する。提案手法は、加速近接勾配法[3]をもとに様々な高速化の工夫を取り入れて設計した。数値実験では具体的にSVM等のモデルに対して、既存解法と提案手法を比較し、提案手法の大規模データでの優位性を示した。伊藤直樹(東大D1)
12月9日共変量欠測に対する回帰代入法の課題とその修正法大気中のPM2.5をはじめとする微小な粒子状物質の人体への影響が,近年憂慮されている.微小粒子状物質の人体への影響を調べるためには,コホート調査によって得られたデータと,コホート調査地域において観測された微小粒子状物質の大気中濃度突合して解析する必要がある.しかしながら,コホート調査地域における微小粒子状物質の観測は十分に行われておらず,ヨーロッパでの調査(ESCAPE PROJECT)においては,微小粒子状物質の未観測地点の濃度を,回帰代入法を用いて補完し解析を行っている.本発表ではまず,一般化線形モデルとM推定量とZ推定量の基本的な性質を述べる.その後に,回帰代入法を用いて解析する場合の課題と修正法を,正規線形モデル,ポアソン回帰モデルの枠組みで議論し,シミュレーションを通して修正法の有効性を示す.中村知繁(南研M2)
12月16日従属構造がある場合の大規模多重比較近年の技術の発達により遺伝子データのような大規模データに対する統計的推測が必要とされている。多重比較に対してはFDR(False Discovery Rate) と呼ばれる基準が提案され、効果をあげている。しかし,FDRをコントロールする多重比較法は仮説間の独立性を仮定したものが多く、その妥当性に関する議論が多く行われてきた。一方で従属構造を利用した多重比較の方法も提案されている。本発表ではまず,多重比較とFDRについて基本的な事柄を説明し、その後に,多重比較と重み付き判別の関係性、従属構造を利用した多重比較法について述べる。江本遼(南研M2)
1月13日最適配当境界の統計的推定保険には、会社を運営するにあたって、被保険者から集めた保険料と実際に運営に使われた経費との差額を被保険者に返金する「配当」という仕組みがある(すべての保険に配当の仕組みがあるわけではない).今回の発表では、保険金請求頻度がポアソン過程、個々の支払保険金額が指数分布に従うことを仮定して、最適配当境界(会社が破産するまでに支払われる配当期待値現価が最大となる配当境界)と、その最尤推定量を求め、漸近的性質を考える。八木彰子(白石研M1)

2015年度春学期水曜セミナー予定表

日時タイトル発表者
4/8水曜セミナーの説明と、全体の顔合わせなし
4/15丸め誤差のあるデータに対する適合度検定仲真弓さん
4/22Webアクセスログデータを用いたサイト閲覧行動の統計分析
〜インターネットマーケティングへの応用〜
猪狩良介さん
4/30(水曜振替)C-indexの推定について林賢一先生
5/6祝日なし
5/13ベイズ推論の基礎とシミュレーション法中村知繁(南研M2)
5/20Closure principleを用いた多重比較江本遼(南研M2)
5/27因果推論におけるマッチングについて小河有史(ゲスト)
6/3Copula and Dependence Structure -- Vine Copula Constructions小池孝明(南研M1)
6/10NMFを用いた文書データの特徴抽出とその解釈早瀬亮(南研M1)
6/17高次元データの解析岡紘之(白石研M1)
6/24現代ポートフォリオ理論およびその拡張
系行健(白石研M1)
7/1一般化線形モデルとその拡張樫山文音(南研M1)
7/8経時データに対するベイズモデルを用いた統計分析永田大貴(南研M1)
7/15グレブナー基底の理論と計算大石惇喜(白石研M1)
7/22保険料算出原理八木彰子(白石研M1)