معرفی روش MICE در ترمیم داده‌های گمشده هواشناسی و مقایسه با رگرسیون؛ مطالعه موردی: 130 سال دمای ماهانه مشهد، جاسک و بوشهر

نوع مقاله : پژوهشی

نویسندگان

1 دکترای هواشناسی کشاورزی، دانشگاه فردوسی مشهد، دانشکده کشاورزی، ایران

2 کارشناسی‌ارشد هیدرولوژی، دانشگاه آزاد اسلامی مشهد، ایران

چکیده

نیاز به داده‌های کامل و قابل اطمینان اولین گام در مطالعات اقلیمی است. داده‌های ناکامل، تحلیل‌های اقلیمی را دچار چالش می‌کند. اغلب در آب و هواشناسی داده‌های گمشده (ناکامل) وجود دارد. بنابراین کامل‌کردن داده‌ها (ترمیم) نیاز اولیه تحلیل‌هاست. روش‌های متعددی برای بازسازی داده‌ها وجود دارند که بسته به نوع داده و خصوصیات آب و هوایی هر منطقه متفاوت می‌باشند. بارش و دما از مهم‌ترین متغیرهای هوا و اقلیم‌شناسی هستند. طول دوره آماری اهمیت بسزایی در دقت تحلیل این دو متغیر دارد. دمای ماهانه سه شهر ایران شامل مشهد، بوشهر و جاسک از سال حدود 1890 در کتبی به نام World Weather Records موجود است. این اطلاعات دارای داده‌های گمشده می‌باشد، مخصوصاً همزمان با جنگ جهانی دوم (1941-1949) این داده‌های گمشده‌ مشهودتر هستند. هدف این پژوهش، افزایش دقت برآورد این داده‌های مفقود با معرفی روش کاربردی MICE و ارائه سری کامل دمای ماهانه در طول 130 سال است. بدین منظور، ایستگاه‌هایی از کشورهای مجاور به‌عنوان ایستگاه‌های مبنا انتخاب شدند. ابتدا داده‌های مفقود دمای ماهانه این سه ایستگاه با برازش الگوهای رگرسیونی ترمیم شدند (ریشه میانگین مربعات خطا 0/71 تا 0/94 درجه سانتیگراد). روش‌ کلاسیک رگرسیون نیازمند بررسی فرض‌های زیربنایی و آسیب‌شناسی است. این الگوها با روش MICE نیز برآورد شدند (ریشه میانگین مربعات خطا 0/39 تا 0/82 درجه سانتیگراد). نتایج مطالعه و اجرای این بسته در محیط Rstudio نشان از برتری این روش دارد. این روش برای داده‌های مفقود طراحی شده، مشکلات رگرسیون را نداشته و قابلیت‎های زیادی دارد. لذا برای ترمیم داده‌های گمشده آب و هواشناسی پیشنهاد می‌شود.

کلیدواژه‌ها


ارقامی، ن.ر.، سنجری، ن. و بزرگ‌نیا، الف. 1380. مقدمه‌ای بر بررسی‌های نمونه‌ای. چاپ چهارم، انتشارات دانشگاه فردوسی مشهد.
خلیلی، ع. و بذرافشان، ج. 1387. ارزیابی مخاطره تداوم خشک‌سالی با استفاده از داده‌های بارندگی سالانه قرن گذشته در ایستگاه‌های قدیمی ایران. مجله ژئوفیزیک ایران، 2(2): 13- 23.
رضایی‌ پژند، ح. و بزرگ نیا. الف. 1381. تحلیل رگرسیون غیرخطی و کاربردهای آن. انتشارات دانشگاه فردوسی مشهد. 
فرزندی، م.، رضایی پژند, ح. و ثنائی نژاد، ح. 1393. ترمیم و گسترش 127 سال دمای ماهانه مشهد. مجله پژوهش‌های اقلیم‌شناسی، 5(17): 111- 123. 

Deng Y, Chang C, Ido MS, Long Q. 2016, Multiple Imputation for General Missing Data Patterns in the Presence of High-dimensional Data. Sci Rep. 6:21689 .
Edmond F.S., Victor A.K. and Khalid M. 1973. Floods and droughts, Water Resources Publications. Proceedings of the Second International Symposium in Hydrology, 679 pages.
Ghahraman B. and Ahmadi F. 2007. Applica tion of geo statistics in time series: Mashhad Annual Rainfall. Iran-Watershed Management Science & Engineering, 1(1):7-15.  
Iqbal M., Wen J., Wang Sh., Tian Hu. and Adnan M. 2018. Variations of precipitation characteristics during the period 1960-2014 in the Source Region of the Yellow River, China. Journal of Arid Land, 10(3): 388-401.  
Jacob D., Reed D.W. and Robson A.J. 1999. Choosing a pooling group. Flood Estimation Handbook. Vol. 3. Institute of Hydrology, Wallingford, UK.
Little R.JA. and Rubin D.B. 2002. Statistical analysis with missing data. John Wiley & Sons.‏
Melissa J. A, Elizabeth A. S., Constantine F., and Philip J. L., 2011, Multiple imputation by chained equations: what is it and how does it work?, Int J Methods Psychiatr Res. 20(1): 40–49.
Porto de Carvalho  J.R, Boffinho Almeida Monteir, J.E., Nakai, A.M., Assad E.D., 2017, Model for Multiple Imputation to Estimate Daily Rainfall Data and Filling of Faults. Revista Brasileira de Meteorologia, 32(4): 575-583.
Ranhao, S., Baiping, Z., and Jing, T., 2008, A Multivariate Regression Model for Predicting Precipitation in the Daqing Mountains, Mountain Research and Development, 28(3):318-325.
Scheffer J. 2002. Dealing with missing data. Research Letters in the Information and Mathematical Sciences, 3:153-160. 
Smithsonian Institution. 1934. World weather records, 1921-1930, Smithson. Miss C. Collect. pp 639.
Smithsonian Institution. 1947. World weather records, 1931-1940, Smithson. Miss C. Collect. pp 666
Smithsonian Institution. 1927. World weather records, 1750-1920, Smithson. Miss C. Collect. pp 1199.
Van Buuren S. 2018. Flexible Imputation of Missing Data. 2nd. Chapman & Hall/CRC Interdisciplinary Statistics.
Van Buuren S. and Groothuis-Oudshoorn K. 2011. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software, 45( 3): 1-67.
Yozgatligil C., Aslan S., Iyigun C. and Batmaz I. 2013. Comparison of missing value imputation methods in time series: the case of Turkish meteorological data. Theory Apply Climatology, 112: 143–167.