Posts

Top 10 Great Sites with Free Data Sets

# 1 data.world # 2  Kaggle # 3 FiveThirthyEight # 4  BuzzFeed # 5  Data.gov # 6 Socrata OpenData # 7  Quandl # 8 Reddit or r/datasets # 9 UCI Machine Learning Repository # 10 Academic Torrents https://towardsdatascience.com/top-10-great-sites-with-free-data-sets-581ac8f6334 #database #data_analysis #free #sites @bioinformatics101

یادگیری ماشین بخش سوم

Image
نوع دیگر دسته‌بندی یادگیری ماشین بر اساس خروجی آن است. در روش دسته‌بندی، (معمولا در یادگیری نظارتی) ورودی به دو بخش یا بیشتر تقسیم می‌شوند. برای مثال در مورد ایمیل‌ها، به دو گروه اسپم و غیر اسپم. در رگرسیون، ما خروجی‌های مقادیر پیوسته را پیش‌بینی می‌کنیم. برای مثال، پیش‌بینی قیمت خانه یا ارزش سهام. در روش خوشه‌بندی، ورودی‌ها به گروه‌های مختلف تقسیم می‌شوند که در خلاف روش دسته‌بندی، این گروه‌ها برچسبی ندارند و ناشناخته می‌باشند که جزو یادگیری بدون ناظر به شمار می‌آیند. در روش تخمین تراکم، پراکنش ورودی‌ها را پیدا می‌کند. برای مثال، از روی نتایج آزمایش دیابت تعدادی از مردم، می‌تواند پراکنش آن را در کل جمعیت تخمین زد. در روش کاهش ابعاد، ورودی‌ها را به ابعاد پایین‌تر ساده می‌شوند.

به پا خواستن دانشمندان در مقابل معناداری آماری

آخرین باری که در یک سمینار از سخنرانش، شنیدید اظهار کند که به دلیل "نبود تفاوت معنی‌دار"، هیچ تفاوتی بین دو گروه وجود ندارد کی بود؟ بعد یکی از حاضرین شوکه شده که از روی جداول و نمودارها کاملا قابل مشاهده است که تفاوت معنادار است. برای مدت‌ها، به پژوهشگران هشدار داده شده است که نبود تفاوت معنادار، به معنی اثبات فرضیه H0 (فرضیه‌ای که نشان از چیز خاصی ندارد) نمی‌باشد. و همینطور عکس آن که تفاوت معنادار به معنی اثبات فرضیه‌های دیگر نیست. بگذارید تا بگوییم چه چیزی از این پس باید شفاف بشود: ما نباید هیچوقت برداشت کنیم که هیچ تفاوت یا هیچ همبستگی وجود ندارد آن هم فقط به دلیل این که P value بالاتر از یا مساوی 0.05 است. بحث بین دو گروهی که مطالعاتشان بر خلاف یکدیگر، یکی معنادار و دیگری غیر آن، که آن هم می‌تواند حاصل خطا باشد، فقط باعث هدر رفت انرژی و توان پژوهشگران می‌شود. اطلاعات بیشتر در بلاگ نیچر: https://www.nature.com/articles/d41586-019-00857-9 #bioinformatics #paper #statistics #p_value #research #error 📣 لطفا به اشتراک بگذارید https://t.me/bioinformatics101

نرمال‌سازی خوانش‌ها (Reads)

در مورد RPKM و FPKM و TPM که در آنالیز داده‌های RNAseq با آنها روبرو هستیم، اولی به معنی خوانش در هر هزارباز میلیون، دومی فرگمنت در هر هزارباز میلیون و سومی به معنی ترنسکریپت در میلیون است. اینکه از کدام باید استفاده کرد بر طبق این مقاله توصیه می‌شود که از TPM استفاده شود آن هم به این دلیل است که برای مقایسه نمونه‌های (کتابخانه‌ها) مختلف، می‌تواند یک مشکل بزرگ که عمق توالی‌یابی متفاوت در نمونه‌های مختلف است را حل کند. برای توضیحات بیشتر شما را به این مقاله رجوع می‌دهم. 📣 لطفا به اشتراک بگذارید https://link.springer.com/article/10.1007/s12064-012-0162-3 #rnaseq #normalizing #paper #analyzing @bioinformatics101

داکر (Docker) و container

داکر یک پروژه open-source هست که اگر بخواهیم به طور خلاصه بگوییم، یک محیط (Environment) ایزوله را برای کاربر می‌سازد تا بتواند از ورژن‌ها و محیط‌های مختلف برای کدنویسی و developing استفاده کند. برای اطلاعات بیشتر توصیه می‌کنم که حتما این ویدیو ۱۰ دقیقه‌ای را در یوتیوب مشاهده بفرمایید: https://youtu.be/aLipr7tTuA4 https://www.docker.com لطفا به اشتراک بگذارید #bioinformatics #programming #docker #container #version_control @bioinformatics101

ده فرمان یادگیری کدنویسی

یک. اهدافتون رو کوتاه مدت در نظر بگیرین. مثلا اگه قراره برای مقاله‌تون نمودارهای خوبی رو طراحی کنید، پس همین الان باید شروع کنید پکیج ggplot2 مربوط به زبان R رو یاد بگیرین. دو. همه چیز رو به یکباره نمیشه یاد گرفت. نمیتونید همه R رو یک جا یاد بگیرین، به جاش سعی کنید یک چیز و کار به خصوص رو در اون زمینه یاد بگیرین و خیلی زود میفهمین که در حال پیشرفت هستید و کدها براتون آشنا به نظر میاد. سه. مشکلات و مسائل رو به مشکلات و مسائل کوچیک‌تر تقسیم کنید. چهار. از اشتباه کردن در کدنوسی نترسید. پنج. در مورد git سعی کنید ازش استفاده کنید، مخصوصا Github پیشنهاد میشه. شش. از برنامه‌نویس‌های دیگه کمک بخواید. مثل biostars و stackoverflow هفت. برنامه‌نویس عالی، یه برنامه‌نویس تنبله، یادتون نره. هشت. در طول هفته وقت کافی برای یاد گرفتن بذارین. نهم. از کارگاه ها و جلسات برنامه‌نوسی‌ها استفاده کنید. دهم. از همین امروز شروع کنید. https://www.nature.com/articles/d41586-019-00653-5 #r #productivity #programming @bioinformatics101

یادگیری ماشین بخش دوم

الگوریتم‌های یادگیری ماشین را می‌توان به ۳ دسته تقسیم کرد: ۱. یادگیری نظارتی، ورودی به همراه خروجی مطلوب داده میشه و هدف اینه که یک سری قواعد عمومی برای یادگیری رسیدن از ورودی به خروجی به دست بیاد. یک مثال آن، فیلتر اسپم ایمیل است. ۲. یادگیری بدون ناظر، هیچ برچسبی به الگوریتم داده نمی‌شود و همه چی را به خودش واگذار میکنیم تا از ورودی یک الگو پیدا کند. برای مثال، تصور کنید یک مجموعه داده از ماشین‌ها و خریدارهای آن داریم. این الگوریتم توانسته این را بفهمد که خریدارانی که ساکنین حومه شهر هستند ترجیح میدهند که SUV با موتور پترول بخرند در حالی که خریداران ساکن مرکز شهر ترجیح میدهند از یک خودرو الکتریکی و کوچک استفاده کنند. دانستن این قضیه به سیستم کمک می‌کند تا بتواند پیشبینی کند چه کسی چه خودرویی را خریداری خواهد کرد. ۳. یادگیری تقویتی، برنامه کامپیوتری با یک محیط پویا وارد برهمکنش می‌شود که باید بتواند به یک هدف خاص برسد مثل بازی کردن در مقابل یک رغیب. این برنامه در طی حل مسئله، بازخوردهایی را به عنوان تنبیه یا جایزه فراهم میکند. #machine_learning photo:Frank V.