Posts

Showing posts from 2019

Top 10 Great Sites with Free Data Sets

# 1 data.world # 2  Kaggle # 3 FiveThirthyEight # 4  BuzzFeed # 5  Data.gov # 6 Socrata OpenData # 7  Quandl # 8 Reddit or r/datasets # 9 UCI Machine Learning Repository # 10 Academic Torrents https://towardsdatascience.com/top-10-great-sites-with-free-data-sets-581ac8f6334 #database #data_analysis #free #sites @bioinformatics101

یادگیری ماشین بخش سوم

Image
نوع دیگر دسته‌بندی یادگیری ماشین بر اساس خروجی آن است. در روش دسته‌بندی، (معمولا در یادگیری نظارتی) ورودی به دو بخش یا بیشتر تقسیم می‌شوند. برای مثال در مورد ایمیل‌ها، به دو گروه اسپم و غیر اسپم. در رگرسیون، ما خروجی‌های مقادیر پیوسته را پیش‌بینی می‌کنیم. برای مثال، پیش‌بینی قیمت خانه یا ارزش سهام. در روش خوشه‌بندی، ورودی‌ها به گروه‌های مختلف تقسیم می‌شوند که در خلاف روش دسته‌بندی، این گروه‌ها برچسبی ندارند و ناشناخته می‌باشند که جزو یادگیری بدون ناظر به شمار می‌آیند. در روش تخمین تراکم، پراکنش ورودی‌ها را پیدا می‌کند. برای مثال، از روی نتایج آزمایش دیابت تعدادی از مردم، می‌تواند پراکنش آن را در کل جمعیت تخمین زد. در روش کاهش ابعاد، ورودی‌ها را به ابعاد پایین‌تر ساده می‌شوند.

به پا خواستن دانشمندان در مقابل معناداری آماری

آخرین باری که در یک سمینار از سخنرانش، شنیدید اظهار کند که به دلیل "نبود تفاوت معنی‌دار"، هیچ تفاوتی بین دو گروه وجود ندارد کی بود؟ بعد یکی از حاضرین شوکه شده که از روی جداول و نمودارها کاملا قابل مشاهده است که تفاوت معنادار است. برای مدت‌ها، به پژوهشگران هشدار داده شده است که نبود تفاوت معنادار، به معنی اثبات فرضیه H0 (فرضیه‌ای که نشان از چیز خاصی ندارد) نمی‌باشد. و همینطور عکس آن که تفاوت معنادار به معنی اثبات فرضیه‌های دیگر نیست. بگذارید تا بگوییم چه چیزی از این پس باید شفاف بشود: ما نباید هیچوقت برداشت کنیم که هیچ تفاوت یا هیچ همبستگی وجود ندارد آن هم فقط به دلیل این که P value بالاتر از یا مساوی 0.05 است. بحث بین دو گروهی که مطالعاتشان بر خلاف یکدیگر، یکی معنادار و دیگری غیر آن، که آن هم می‌تواند حاصل خطا باشد، فقط باعث هدر رفت انرژی و توان پژوهشگران می‌شود. اطلاعات بیشتر در بلاگ نیچر: https://www.nature.com/articles/d41586-019-00857-9 #bioinformatics #paper #statistics #p_value #research #error 📣 لطفا به اشتراک بگذارید https://t.me/bioinformatics101

نرمال‌سازی خوانش‌ها (Reads)

در مورد RPKM و FPKM و TPM که در آنالیز داده‌های RNAseq با آنها روبرو هستیم، اولی به معنی خوانش در هر هزارباز میلیون، دومی فرگمنت در هر هزارباز میلیون و سومی به معنی ترنسکریپت در میلیون است. اینکه از کدام باید استفاده کرد بر طبق این مقاله توصیه می‌شود که از TPM استفاده شود آن هم به این دلیل است که برای مقایسه نمونه‌های (کتابخانه‌ها) مختلف، می‌تواند یک مشکل بزرگ که عمق توالی‌یابی متفاوت در نمونه‌های مختلف است را حل کند. برای توضیحات بیشتر شما را به این مقاله رجوع می‌دهم. 📣 لطفا به اشتراک بگذارید https://link.springer.com/article/10.1007/s12064-012-0162-3 #rnaseq #normalizing #paper #analyzing @bioinformatics101

داکر (Docker) و container

داکر یک پروژه open-source هست که اگر بخواهیم به طور خلاصه بگوییم، یک محیط (Environment) ایزوله را برای کاربر می‌سازد تا بتواند از ورژن‌ها و محیط‌های مختلف برای کدنویسی و developing استفاده کند. برای اطلاعات بیشتر توصیه می‌کنم که حتما این ویدیو ۱۰ دقیقه‌ای را در یوتیوب مشاهده بفرمایید: https://youtu.be/aLipr7tTuA4 https://www.docker.com لطفا به اشتراک بگذارید #bioinformatics #programming #docker #container #version_control @bioinformatics101

ده فرمان یادگیری کدنویسی

یک. اهدافتون رو کوتاه مدت در نظر بگیرین. مثلا اگه قراره برای مقاله‌تون نمودارهای خوبی رو طراحی کنید، پس همین الان باید شروع کنید پکیج ggplot2 مربوط به زبان R رو یاد بگیرین. دو. همه چیز رو به یکباره نمیشه یاد گرفت. نمیتونید همه R رو یک جا یاد بگیرین، به جاش سعی کنید یک چیز و کار به خصوص رو در اون زمینه یاد بگیرین و خیلی زود میفهمین که در حال پیشرفت هستید و کدها براتون آشنا به نظر میاد. سه. مشکلات و مسائل رو به مشکلات و مسائل کوچیک‌تر تقسیم کنید. چهار. از اشتباه کردن در کدنوسی نترسید. پنج. در مورد git سعی کنید ازش استفاده کنید، مخصوصا Github پیشنهاد میشه. شش. از برنامه‌نویس‌های دیگه کمک بخواید. مثل biostars و stackoverflow هفت. برنامه‌نویس عالی، یه برنامه‌نویس تنبله، یادتون نره. هشت. در طول هفته وقت کافی برای یاد گرفتن بذارین. نهم. از کارگاه ها و جلسات برنامه‌نوسی‌ها استفاده کنید. دهم. از همین امروز شروع کنید. https://www.nature.com/articles/d41586-019-00653-5 #r #productivity #programming @bioinformatics101

یادگیری ماشین بخش دوم

الگوریتم‌های یادگیری ماشین را می‌توان به ۳ دسته تقسیم کرد: ۱. یادگیری نظارتی، ورودی به همراه خروجی مطلوب داده میشه و هدف اینه که یک سری قواعد عمومی برای یادگیری رسیدن از ورودی به خروجی به دست بیاد. یک مثال آن، فیلتر اسپم ایمیل است. ۲. یادگیری بدون ناظر، هیچ برچسبی به الگوریتم داده نمی‌شود و همه چی را به خودش واگذار میکنیم تا از ورودی یک الگو پیدا کند. برای مثال، تصور کنید یک مجموعه داده از ماشین‌ها و خریدارهای آن داریم. این الگوریتم توانسته این را بفهمد که خریدارانی که ساکنین حومه شهر هستند ترجیح میدهند که SUV با موتور پترول بخرند در حالی که خریداران ساکن مرکز شهر ترجیح میدهند از یک خودرو الکتریکی و کوچک استفاده کنند. دانستن این قضیه به سیستم کمک می‌کند تا بتواند پیشبینی کند چه کسی چه خودرویی را خریداری خواهد کرد. ۳. یادگیری تقویتی، برنامه کامپیوتری با یک محیط پویا وارد برهمکنش می‌شود که باید بتواند به یک هدف خاص برسد مثل بازی کردن در مقابل یک رغیب. این برنامه در طی حل مسئله، بازخوردهایی را به عنوان تنبیه یا جایزه فراهم میکند. #machine_learning photo:Frank V.

یادگیری ماشین (ML)

یادگیری ماشین، توانایی یادگیری را بدون برنامه خاصی به کامپیوترها میدهد. توانایی آنالیز داده، استخراج اطلاعات و یادگرفتن از این داده‌ها. در نتیجه ماشین لرنینگ به این معنی ست که با نوشتن الگوریتم‌های مختلف، برنامه بتواند از داده‌ها یاد بگیرد و پیشبینی کند. مثال‌های بارز ML : پیشنهادات آمازون بر اساس جستجوهایی که مشتری انجام داده است. جستجوی گوگل اتومبیل‌های خودران اسپم‌های ایمیل داده‌های بیشتر، دقت یادگیری را نیز بالاتر می‌برد، به همین علت هر چقدر شما در آمازون سرچ بیشتری بکنید، پیشنهاداتی که آمازون برای خرید محصولاتش به شما  می‌دهد دقیق‌تر است. این نوع از یادگیری بسیار شبیه عمکرد ما انسان‌ها برای یادگیری است. #machine_learning

تکرار پذیری نتایج و reproducibility

در سال‌های اخیر نشریه‌های مختلف از نویسندگان تقاضا می‌کند تا reproducibility را در کارهای خود رعایت کنند و اطلاعات مربوطه را به همراه مقاله برای نشریه بفرستند. این اطلاعات می‌تواند ورژن نرم‌افزار مورد استفاده، کدهایی که نوشته شده، ورژن، نوع و شرکت سازنده کیت آزمایشگاهی، نوع و شرکت سازنده وسایل آزمایشگاه، زمان نمونه‌گیری، تست‌های آماری مورد استفاده در آنالیز داده‌ها و بسیاری دیگر از اطلاعاتی که می‌تواند به reproducibility بودن نتایج آزمایش کمک کند تا پژوهشگران دیگر بتوانند نتایج نزدیک به مطالعه پیشین بدست آورند. نشریه Nature یکی از بزرگترین نشریه‌هایی است که انرژی بسیاری را در این زمینه گذاشته است. به گفته خود این نشریه آمده است که: Nature Research wishes to improve the reproducibility of the work that we publish. This form provides structure for consistency and transparency in reporting. باید خاطر نشان کرد که نشریه‌های مختلف به صورت روز افزون این نوع از سیاست‌ها را بیش از پیش رعایت می‌کنند و برای افزایش کیفیت مقالات و کارهای علمی خواهان اعمال آن‌ها می‌شوند. برای اطلاعت بیشتر...

استفاده از ژنومیکس برای تشخیص زود هنگام سرطان ریه

روش‌هایی که بتوان از آن برای تشخیص زودهنگام سرطان استفاده کرد می‌تواند برای بهبود درمان و نتایج آن بسیار حیاتی باشد. در مورد سرطان ریه که ۱ میلیون و نیم نفر از مردم در سال در اثر این سرطان می‌میرند، این مسئله می‌تواند بسیار کاربردی‌تر نیز باشد. پژوهشگران یک تحقیق که در چند روز پیش در نشریه Nature چاپ شد، از ۸۵ بیمار، ۱۲۹ نمونه از ریه گرفتند که مورد آزمایش‌های Expression profiling, Methylation profiling و Whole-genome DNA sequencing قرار گرفتند. این پژوهشگران تفاوت‌های موجود در ژنوم مانند جهش‌ها، بیان ژن و پایداری کروموزومی در این بیماران را مورد بررسی قرار دادند. نتایج نشان داد که با استفاده از این روش‌ها و داده‌هایی که از آن به‌دست می‌آید، می‌توان برای تصمیم‌گیری و مدیریت روش درمانی استفاده کرد. نویسنده اول این مقاله در مصاحبه خود با GEN گفت که اگر ما بتوانیم از این یافته‌های جدید برای ایجاد تست‌های تشخیصی جدید استفاده کنیم، شاید در آینده‌ای نزدیک حتی می‌توان بیماران را قادر ساخت تا در مراحل بسیار ابتدایی سرطان بتوانند به درمان آن دسترسی پیدا کنند. https://www.nature.com/artic...

پزشکی شخصی

پزشکی شخصی با آنالیز داده‌های بیمار می‌تواند استراتژی‌های درمانی به خصوصی را برای تک تک بیماران پیدا کند. داده‌هایی که امروزه در دسترس هستند پتانسیل این را دارند تا با آن به تشخیص، درمان و پیشگیری از بیماری پرداخت. البته تمام این‌ها بستگی به توسعه مدل‌های پیشبینی، مدیریت، سازماندهی و به طور کلی آنالیز حجم زیاد داده‌ها دارد که به این داده‌ها Big Data گفته می‌شود. با ابداع نسل بعدی توالی یابی یا همان NGS، تولید داده‌های مربوط به بیماران به طور بسیار قابل توجهی افزایش یافته است. برای مدیریت این داده‌ها از تکنولوژی‌های panomic استفاده می‌شود که ترکیبی از ژنومیکس، اپی‌ژنومیکس، پروتئومیکس و متابولومیکس می‌باشد. پلتفرم‌های بر پایه فضای ابری (Cloud-based) می‌توانند به صورت عملی، مدیریت big data را با استفاده از فضای ابری که نتیجه آن هیچ محدودیت فضای ذخیره و اشتراک‌گذاری آنالیز کنند. این پلتفرم‌ها به آزمایشگاه‌ها اجازه می‌دهند تا با استفاده از یک پلتفرم، پروسه دریافت داده‌ها، ذخیره داده‌ها به صورت چند بعد و انواع آنالیزهای مختلف را به صورت اتوماتیک انجام دهند. بسیاری از مدل‌های پیشبینی ک...

پلتفرم Galaxy

این پلتفرم بر پایه وب، برای تحقیقات محاسباتی بیومدیکال و بیوانفورماتیک استفاده می‌شود. این پلتفرم در ایالت پنسیلوانیا، در جان هاپکینز، OHSU و کلینیک Cleveland که به صورت Open source تحت لایسنس Academic Free License توسعه یافت. این پلتفرم تا به حال بیش از ۶۵۰۰ رفرنس دریافت کرده است و دارای بیش از ۱۰۰ سرور عمومی و بیشتر از آن سرور غیرعمومی می‌باشد. از مزایای این پلتفرم میشه به در دسترس بودن و رابط کاربری دوستانه که نیازی به کدنویسی ندارد، اجرا کردن انواع مختلفی از آنالیزها و workflows و همینطور تجسم داده اشاره کرد. مزیت دیگر این پلتفرم، قابل تکرار بودن آنالیزها است. کاربران حتی می‌توانند با این پلتفرم، آنالیزها و نتایج آن را نشر داد. https://galaxyproject.org

به چه دلیل پست داک نمی‌تواند به شما برای رسیدن به کار بهتر کمک کند؟

در دو تحقیق نشان داده شده است که مهارت‌هایی که در پست داک یاد گرفته می‌شود ممکن است کمکی چندانی به شغل‌هایی که در آینده در بیرون از محیط آکادمیک وجود دارد، نکند. یکی از این مطالعات نشان داد که بین مهارت‌هایی که در پست داک فراگرفته می‌شود و مهارت‌هایی که توسط کارفرما مورد نیاز است، شکاف وجود دارد. https://www.nature.com/articles/d41586-018-07652-y

رشد زبان برنامه‌نویسی R در میان زبان‌های دیگر بسیار چشمگیر است

در واقع رشد استفاده از R را می‌توان مانند زبان Python دانست. در دنیای امروز داده‌ها به طور روز افزون تولید می‌شوند و این باعث ایجاد حجم بسیار بالایی از داد‌ه‌ها خواهد شد، از کاربردهای آکادمیک و سلامت گرفته تا شرکت‌های کوچک. همه این داده‌ها که می‌توان به آن Big Data هم نامید، نیاز به آنالیز دارند. برای این کار بهترین گزینه‌ای که در دسترس می‌باشد، استفاده از R است به همین خاطر این زبان محبوب‌ترین زبان برنامه‌نویسی در میان Data Scientists نیز می‌باشد. بیشترین استفاده از R در بخش‌های آکادمیک و سلامت می‌باشد. در زمینه سلامت، اولین انتخاب متخصصان زیست آماری (biostatisticians) زبان R است که از آن برای مطالعات کلینیکی و بیوانفورماتیک استفاده می‌شود. بر اساس آنالیزهایی که توسط Kaggle انجام شده، بیشترین پکیج‌هایی که در R استفاده می‌شوند عبارتند از dplyr, ggplot2, data.tanle, shiny و plyr که بیشتر این پکیج‌های محبوب توسط Hadley Wickham نوشته شده است. https://stackoverflow.blog/2017/10/10/impressive-growth-r/

چه زبان‌های برنامه‌نویسی بیشترین استفاده را در بیوانفورماتیک دارند؟

سه زبان عمده‌ای که در جامعه بیوانفورماتیک استفاده می‌شوند، "R" آر، "Python" پایتون و "Bash"بش هستند. زبان نخست، R که یک زبان برنامه‌نویسی سطح بالا به حساب می‌آید، با هدف انجام عملیات‌های مختلف آماری در سال توسط Ross Ihaka و Robert Gentleman در دانشگاه اوکلند خلق شد که نخستین ورژن پایدار آن در سال ۲۰۰۰ آزاد شد. برای اطلاعات بیشتر حتما به این صفحه مراجعه کنید. پایتون زبان سطح بالای دیگری است که کاربردهای بسیاری را از محیط آکادمیک، آنالیز داده و هوش مصنوعی گرفته تا طراحی صفحات وب دارد. این زبان توسط Guido van Rossum خلق شد و در سال ۱۹۹۱ اولین ورژن پایدار آن در دسترس همه قرار گرفت. پایتون دارای ۳ ورژن است که آخرین ورژن آن در سال ۲۰۰۸ در دسترس عموم قرار گرفت. بش Bash یک زبان از نوع اسکریپتی می‌باشد که در شل Shell به صورت فرمان (command) نوشته و اجرا می‌شود. این زبان مخصوص سیستم عامل یونیکس (Unix) می‌باشد که می‌توان از مکینتاش و انواع لینوکس نام برد. از کاربردهای اصلی این زبان می‌توان به مدیریت فایل‌ها و داده‌ها اشاره کرد. لینک مفید: http://omgenomics....

دانشمند بچه‌های کریسپری از دانشگاه خود اخراج شد

دانشمندی که در سال ۲۰۱۸ وجود نخستین بچه‌های ویرایش ژن را اعلام کرد، از دانشگاه خود اخراج شد. این تصمیم در ۲۱ ژانویه توسط دانشگاه علوم و تکنولوژی جنوب غرب واقع در شنزن در جنوب چین اعلام شد. مثل اینکه این اتفاق مربوط به ویرایش ژنی بوده که ایشان انجام داده و طی مواردی تحت پیگردهای قانونی قرار گرفته است. https://www.nature.com/articles/d41586-019-00246-2

bioRxiv

بر اساس آنالیز انجام شده بر روی ۳۷۶۴۸ مقاله پیش-چاپ bioRxiv در ۵ سال، تعداد مقالات پیش-چاپ که محققان در سال ۲۰۱۸ در bioRxiv آپلود کرده‌اند، از کل ۴ سال پیش بیشتر می‌باشد. نتایج دیگری که از این آنالیز به‌دست آمد این بود که تعداد دانلود در ماه به یک میلیون رسیده است. بیشتر مقالات پیش-چاپ که آپلود و یا دانلود شده‌اند مربوط به رشته‌های نوروساینس و بیوانفورماتیک است. در رتبه سوم تا ششم نیز بیولوژی تکاملی، ژنتیک، ژنومیکس و میکروبیولوژی قرار دارند. همان طور که در تصویر مشخص است، تا همین اواخر بیوانفورماتیک بیشترین دانلود و آپلود را داشته است که این نشان‌دهنده اهمیت روز افزون این رشته در دنیا است. Reference: https://www.biorxiv.org/content/10.1101/515643v1