Posts

Showing posts from February, 2019

یادگیری ماشین بخش دوم

الگوریتم‌های یادگیری ماشین را می‌توان به ۳ دسته تقسیم کرد: ۱. یادگیری نظارتی، ورودی به همراه خروجی مطلوب داده میشه و هدف اینه که یک سری قواعد عمومی برای یادگیری رسیدن از ورودی به خروجی به دست بیاد. یک مثال آن، فیلتر اسپم ایمیل است. ۲. یادگیری بدون ناظر، هیچ برچسبی به الگوریتم داده نمی‌شود و همه چی را به خودش واگذار میکنیم تا از ورودی یک الگو پیدا کند. برای مثال، تصور کنید یک مجموعه داده از ماشین‌ها و خریدارهای آن داریم. این الگوریتم توانسته این را بفهمد که خریدارانی که ساکنین حومه شهر هستند ترجیح میدهند که SUV با موتور پترول بخرند در حالی که خریداران ساکن مرکز شهر ترجیح میدهند از یک خودرو الکتریکی و کوچک استفاده کنند. دانستن این قضیه به سیستم کمک می‌کند تا بتواند پیشبینی کند چه کسی چه خودرویی را خریداری خواهد کرد. ۳. یادگیری تقویتی، برنامه کامپیوتری با یک محیط پویا وارد برهمکنش می‌شود که باید بتواند به یک هدف خاص برسد مثل بازی کردن در مقابل یک رغیب. این برنامه در طی حل مسئله، بازخوردهایی را به عنوان تنبیه یا جایزه فراهم میکند. #machine_learning photo:Frank V.

یادگیری ماشین (ML)

یادگیری ماشین، توانایی یادگیری را بدون برنامه خاصی به کامپیوترها میدهد. توانایی آنالیز داده، استخراج اطلاعات و یادگرفتن از این داده‌ها. در نتیجه ماشین لرنینگ به این معنی ست که با نوشتن الگوریتم‌های مختلف، برنامه بتواند از داده‌ها یاد بگیرد و پیشبینی کند. مثال‌های بارز ML : پیشنهادات آمازون بر اساس جستجوهایی که مشتری انجام داده است. جستجوی گوگل اتومبیل‌های خودران اسپم‌های ایمیل داده‌های بیشتر، دقت یادگیری را نیز بالاتر می‌برد، به همین علت هر چقدر شما در آمازون سرچ بیشتری بکنید، پیشنهاداتی که آمازون برای خرید محصولاتش به شما  می‌دهد دقیق‌تر است. این نوع از یادگیری بسیار شبیه عمکرد ما انسان‌ها برای یادگیری است. #machine_learning

تکرار پذیری نتایج و reproducibility

در سال‌های اخیر نشریه‌های مختلف از نویسندگان تقاضا می‌کند تا reproducibility را در کارهای خود رعایت کنند و اطلاعات مربوطه را به همراه مقاله برای نشریه بفرستند. این اطلاعات می‌تواند ورژن نرم‌افزار مورد استفاده، کدهایی که نوشته شده، ورژن، نوع و شرکت سازنده کیت آزمایشگاهی، نوع و شرکت سازنده وسایل آزمایشگاه، زمان نمونه‌گیری، تست‌های آماری مورد استفاده در آنالیز داده‌ها و بسیاری دیگر از اطلاعاتی که می‌تواند به reproducibility بودن نتایج آزمایش کمک کند تا پژوهشگران دیگر بتوانند نتایج نزدیک به مطالعه پیشین بدست آورند. نشریه Nature یکی از بزرگترین نشریه‌هایی است که انرژی بسیاری را در این زمینه گذاشته است. به گفته خود این نشریه آمده است که: Nature Research wishes to improve the reproducibility of the work that we publish. This form provides structure for consistency and transparency in reporting. باید خاطر نشان کرد که نشریه‌های مختلف به صورت روز افزون این نوع از سیاست‌ها را بیش از پیش رعایت می‌کنند و برای افزایش کیفیت مقالات و کارهای علمی خواهان اعمال آن‌ها می‌شوند. برای اطلاعت بیشتر...

استفاده از ژنومیکس برای تشخیص زود هنگام سرطان ریه

روش‌هایی که بتوان از آن برای تشخیص زودهنگام سرطان استفاده کرد می‌تواند برای بهبود درمان و نتایج آن بسیار حیاتی باشد. در مورد سرطان ریه که ۱ میلیون و نیم نفر از مردم در سال در اثر این سرطان می‌میرند، این مسئله می‌تواند بسیار کاربردی‌تر نیز باشد. پژوهشگران یک تحقیق که در چند روز پیش در نشریه Nature چاپ شد، از ۸۵ بیمار، ۱۲۹ نمونه از ریه گرفتند که مورد آزمایش‌های Expression profiling, Methylation profiling و Whole-genome DNA sequencing قرار گرفتند. این پژوهشگران تفاوت‌های موجود در ژنوم مانند جهش‌ها، بیان ژن و پایداری کروموزومی در این بیماران را مورد بررسی قرار دادند. نتایج نشان داد که با استفاده از این روش‌ها و داده‌هایی که از آن به‌دست می‌آید، می‌توان برای تصمیم‌گیری و مدیریت روش درمانی استفاده کرد. نویسنده اول این مقاله در مصاحبه خود با GEN گفت که اگر ما بتوانیم از این یافته‌های جدید برای ایجاد تست‌های تشخیصی جدید استفاده کنیم، شاید در آینده‌ای نزدیک حتی می‌توان بیماران را قادر ساخت تا در مراحل بسیار ابتدایی سرطان بتوانند به درمان آن دسترسی پیدا کنند. https://www.nature.com/artic...

پزشکی شخصی

پزشکی شخصی با آنالیز داده‌های بیمار می‌تواند استراتژی‌های درمانی به خصوصی را برای تک تک بیماران پیدا کند. داده‌هایی که امروزه در دسترس هستند پتانسیل این را دارند تا با آن به تشخیص، درمان و پیشگیری از بیماری پرداخت. البته تمام این‌ها بستگی به توسعه مدل‌های پیشبینی، مدیریت، سازماندهی و به طور کلی آنالیز حجم زیاد داده‌ها دارد که به این داده‌ها Big Data گفته می‌شود. با ابداع نسل بعدی توالی یابی یا همان NGS، تولید داده‌های مربوط به بیماران به طور بسیار قابل توجهی افزایش یافته است. برای مدیریت این داده‌ها از تکنولوژی‌های panomic استفاده می‌شود که ترکیبی از ژنومیکس، اپی‌ژنومیکس، پروتئومیکس و متابولومیکس می‌باشد. پلتفرم‌های بر پایه فضای ابری (Cloud-based) می‌توانند به صورت عملی، مدیریت big data را با استفاده از فضای ابری که نتیجه آن هیچ محدودیت فضای ذخیره و اشتراک‌گذاری آنالیز کنند. این پلتفرم‌ها به آزمایشگاه‌ها اجازه می‌دهند تا با استفاده از یک پلتفرم، پروسه دریافت داده‌ها، ذخیره داده‌ها به صورت چند بعد و انواع آنالیزهای مختلف را به صورت اتوماتیک انجام دهند. بسیاری از مدل‌های پیشبینی ک...

پلتفرم Galaxy

این پلتفرم بر پایه وب، برای تحقیقات محاسباتی بیومدیکال و بیوانفورماتیک استفاده می‌شود. این پلتفرم در ایالت پنسیلوانیا، در جان هاپکینز، OHSU و کلینیک Cleveland که به صورت Open source تحت لایسنس Academic Free License توسعه یافت. این پلتفرم تا به حال بیش از ۶۵۰۰ رفرنس دریافت کرده است و دارای بیش از ۱۰۰ سرور عمومی و بیشتر از آن سرور غیرعمومی می‌باشد. از مزایای این پلتفرم میشه به در دسترس بودن و رابط کاربری دوستانه که نیازی به کدنویسی ندارد، اجرا کردن انواع مختلفی از آنالیزها و workflows و همینطور تجسم داده اشاره کرد. مزیت دیگر این پلتفرم، قابل تکرار بودن آنالیزها است. کاربران حتی می‌توانند با این پلتفرم، آنالیزها و نتایج آن را نشر داد. https://galaxyproject.org

به چه دلیل پست داک نمی‌تواند به شما برای رسیدن به کار بهتر کمک کند؟

در دو تحقیق نشان داده شده است که مهارت‌هایی که در پست داک یاد گرفته می‌شود ممکن است کمکی چندانی به شغل‌هایی که در آینده در بیرون از محیط آکادمیک وجود دارد، نکند. یکی از این مطالعات نشان داد که بین مهارت‌هایی که در پست داک فراگرفته می‌شود و مهارت‌هایی که توسط کارفرما مورد نیاز است، شکاف وجود دارد. https://www.nature.com/articles/d41586-018-07652-y

رشد زبان برنامه‌نویسی R در میان زبان‌های دیگر بسیار چشمگیر است

در واقع رشد استفاده از R را می‌توان مانند زبان Python دانست. در دنیای امروز داده‌ها به طور روز افزون تولید می‌شوند و این باعث ایجاد حجم بسیار بالایی از داد‌ه‌ها خواهد شد، از کاربردهای آکادمیک و سلامت گرفته تا شرکت‌های کوچک. همه این داده‌ها که می‌توان به آن Big Data هم نامید، نیاز به آنالیز دارند. برای این کار بهترین گزینه‌ای که در دسترس می‌باشد، استفاده از R است به همین خاطر این زبان محبوب‌ترین زبان برنامه‌نویسی در میان Data Scientists نیز می‌باشد. بیشترین استفاده از R در بخش‌های آکادمیک و سلامت می‌باشد. در زمینه سلامت، اولین انتخاب متخصصان زیست آماری (biostatisticians) زبان R است که از آن برای مطالعات کلینیکی و بیوانفورماتیک استفاده می‌شود. بر اساس آنالیزهایی که توسط Kaggle انجام شده، بیشترین پکیج‌هایی که در R استفاده می‌شوند عبارتند از dplyr, ggplot2, data.tanle, shiny و plyr که بیشتر این پکیج‌های محبوب توسط Hadley Wickham نوشته شده است. https://stackoverflow.blog/2017/10/10/impressive-growth-r/

چه زبان‌های برنامه‌نویسی بیشترین استفاده را در بیوانفورماتیک دارند؟

سه زبان عمده‌ای که در جامعه بیوانفورماتیک استفاده می‌شوند، "R" آر، "Python" پایتون و "Bash"بش هستند. زبان نخست، R که یک زبان برنامه‌نویسی سطح بالا به حساب می‌آید، با هدف انجام عملیات‌های مختلف آماری در سال توسط Ross Ihaka و Robert Gentleman در دانشگاه اوکلند خلق شد که نخستین ورژن پایدار آن در سال ۲۰۰۰ آزاد شد. برای اطلاعات بیشتر حتما به این صفحه مراجعه کنید. پایتون زبان سطح بالای دیگری است که کاربردهای بسیاری را از محیط آکادمیک، آنالیز داده و هوش مصنوعی گرفته تا طراحی صفحات وب دارد. این زبان توسط Guido van Rossum خلق شد و در سال ۱۹۹۱ اولین ورژن پایدار آن در دسترس همه قرار گرفت. پایتون دارای ۳ ورژن است که آخرین ورژن آن در سال ۲۰۰۸ در دسترس عموم قرار گرفت. بش Bash یک زبان از نوع اسکریپتی می‌باشد که در شل Shell به صورت فرمان (command) نوشته و اجرا می‌شود. این زبان مخصوص سیستم عامل یونیکس (Unix) می‌باشد که می‌توان از مکینتاش و انواع لینوکس نام برد. از کاربردهای اصلی این زبان می‌توان به مدیریت فایل‌ها و داده‌ها اشاره کرد. لینک مفید: http://omgenomics....

دانشمند بچه‌های کریسپری از دانشگاه خود اخراج شد

دانشمندی که در سال ۲۰۱۸ وجود نخستین بچه‌های ویرایش ژن را اعلام کرد، از دانشگاه خود اخراج شد. این تصمیم در ۲۱ ژانویه توسط دانشگاه علوم و تکنولوژی جنوب غرب واقع در شنزن در جنوب چین اعلام شد. مثل اینکه این اتفاق مربوط به ویرایش ژنی بوده که ایشان انجام داده و طی مواردی تحت پیگردهای قانونی قرار گرفته است. https://www.nature.com/articles/d41586-019-00246-2

bioRxiv

بر اساس آنالیز انجام شده بر روی ۳۷۶۴۸ مقاله پیش-چاپ bioRxiv در ۵ سال، تعداد مقالات پیش-چاپ که محققان در سال ۲۰۱۸ در bioRxiv آپلود کرده‌اند، از کل ۴ سال پیش بیشتر می‌باشد. نتایج دیگری که از این آنالیز به‌دست آمد این بود که تعداد دانلود در ماه به یک میلیون رسیده است. بیشتر مقالات پیش-چاپ که آپلود و یا دانلود شده‌اند مربوط به رشته‌های نوروساینس و بیوانفورماتیک است. در رتبه سوم تا ششم نیز بیولوژی تکاملی، ژنتیک، ژنومیکس و میکروبیولوژی قرار دارند. همان طور که در تصویر مشخص است، تا همین اواخر بیوانفورماتیک بیشترین دانلود و آپلود را داشته است که این نشان‌دهنده اهمیت روز افزون این رشته در دنیا است. Reference: https://www.biorxiv.org/content/10.1101/515643v1