ביולוגיה וחישוב נתונים

Forgot password?

Delete Comment

Are you sure you want to delete this comment?

ביולוגיה וחישוב נתונים

אבל מהי ביולוגיה חישובית? בעבר רואים בכך תמיכה במחקר ביולוגי; מערכת כלים העוזרת לענות על שאלות ביולוגיות שנשאלו על ידי חוקרים - חוקרים אמיתיים. עם זאת, כשחושבים על פריצות דרך אחרונות, על פיתוח דינמי של תחום זה ועל ההשפעה שיש לו, קל לראות מדוע אלו בשטח מאמינים שביולוגיה חישובית היא ויהיה הכוח המניע את המחקר הביולוגי. מה שבולט במיוחד הוא השינוי בביולוגיה חישובית ממדע תיאורי למדע מונע נתונים.

הכל התחיל מתוך אילוץ . היה להם ניתונום ולא יכלו לטפל בהם וככה נולדה תחום חדש. כמו כל התחומים הצעירים, הוא היה צריך לנהל משא ומתן על מקומו בנוף המחקר. כיום, הביולוגיה החישובית מתרחבת בזכות טכנולוגיות חדשות והמהפכה הדיגיטלית המתמשכת.

פריצות דרך

חדשן שאי אפשר להכחיש בביולוגיה חישובית, Serafim Batzoglou, בנאום הראשי שלו ב- ISMB 2016, הציג את חזונו לעבר ולעתידה של תחום זה. שיחותיו החלו ברצף של גנום אנושי, דרך מניפולציה של נתונים, לגנומיקה אישית ולבסוף בינה מלאכותית. הוא הצהיר כי הצורך במחקר להתעדכן בטכנולוגיות חדשות עם ציטוט מסדרת הטלוויזיה של עמק הסיליקון:

"אני לא רוצה לחיות בעולם שבו מישהו אחר הופך את העולם למקום טוב יותר ממני"

בשיחותיו אמר סרפים את ההערה השנויה במחלוקת למדי כי AI יחליף את הרופאים הרפואיים בעתיד הקרוב והוא כינה את המועמד שלו לטכנולוגיה החשובה והמבטיחה ביותר: למידה מעמיקה.

למידה עמוקה היא ענף של למידת מכונות המבוססת על מערכת אלגוריתמים המנסים לדגמן הפשטות ברמה גבוהה בנתונים באמצעות גרף עמוק עם שכבת עיבוד מרובה; המורכב מטרנספורמציות לינאריות ולא לינאריות מרובות.

טרנסקריפטומיקס חד-תאים הוכרז כבלתי רשמית כטכנולוגיה המרגשת ביותר ללימוד מערכות ביולוגיות - כאשר שלושה מתוך שישה רמקולים מרכזיים מדברים על התקדמותם האחרונה בעת הטיפול בנתוני טרנסקריפטומיקס תאים בודדים.

סרפים בצלוגו הזכירו גם את אלגוריתם האשכול, המכונה SimlR מאתגר שיטות קיימות להפחתת ממדים. ניתן לקבל את הדפוס המקדים של המאמר בכתובת http://biorxiv.org/.

התייחס גם לנתונים של תא בודד; תוך תשומת לב מיוחדת לטיפול בבעיית היחס בין רעש לאות ושחזור נתונים. במעבדה שלה כלים חזקים יותר של אשכולות נמצאים בפיתוח. לדוגמה: clusterExperiment מחליט על אשכולות המבוססים על שיטות אשכול רבות ובוחרים את אלו שהם הכי יציבים.

שיחת הראשי של שרה טייכמן הראתה דוגמה מתקדמת לחקירת נתונים חד-תאיים. בפרסום היא שותפה למחברים ("גורל Tcell ונקודת התבטאויות מתמלול תאים בודדים"), משוחזרים רצפי רצפטור תאי T-זוגיים באורך מלא (נתוני תא בודד).

מגמה מרכזית כרגע היא לאסוף מידע ברמה הגבוהה ביותר של דיוק ואז לקבץ אותו לגושי ידע משמעותיים המאפיינים את הנתונים בצורה הטובה ביותר ומתאימה למציאות הביולוגית, או אפילו יותר טוב, לגלות חלקים בלתי ידועים של מערכות ביולוגיות. כך מניעה כיום הביולוגיה החישובית את המחקר הביולוגי.

ויהיו עוד; עוד נתונים, יותר אתגרים, תגליות עוצרות נשימה!

אתגרים

אחד מהם הוא חינוך. פיל בורן, מנהל שותף למדעי נתונים של NIH, בסדנא חינוך בביואינפורמטיקה - ניצול משאבים בענן וירטואלי לאימונים, הדגיש את החשיבות של אימוני נתונים בענן כדי לשמור על קצב הטכנולוגיות שפותחו על ידי חברות (למשל אמזון, גוגל, iPlant) . הדור החדש של ביולוגים וביו-אינפורמטיקאים חישוביים, כמו גם חוקרים בכירים, דורשים הכשרה איתנה ומעודכנת. זו הסיבה שה- NIH מציע תוכניות רבות המאפשרות אימונים בענן. למרבה הצער, זה לא המקרה בכל מכוני המחקר כרגע, אבל זה בהחלט אמור להיות בעתיד.

נושא חשוב נוסף שהעלו פיל בורן וסרפים בצוגלו היה החשיבות של שמירת נתונים פתוחים. פיל הזכיר במיוחד את עקרונות הנתונים של FAIR העומדים עבור:

ממצאים, נגישות, יכולת פעולה הדדית ושימוש חוזר - אלה משמשים להנחת מפיקי נתונים ומפרסמים בזמן שהם מנווטים סביב מכשולים, ובכך עוזרים למקסם את הערך המוסף שזוכה לפרסום עכשווי ומדעי.

סרפים בצוגלו תיאר את ההכרח לפרסם נתונים באחת השקופיות בשיחת המרכזית שלו (צוטט):

המכשול הגדול ביותר: זמינות נתונים רחבה וחינמית

אידיאלי

* מיליוני גנום זמין לפרסום, רשומות רפואיות, פנוטיפים, תחומי עניין

* מרחיקי לכת בחוקי אפליה מבוססי נתונים; התחלה נהדרת של ג'ינה

לא אידיאלי

* ממגורות נתונים בבתי חולים, ספקי שירותי בריאות, חברות ממשלתיות ישירות-ישירות

* פרויקטים מומחים בהיקפים גדולים (1000 גנים אך ללא פנוטיפים / רשומות רפואיות)

מה עם פרטיות?

* אף חולי סרטן לא מתו עדיין בגלל הפרת פרטיות הנתונים

* עמוד הפייסבוק שלי חושף דברים הרבה יותר פרטיים מאשר הגנום או התיעוד הרפואי שלי

בואו הופכים את הנתונים שלנו לציבוריים - אם 5% מאיתנו עושים זאת, ככל הנראה מספיק בכדי לעשות את ההבדל הגדול.

בואו נעשה זאת בלי לחכות לחקיקה!

פגמים

עדיין ישנם פגמים ביחס לנתונים גדולים - אך עדיין מייצג תקווה גדולה לביולוגיה חישובית.

לדברי אורי לסרסון מקלודרה (פלטפורמה מובילה לניהול וניתוח נתונים), "גנום אינו מיוחד". הוא הביע את הדעה כי:

ביולוגים חישוביים ממציאים את הגלגל מחדש לניתוח ביולוגיה גדולה של נתונים

למרות שההצהרה נועזת, יש בה אמת. זה נראה כאילו פתרונות תעשייתיים לנתונים גדולים מביאים איכשהו את פתרונות המחקר. זו הסיבה שנדרש שיתוף פעולה נוסף בין מחקר ותעשייה כדי למלא את הפער. מצד שני, שיתוף פעולה זה לא יכול לקרות במחיר של בעלות על נתונים. האקדמיה צריכה למצוא פיתרון כדי למשוך כישרונות בקנה מידה עולמי שנמצא כרגע במקום בו נתונים גדולים קשורים בחוזקה לכסף גדול.

בעיה חוזרת נוספת עבור ביולוגים וביו-אינפורמטיקאים רבים, היא מקומם במחקר ביולוגי. למרות ההכרה המשופרת בהכרה בעבודה חישובית במעבדות רטובות, ישנם עדיין מספר מקומות חסרי מומחיות בניתוח נתונים. שיטות ניתוח ישנות משוחזרות וכתוצאה מכך נפוצות בשימוש על ידי אחרים בתחום - כל זאת מכיוון שמספר חוקרים משתמשים בהן.

תכנות או קלט סטטיסטי אינם מוכרים מספיק וכאן יכול להיות חיכוך כלשהו בין ניסויים ותיאורטיקנים שיכולים להפריע להתקדמות. תוך כדי טיול בסמטאות אולם הכרזות ב- ISMB 2016, שמעו דיווחים רבים על אינטראקציות בין מעבדה רטובה ויבשה. רובם נזכרו במתח, אכזבה או אי הבנה. זו הסיבה שחינוך הוא ממש קריטי. איש אינו יכול להיות מומחה בכל התחומים, אך סקירה מובנת של עולמות אחרים, אוצר מילים משותף ומטרות הם חיוניים לבניית עתיד משותף.

ביולוגיה חישובית נמצאת בלב המהפכה הדיגיטלית. באופן פרדוקסאלי חוסר ועודף נתונים הופכים את המשמעת הזו למסקרנת ומאתגרת ביותר. כאשר מדינות בודדות מקבלות לעיתים קרובות החלטות על מדיניות המשפיעות על כיוון וקצב פיתוח הפתרונות, אין להכחיש את השפעת הנתונים על עתידנו. אבל שוב, מה זה נתונים? קבוצה של מספרים?

Like
Comment
Loading comments