Skip to main content
|

5 דוקטורנטים מהמכון למדעי הנתונים זכו במלגות למצטיינים

סטודנטים של אוניברסיטת בר-אילן זכו השנה בכרבע מתוך סך המלגות שהעניקה הות"ת בתחום מדעי הנתונים

Image
דוקטורנטים

חמישה דוקטורנטים מהמכון למדעי הנתונים באוניברסיטת בר-אילן, זכו במלגות הוועדה לתכנון ולתקצוב לדוקטורנטים מצטיינים. הישג זה מצטבר לכרבע מתוך סך המלגות שהעניקה הות"ת בתחום השנה.

תחום ניתוח הנתונים מצוי בלב המחקר העכשווי והוא נוגע במגוון מחקרים, החל מניסויים ביולוגיים בקנה מידה גדול ועד לדינמיקה חברתית מקוונת. המחקר בתחום הנתונים פותח צוהר להבין, לחזות ולהשפיע על המערכות החשובות ביותר בחיינו. המכון למדעי הנתונים באוניברסיטת בר-אילן, מקשר בין חוקרים האוספים נתונים בקנה מידה גדול, עם אחרים המפתחים כלים לניתוחם, ומספק פלטפורמה מגוונת לשיתוף פעולה חוצה-שדות, במגוון תחומים, בהם מדעי המחשב, מתמטיקה, ביולוגיה, מדעי המוח, משפטים ומדעי הרוח.

הדוקטורנטים שזכו במלגות:


אביב סלובודקין מהמחלקה למדעי המחשב, שמחקרו עוסק ב-Controlled Text Generation מפתח מודלים שמשלבים מידע סמנטי בתהליך ייצור טקסט, וספציפית בתהליך תמצות טקסט. "בצורה כזו, אני מנסה לגרום למודלי ייצור שפה, לדמות יותר את צורה הבנת הטקסט של בני אדם, ובכך להפחית את שכיחותם של טקסטים שגויים או מפוברקים. לשם כך, אני מפרק מודלי ייצור שפה לאבני בניין קטנות יותר, שמאפשרות ביתר קלות לשלב מידע סמנטי".

אלון ערב, מהמחלקה למדעי המחשב, מתרכז בחילוץ ובמיזוג של ידע סמנטי מאוסף מסמכים גדול. "זוהי יכולת הנחשבת לקריטית בהבנת שפה טבעית. לשם כך, אני מנצל משאבי ידע גדולים הזמינים ברשת, שמכילים מֵטָא-נתונים שניתן להבין או להסיק דרכם קשרים סמנטיים בין ישויות או אירועים. אני מנצל את הידע הזה, על מנת לייצר משימות, דאטה-סטים ומודלים לחילוץ ולחיפוש של ידע סמנטי ולקידום מחקר חשוב זה".

רומי גולדנר קבלי, מהמחלקה למדעי החיים, חוקרת בתחום הביואינפורמטיקה, המשלב את עולם הדנ״א האנושי בעולם התוכנה. "המחקר שלי עוסק בשימוש בכלים מעולם הבינה המלאכותית לחקר תאי T - תאים של מערכת החיסון שלהם תפקיד עיקרי בתגובה החיסונית של הגוף. אני משתמשת בכלים כגון עיבוד שפה טבעית ולמידת מכונה, כדי ללמוד את 'השפה' שבאמצעותה התאים מתקשרים, ולנתח תכונות והתנהגויות מגוונות. בימים אלו למשל, אני חוקרת את מחלת הסוכרת (מסוג 1) שהיא מחלה אוטואימונית בה מערכת החיסון של הגוף פועלת כנגדו. דרך תאי ה-T של חולים ושל בריאים, אני מנסה למצוא רצפים (תאים) ספציפיים המבדילים בין האוכלוסיות. אני מאמינה שהתשובות לשאלות הביולוגיות המורכבות ביותר, נמצאות בטריטוריות הלא ידועות של מדעי הנתונים, ולכן אני חותרת להשפיע על האופן שבו אנו מבינים את מערכת החיסון".

רועי רסין, מהמחלקה למדעי המחשב, עוסק בשיפור הייצוגים הווקטוריים בעולמות שבהם טקסט פוגש ממשקים נוספים, למשל, מודלי טקסט לתמונה כמוDALLE וMidJourney . "ממשקים אלו נכשלים לעתים קרובות בפירוש מדויק של ההוראות שהם מקבלים. אחד האתגרים המרכזיים הוא קושי להבין ניואנסים בשפה טבעית: בהינתן תמונה של סוס על כר דשא, מודלים מתקשים להבחין בין התיאור הלגיטימי 'סוס אוכל דשא' לתיאור ההפוך 'דשא אוכל סוס'. התקדמות באפיק הזה תאפשר למודלים ליצור תמונות וסרטונים על בסיס טקסט שכתבנו, בזמן שכל המידע שנמצא בטקסט יופיע בתוצאה. התקדמות זו אפילו תאפשר שליפה של מדיה אחרת (כמו מאגר התמונות בטלפון שלנו) על בסיס תיאור ספציפי (למשל 'חתול שחור לבן משחק בכדור מימין לספה') או תיאור כללי (למשל 'רגעים מרגשים') של המדיה".

ערן הירש, מהמחלקה למדעי המחשב, עוסק באיחוד אסופת מסמכים לצורכי תמצות ומענה על שאלות מורכבות. "עולם המחקר בעיבוד שפות טבעיות, עובר מבעיות סגורות עם טקסטים קצרים, לבעיות פתוחות עם אסופת טקסטים שנשלפים מהאינטרנט. הקושי בעבודה עם אסופת מסמכים הוא להפריד בין מידע חדש לבין מידע חופף, מכיוון שיש הרבה חזרתיות בין פיסות מידע עם רמות שונות של פירוט, והטקסט יכול להיות מנוסח בדרכים שונות רבות. לכן, גם מודלי שפה גדולים מתקשים: הם מבלבלים פיסות טקסט ויוצרים טעויות באיחוד, או שהם מרמים ובוחרים מידע ממסמך בודד, ולכן לא יוצרים קשרים מעניינים. מטרת המחקר שלי היא לבנות ייצוג לאסופת מסמכים ללא יתירות, שיכול לשמש מודלים במשימות המשך".