![Michael Völske,德国巴伐利亚州阿沙芬堡的开发人员](http://assets.toptal.io/images?url=http%3A%2F%2Fbs-uploads.toptal.io%2Fblackfish-uploads%2Ftalent%2F935704%2Fpicture%2Foptimized%2Fhuge-9c12676cf76a2db3c4ccf4d98b1c5b04.jpg&width=524)
Michael Völske
验证专家 in Engineering
机器学习开发人员
迈克尔拥有计算机科学博士学位, 有十年解决复杂数据问题的经验, 并在SIGIR等顶级国际场所发表了十几篇文章, CIKM, 和acl——其中许多是基于网络规模的数据集. 他擅长计划, procuring, 并安装跨数百台服务器的本地数据处理基础设施, 磁盘的pb, 以及千万亿次的计算能力. Michael在现代机器学习方面拥有广泛的知识,并向数百名学生教授基础知识.
Portfolio
Experience
Availability
首选的环境
Linux, Emacs, Visual Studio Code (VS Code), Python 3, Spark, Pandas, Kubernetes, Scikit-learn, Git
最神奇的...
...我分析的数据集是来自一个主要搜索引擎的十亿项查询日志,它教会了我Apache Spark的强大功能,并产生了排名第一的出版物.
Work Experience
在线教学助理讲师
柏林高等技术学院
- 作为自由职业助理讲师,每学期为20多名学生开设一门关于计算机操作系统基础知识的在线课程.
- 设计并管理数字电路实践实验, 汇编语言, 进程调度, 文件系统.
- 创建和管理期中和期末考试.
博士后研究助理
Bauhaus-Universitat魏玛
- 在三年多的时间里,在A-level国际和一些小型场地发表了7篇以上关于信息检索和数据挖掘的研究论文, 通常利用最先进的机器学习和数据处理技术.
- 设计机器学习基础知识的教材,作为年度讲座的一部分,并每年为100多名学生领导一个相关的编程实验室.
- 带领团队进行计划, procure, and install a state-of-the-art GPU computing cluster; designed and implemented the systems for authenticating dozens of researchers using this infrastructure across four institutions.
- 支持和指导11名学生成功完成学士、硕士论文写作.
研究助理
Bauhaus-Universitat魏玛
- 撰写了十几篇关于信息检索的科学出版物, 自然语言处理, and data mining, 其中一半是在a级国际机构发表的. 用Python和Java实现了实验系统.
- 教授机器学习基础的实验课程,并定期举办关于大数据处理架构的研讨会. 在机器学习和数据挖掘领域领导小型学生项目小组.
- 计划并实施采购, installation, maintenance, 以及对计算基础设施的监控, 其中涉及200多个独立服务器.
- 支持和指导11名学生顺利完成学士和硕士论文的撰写.
Experience
讲座及实验课“机器学习导论”
我的职责包括亲自授课和在线授课, 设计课堂材料和实验练习, 并监督助教. 支持相关的编程实验室, 我推出了一个基于kubernetes的Jupyterhub部署,一次最多为100名学生提供服务. 我对神经网络和深度学习的教材进行了大幅度的扩充.
十亿查询日志的查询分类与日志分析
公理信息检索的研究与实现
http://webis.de/publications.html?q=author:volske+axiomatic该研究项目研究了使检索公理直接可用的策略,以使现实世界的搜索引擎受益. CIKM 2016上发表的一项试点研究展示了检索公理如何直接修改结果排名,从而提高搜索结果质量. ICTIR 2021的后续工作展示了检索公理如何为任意排名生成解释, 使复杂的相关评分函数(如基于深度神经网络的函数)更具可解释性. 我实现的公理化重新排序管道还发表了几篇文章.
采购、安装和维护计算基础设施
挖掘Reddit的抽象摘要地面真实数据
http://webis.de/data/webis-tldr-17.html我领导了一项工作,从Reddit平台上发布的社交媒体帖子中挖掘了400多万对人工撰写的来源摘要, 用户经常把长消息总结为对读者的礼貌, prefixing the summary with "TL;DR" ("too long; didn't read") or similar. 处理输入数据的规模(所有Reddit帖子直到2017年), 我利用了Hadoop和Spark等技术. 由此产生的Webis-TLDR-17数据集构成了INLG 2019上由来自行业和学术界的混合研究团队组织的抽象摘要共享任务竞赛的基础. 我们的数据集随后被纳入Huggingface和TensorFlow数据集库,到目前为止已被40多篇出版物引用.
Skills
Languages
Python 3, Python, Java, C, Ada, JavaScript, Scala, SQL
Paradigms
数据科学,DevOps
Other
机器学习, 信息检索, 工程数据, 大学教学, 技术写作, IT基础设施, GPU Computing, Programming, Data Mining, 网络技术, Statistics, Linear Algebra, Optimization, Data Analysis, 云架构, 自然语言处理(NLP), 数据可视化, Text Mining, Big Data, 正则表达式, GPT, 生成预训练变压器(GPT)
Frameworks
Spark, Hadoop
Libraries/APIs
Pandas, Scikit-learn, PyTorch
Tools
Git, LaTeX, SaltStack, Emacs, Jupyter, GitLab
Platforms
Linux, Kubernetes, Docker, Visual Studio Code (VS Code), Jupyter Notebook
Storage
JSON, Ceph, PostgreSQL, On-premise
Education
计算机科学博士
Bauhaus-Universität魏玛-魏玛,德国
计算机科学硕士学位
Bauhaus-Universität魏玛-魏玛,德国
如何使用Toptal
在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.
分享你的需求
选择你的才能
开始你的无风险人才试验
对顶尖人才的需求很大.
Start hiring