V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
wzf611
V2EX  ›  奇思妙想

黑洞照片数据交给码农处理?

  •  
  •   wzf611 · 2019-04-12 09:19:23 +08:00 · 8456 次点击
    这是一个创建于 2082 天前的主题,其中的信息可能已经有所发展或是发生改变。

    天文学家近日公布了第一张黑洞的照片,验证了广义相对论。

    这张黑洞照片使用了 5PB 的数据。 https://globalnews.qq.com/article/20190411A02SMU00

    一名参与该项目的 MIT 学生表示,“获得第一张照片将归功于为一个国际科学家小组,一个地球大小的望远镜和一个将照片最后完成的算法。” https://www.ted.com/talks/katie_bouman_what_does_a_black_hole_look_like/transcript?language=en#t-52468

    跟码农工作最接近的就是“一个将照片最后完成的算法”。

    具体到这个算法,根据介绍,关键是将分布在全球的 8 台望远镜数据整合到一起。 http://news.mit.edu/2016/method-image-black-holes-0606 Computational Imaging for VLBI Image Reconstruction https://dspace.mit.edu/handle/1721.1/103077

    类比一下,这个工作有点像现在的双 /三摄手机,将不同摄像头采集的影像合成为一张照片。但数据量、计算量远远大于双 /三摄照片合成(类似于从 8 个角度拍摄的照片,每张照片 7000TB,最后合成为一张)。

    我在想,如果把数据处理工作交给 IT 界,如何能够更加高效得完成这项工作?哪些工业界的技术(包括不限于计算、存储、通讯)能够应用到这项工作中?

    第 1 条附言  ·  2019-04-12 12:08:40 +08:00
    谢谢各位回复~

    可能之前没说具体,举几个例子抛砖引玉:

    1. 这次存储用的是 HGST 的氦气 HDD,如果换成 SSD 呢?
    使用氦气硬盘: https://searchstorage.techtarget.com/news/4500254046/HGST-helium-drives-store-black-hole-research-data
    实际上,NASA 和 ESA 已经在尝试、研究在星载设备上使用 SSD:
    NASA 的火星探测器(虽然出了点问题)-“ This comes four years after NASA was able to salvage the rover from a near-death experience related to its flash memory solid-state drive.”
    https://www.neweggbusiness.com/smartbuyer/awesome/good-run-nasas-mars-rover-tells-us-ssd-life/

    ESA-“ the use of NAND flash in space applications is not as established as in the consumer market and is still under research ”
    https://www.esa.int/Our_Activities/Space_Engineering_Technology/Onboard_Computer_and_Data_Handling/Onboard_Storage

    星载设备对存储密度、环境适应的要求可能比地表设备高很多,maybe 或许航天使用 SSD 的经验可以借鉴到望远镜上。

    ![avatar]( https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1555645448&di=726192fcfaca9f066ae9d58baa87b70e&imgtype=jpg&er=1&src=http%3A%2F%2Fwx3.sinaimg.cn%2Flarge%2Fad83bc34ly1g1yt0v12ejj20c806vq83.jpg)

    2.接着上面的存储说,ConduIT Corp.基于 HGST 的 HDD 为此次黑洞成像工作打造了磁盘阵列架( chassis ),“ Each chassis contains eight HelioSeal HDDs configured in a RAID array for 96 TB of raw storage ”

    那么,9012 年的华为或许能接这个活?
    “在 IDC 最新公布的 2018 年 Q3 全球企业存储市场报告中,华为存储持续增长,市场收入位列全球第四”-https://zhuanlan.zhihu.com/p/52756869

    3.计算方面 类比黑洞成像和双摄成像可能的确不太妥当,举这个例子是因为双摄跟我们日常生活更接近。
    实际上,跟黑洞成像更接近的是合成孔径雷达(遥感测绘、军事用的比较多)、磁共振(医院里检查腰椎间盘突出的那个)和 CT
    “ VLBI image reconstruction has similarities with other spectral image reconstruction problems, such as Syn- thetic Aperture Radar (SAR), Magnetic Resonance Imaging (MRI), and Computed Tomography (CT)”-那个 MIT 小姐姐的论文 https://dspace.mit.edu/openaccess-disseminate/1721.1/103077

    所以算法大佬们或许在傅里叶变换、降噪等等技术上能够再针对性提高一下计算效率。比如,我注意到这次黑洞成像有 2 家工业界的合作伙伴( Industry Donors ),一家就是上面提到的 HGST,另一家是 Xilinx。官网-https://eventhorizontelescope.org/industry-donors
    所以猜测这次跑算法用了 FPGA ?

    4.通讯方面 处理数据花了 2 年时间,除了计算的时间,等待南极的那一台望远镜数据就等了半年,因为采集数据之后的半年南极的天气恶劣,以至于飞机无法起降。如果有适合的通讯技术能把偏远地区的大数据( 7000TB 量级)及时传送,也能有效提高黑洞成像的效率。
    第 2 条附言  ·  2019-04-12 12:08:58 +08:00
    PS:黑洞成像的科学一面可能码农的确不懂,技术方面或许真能有所贡献。到时候中国有类似的项目,码农们或许能带着自己写的快速傅里叶变换在 FPGA 上实现的代码去贡献一点微薄之力。

    PS2:我觉得码农们不用妄自菲薄,诺贝尔奖得主 P. B. Medawar 老爷子回顾自己的科研经历时说“ Technicians often are, and always ought to be, better than "academic ” or teaching staff at certain theoretical or practical operations."《 Aspects of Scientific Life and Manners 》 p35
    42 条回复    2019-04-13 20:51:56 +08:00
    CEBBCAT
        1
    CEBBCAT  
       2019-04-12 09:31:56 +08:00 via Android
    歪个楼:先上个 Redis 把数据缓存了
    lance6716
        2
    lance6716  
       2019-04-12 09:34:13 +08:00 via Android   ❤️ 1
    现在工业界的地位这么高了吗,都能超过 MIT 了
    murmur
        3
    murmur  
       2019-04-12 09:34:46 +08:00   ❤️ 1
    码农跨界天文学?
    这照片的难度不是在数据量大
    而是在 5pb 的数据找出能用来合成照片的部分
    你合成出的照片又要好看还得科学
    whileFalse
        4
    whileFalse  
       2019-04-12 09:40:30 +08:00
    5PB 的量对于码农来说问题不大。

    如 ls 所说,5PB 里面大部分是不需要的数据;首先要在每个文件中提取需要的部分,这一步可以滤掉大部分数据。第二步再把数据合并。

    使用 AWS 或其他云处理 PB 级数据是有很多先例的。
    learnshare
        5
    learnshare  
       2019-04-12 09:42:49 +08:00   ❤️ 1
    SETI@HOME https://setiathome.berkeley.edu/
    Galaxy Zoo http://zoo1.galaxyzoo.org/
    都是面向公众开放的项目,而且持续多年了

    天文学是一门以观测为主的科学,数据处理是比较日常的工作。论编程能力,应该比 IT 界高出不少了
    celeron533
        6
    celeron533  
       2019-04-12 09:43:00 +08:00   ❤️ 17
    楼主搞混了科学家、程序员和码农之间的区别
    科学家 1 使用计算机:编写特定(甚至是目前市面上不存在)的算法,完成某种科学计算任务
    科学家 2 使用计算机:写操作系统、数据库软件、并发处理调度机制软件等
    程序员:依据业务和实际需求,编写业务或者业务相关的框架、工具、实用部分程序。比如写了在线商城、相关的中间件、数据库访问层等
    码农:ctrl-c ctrl-v
    Sylv
        7
    Sylv  
       2019-04-12 09:43:10 +08:00 via iPhone   ❤️ 3
    2017 年的 Ted 演讲《 How to take a picture of a black hole 》
    ipwx
        8
    ipwx  
       2019-04-12 09:44:24 +08:00   ❤️ 1
    超算是性价比很低的大型科学计算设备,但也是最高效的。你工业界的并行计算只是权衡了成本和性能而已,一堆通讯开销。至于上超算,你可真是外行知道内行了,所以不要瞎起劲。
    yanaraika
        9
    yanaraika  
       2019-04-12 09:48:38 +08:00 via Android
    现代科学都是一个系统工程。cern 里几千位码农+一堆开源项目了解一下
    lyshine
        10
    lyshine  
       2019-04-12 09:49:14 +08:00
    总结一句话就是班门弄斧, 祖师爷面前献丑. 自己有兴趣就玩玩. 你还 IT 界 ? 你知道你 IT 界的底层都是人家随手搞出来的吗
    youngxu
        11
    youngxu  
       2019-04-12 09:52:17 +08:00 via Android
    笑死我了,你以为“ IT 届”、“工业界”在科学计算乃至技术领域比科研界厉害吗?
    youngxu
        12
    youngxu  
       2019-04-12 09:53:07 +08:00 via Android
    WWW 只是 CERN 当年处理数据时随手创造的东西
    keith1126
        13
    keith1126  
       2019-04-12 09:55:12 +08:00
    是不是太高估所谓的"工业界"了...残酷一点来说,不少人"学界"混不下去了才转去"工业界"
    across
        14
    across  
       2019-04-12 09:56:49 +08:00
    这是不是有点井蛙了,估计楼主都没看过计算机科学基础····

    计算机、算法之类的,最开始就是科学家研究的一个工具,叫他们“码农”,好比说诺贝尔是个挖洞工人,因为他搞鼓出的炸药,然后经常被用在工程里··
    strive
        15
    strive  
       2019-04-12 09:58:05 +08:00
    想多了,NASA 里面随便走出来一个工程师都可以秒杀一大片。说个段子,苹果和谷歌的人员招聘最害怕的竞争对手就是 NASA
    zzzzzzZ
        16
    zzzzzzZ  
       2019-04-12 10:02:28 +08:00
    @youngxu

    码农界差不多等同于科研界大佬随手创世时期打出来的一块破碎虚空里面的小界,修炼环境和修真天才都非常稀少
    IanPeverell
        17
    IanPeverell  
       2019-04-12 10:05:55 +08:00
    你让码农去处理这些数据和让科学家去处理上千万级的并发的结果都是一样,就是浪费时间。不同领域的东西,即使你花费大量时间去解决了有什么用?做好自己领域的工作就得了。

    还有工业界不如学术界……这就像造桥工程师和桥梁科学家一样,你理论性不代表你就能实际造出来;你造出来不代表你就能在理论上有所建树。当然,如果只懂得复制粘贴那种,那就是搬砖的工人吧。
    paperseller
        18
    paperseller  
       2019-04-12 10:07:30 +08:00 via Android
    这次的黑洞照片合并算法就是由七楼给的 ted 演讲者 Katie bouman 领导编写的
    HackerOO7
        19
    HackerOO7  
       2019-04-12 10:07:57 +08:00
    居然类比为多摄手机。。 基本的物理知识都不具备嘛
    zycpp
        20
    zycpp  
       2019-04-12 10:31:53 +08:00 via iPhone
    高看程序员了
    7654
        21
    7654  
       2019-04-12 10:37:40 +08:00
    我们只是实践者,他们是开拓者
    SeanChense
        22
    SeanChense  
       2019-04-12 10:49:32 +08:00
    一叶障目不见泰山
    SeanChense
        23
    SeanChense  
       2019-04-12 10:50:20 +08:00
    给你几个积分公式就会大呼加估时也完不成
    darmau
        24
    darmau  
       2019-04-12 10:52:35 +08:00
    你问一下这里的人,技术主管和大学教授,他们愿意做哪个?为什么没去做教授

    ……因为水平不够啊
    Yiki
        25
    Yiki  
       2019-04-12 11:10:36 +08:00
    码农- -?
    你太看得起码农了……
    aREMbosAl
        26
    aREMbosAl  
       2019-04-12 11:15:25 +08:00
    这个根本不是多摄手机那回事儿。这个从无数可能的合成的照片中根据已有信息得到最可能那一张的办法。。。
    amon
        27
    amon  
       2019-04-12 11:32:09 +08:00
    其实是用 8 台华为 P30 拍的。
    bzi
        28
    bzi  
       2019-04-12 11:38:15 +08:00
    明显书读得太少
    jadec0der
        29
    jadec0der  
       2019-04-12 12:18:18 +08:00   ❤️ 1
    有些人想当然了,科学家能力确实更强,但是并不会把精力放在写代码上,只要能用就行,软件做的再好也比不上论文。

    我之前接触过 CERN 给 LHC 做的网格计算框架 Gaudi,做的也不错,但是没法和 Hadoop, Spark 比。
    jadec0der
        30
    jadec0der  
       2019-04-12 12:24:40 +08:00
    还有人用万维网举例并没有什么意义,物理学家用计算机用得早,所以捣鼓一个 www 出来用,不代表他们会一直把精力投入在计算机研究上,够用、能传递信息就行了。就像中国第一个接入互联网的单位是中科院高能所,他们当年工作需要就先搞了,但是主业还是物理学,后来的技术投入当然不能和互联网公司比。
    waterboy
        31
    waterboy  
       2019-04-12 12:24:57 +08:00
    又是一个以为程序员天生高智商高能力的
    说个不严谨的,人家是科学,后面还有技术,高等级程序员可以归到技术里面,大多数码农,也就是个应用
    notreami
        32
    notreami  
       2019-04-12 12:31:28 +08:00
    5PB 嘛。。先整个 100PB 的内存
    6IbA2bj5ip3tK49j
        33
    6IbA2bj5ip3tK49j  
       2019-04-12 13:00:40 +08:00
    1 先上 redis 缓存。
    2 然后找个开源框架。
    3 数据导进去,跑一下。
    4 看下结果。
    5 如果对结果不满意,调一下参数跳到 3。对结果非常不满意跳到 2。

    问题已经解决了,谁发 offer ? NASA 还是欧洲南方天文台。工资是面议还是怎么搞?在线等。
    gavindexu
        34
    gavindexu  
       2019-04-12 13:06:23 +08:00 via iPhone
    @xgfan #31 找……找个开源框架🤣🤣🤣
    iVeego
        35
    iVeego  
       2019-04-12 13:10:59 +08:00 via Android
    @Sylv http://m.open.163.com/movie?plid=MCJKU9VA8&rid=MCJL0MKFU
    我来补充个有字幕的。讲的很棒,有点紧张,但是逻辑很清晰,我一个外行人都听懂了。
    longbye0
        36
    longbye0  
       2019-04-12 14:29:24 +08:00
    应该算是 computing photography 的范畴吧,类似多光谱到伪 rgb ?
    wzf611
        37
    wzf611  
    OP
       2019-04-12 14:37:26 +08:00
    @longbye0 是的,可能跟 InSAR 更接近一点,用多个观测的干涉。但接触过的高程( DEM )干涉一般也就用 2 个 sensor,没有望远镜这么多
    CEBBCAT
        38
    CEBBCAT  
       2019-04-12 21:27:37 +08:00
    @iVeego #33 这个视频有字幕呀,你点小齿轮看看。有三十多个语言的字幕可选呢
    Taojun0714
        39
    Taojun0714  
       2019-04-13 01:23:28 +08:00 via iPhone
    @zzzzzzZ 学术界到七十年代都写不对一个快排
    qianmeng
        40
    qianmeng  
       2019-04-13 12:46:24 +08:00 via Android
    黑洞照片锐化不够
    dabaibai
        41
    dabaibai  
       2019-04-13 15:07:25 +08:00
    那么 下载地址呢
    xiaojay
        42
    xiaojay  
       2019-04-13 20:51:56 +08:00
    代码: https://github.com/achael/eht-imaging
    数据: http://vlbiimaging.csail.mit.edu
    感兴趣的自己去看看呗 :)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1038 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 19:43 · PVG 03:43 · LAX 11:43 · JFK 14:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.